Уже в 17 веке появились первые идеи о создании машинного перевода, и даже были предприняты некоторые попытки создать машинные словари, однако только в XX веке с зарождением компьютерной технологии человечеству удалось добиться заметного успеха на этом пути.
И все же, в течение всей истории развития машинного перевода, любой прогресс сопровождался завышенными требованиями и невозможными ожиданиями. Разговорный язык слишком быстрый и несвязный для машинного перевода. Устная речь полна фальстартов, самоперебивов, повторов, кроме того машина не может распознать тон говорящего, культурные отсылки, идиоматические обороты и юмор.
Люди, владеющие только одним языком, всегда с восторгом принимают новости о разработке новой бесплатной программы для машинного перевода текстов. А вот те из нас, кто уже успел выучить один, а лучше несколько иностранных языков, улыбаются и неодобрительно качают головой, особенно если они знают язык оригинала или перевода.
И хотя существует поверье, что машинный перевод идет вперед семимильными шагами, на самом же деле прогресс гораздо менее впечатляющий. Согласно известной легенде, цитата из Библии «the spirit is willing but the flesh is weak» (англ. «дух бодр, плоть же немощна») посредством усилий машинного перевода превратилась в «the vodka is good, but the meat is rotten» (англ. «водка хорошая, а мясо протухло»).
Любые достижения даются машинному переводу с большим трудом. Причина заключаются в том, что все языки обладают одной общей чертой: многозначностью слов и неоднозначностью их связи в предложении. В своем родном языке мы все блестяще научились расшифровывать такие «лингвистические загадки» и определять значение по контексту. Только вот прошлый опыт и контекст очень сложно смоделировать в компьютерной программе.
Один из подходов машинного перевода основывается на обработке данных о грамматике языков оригинала и перевода, а именно – правил морфологии и синтаксиса, а также семантический анализ обоих языков.
Более современный подход основывается на так называемом статистическом машинном переводе, который сегодня стал основным направлением деятельности в области машинного перевода. Статистические методы не требуют знания переводимых языков, а также сбора и обработки данных по грамматике и лексикологии. Вместо этого этот метод фокусируется на постоянно пополняющихся одноязычных и двуязычных корпусах. Статистический машинный перевод исходит из того, что каждый язык должен уметь описывать схожий набор мыслей, соответственно, и используемые для этого слова должны быть похожи. Смысл заключается в том, чтобы создать так называемое «языковое пространство», которое представляет собой набор векторов, соединяющих одно слово с другим. Оказалось, что в этом векторном пространстве у языков много общего, что означает, что к процессу преобразования одного языка в другой можно отчасти подойти с точки зрения математики.
Многие исследователи применяют смешанные подходы, основанные на комбинировании языковых правил со статистическими моделями. Недавно Google использовал около 200 миллиардов новых слов и фраз, чтобы обучить систему. Модель Google может учиться определять вероятность того, что «X» в языке оригинала будет переводиться как «Y» в языке перевода. Теоретически, чем больше данных загружать в систему, тем точнее она будет угадывать в дальнейшем.
Даже невзирая на такие убедительные попытки, машинный перевод по-прежнему критикуют за то, что его качество все равно не сравнится с работой переводчика-человека. И все же стандарты перевода за последнее время сильно снизились, поскольку общение в Интернете зачастую требует быстрой реакции, даже в ущерб качеству.
Реальность на сегодняшний день такова, что больше половины всего Интернет-контента не на английском языке, а трое из четырех пользователей Интернета не являются носителями английского языка. Китайский язык занимает первое место в мире по числу носителей, и количество китайскоязычных пользователей во всемирной сети растет с каждым днем, что, конечно же, заставляет исследователей-лингвистов обратить внимание на проблему машинного перевода между английским и китайским языками.
Первое, что бросается в глаза, это несопоставимо большее количество китайских символов по сравнению с английским алфавитом, в особенности учитывая, что точное число иероглифов в китайском языке неизвестно. При этом считается, что среднестатистический образованный китаец знает от 3000 до 4000 иероглифов. Кроме того в китайском языке существуют традиционные и упрощенные иероглифы, а также разные варианты одних и тех же иероглифов.
Во-вторых, отдельную проблему представляет собой разделение слов в предложении. В английском, как, впрочем, и в большинстве других языков, каждое произносимое слово обозначается на письме рядом букв, разделяемых с двух сторон пробелами. В китайском же мы не можем пользоваться этой же системой для разделения слов, поскольку в китайском письме между элементами письменного текста не ставятся пробелы. Следовательно, перед тем как перейти к морфологическому анализу текста, сначала необходимо пройти дополнительный этап сегментации, чтобы разбить бесконечную цепочку иероглифов на отдельные кусочки-слова.
Структура китайского и английского языка также различается, в частности порядок, который занимают в предложении определяемые слова и придаточные определительные. В английском любые определяющие слова, будь то прилагательные, группа существительных или придаточные определительные предложения, могут стоять как до, так и после определяемого слова. А вот в китайском определяющие слова почти всегда стоят перед определяемым словом, причем такие определяющие конструкции (а их в китайском несколько видов) могут быть достаточно длинными. Так что неудивительно, что даже на данном этапе своего развития программы, переводя с китайского, сталкиваются с бóльшими трудностями, чем при работе с любыми другими европейскими языками.
Денискина Елена. редактор компании АКЦЕНТ
Корпоративный английский для сотрудников компаний.