Найти тему
Accent Language Center

Трудности машинного перевода

Уже в 17 веке появились первые идеи о создании машинного перевода, и даже были предприняты некоторые попытки создать машинные словари, однако только в XX веке с зарождением компьютерной технологии человечеству удалось добиться заметного успеха на этом пути.

И все же, в течение всей истории развития машинного перевода, любой прогресс сопровождался завышенными требованиями и невозможными ожиданиями. Разговорный язык слишком быстрый и несвязный для машинного перевода. Устная речь полна
фальстартов, самоперебивов, повторов, кроме того машина не может распознать тон говорящего, культурные отсылки, идиоматические обороты и юмор.

Трудности машинного перевода - accent-center.ru
Трудности машинного перевода - accent-center.ru

Люди, владеющие только одним языком, всегда с восторгом принимают новости о разработке новой бесплатной программы для машинного перевода текстов. А вот те из нас, кто уже успел выучить один, а лучше несколько иностранных языков, улыбаются и неодобрительно качают головой, особенно если они знают язык оригинала или перевода.

И хотя существует поверье, что машинный перевод идет вперед семимильными шагами, на самом же деле прогресс гораздо менее впечатляющий. Согласно известной легенде, цитата из Библии «
the spirit is willing but the flesh is weak» (англ. «дух бодр, плоть же немощна») посредством усилий машинного перевода превратилась в «the vodka is good, but the meat is rotten» (англ. «водка хорошая, а мясо протухло»).

Любые достижения даются машинному переводу с большим трудом. Причина заключаются в том, что все языки обладают одной общей чертой: многозначностью слов и неоднозначностью их связи в предложении. В своем родном языке мы все блестяще научились расшифровывать такие «лингвистические загадки» и определять значение по контексту. Только вот прошлый опыт и контекст очень сложно смоделировать в компьютерной программе.

Один из подходов машинного перевода основывается на обработке данных о грамматике языков оригинала и перевода, а именно – правил морфологии и синтаксиса, а также семантический анализ обоих языков.
Более современный подход основывается на так называемом статистическом машинном переводе, который сегодня стал основным направлением деятельности в области машинного перевода. Статистические методы не требуют знания переводимых языков, а также сбора и обработки данных по грамматике и лексикологии. Вместо этого этот метод фокусируется на постоянно пополняющихся одноязычных и двуязычных корпусах. Статистический машинный перевод исходит из того, что каждый язык должен уметь описывать схожий набор мыслей, соответственно, и используемые для этого слова должны быть похожи. Смысл заключается в том, чтобы создать так называемое «языковое пространство», которое представляет собой набор векторов, соединяющих одно слово с другим. Оказалось, что в этом векторном пространстве у языков много общего, что означает, что к процессу преобразования одного языка в другой можно отчасти подойти с точки зрения математики.


Многие исследователи применяют смешанные подходы, основанные на комбинировании языковых правил со статистическими моделями. Недавно Google использовал около 200 миллиардов новых слов и фраз, чтобы обучить систему. Модель Google может учиться определять вероятность того, что «X» в языке оригинала будет переводиться как «Y» в языке перевода. Теоретически, чем больше данных загружать в систему, тем точнее она будет угадывать в дальнейшем.

Даже невзирая на такие убедительные попытки, машинный перевод по-прежнему критикуют за то, что его качество все равно не сравнится с работой переводчика-человека. И все же стандарты перевода за последнее время сильно снизились, поскольку общение в Интернете зачастую требует быстрой реакции, даже в ущерб качеству.

Реальность на сегодняшний день такова, что больше половины всего Интернет-контента не на английском языке, а трое из четырех пользователей Интернета не являются носителями английского языка. Китайский язык занимает первое место в мире по числу носителей, и количество китайскоязычных пользователей во всемирной сети растет с каждым днем, что, конечно же, заставляет исследователей-лингвистов обратить внимание на проблему машинного перевода между английским и китайским языками.
Первое, что бросается в глаза, это несопоставимо большее количество китайских символов по сравнению с английским алфавитом, в особенности учитывая, что точное число иероглифов в китайском языке неизвестно. При этом считается, что среднестатистический образованный китаец знает от 3000 до 4000 иероглифов. Кроме того в китайском языке существуют традиционные и упрощенные иероглифы, а также разные варианты одних и тех же иероглифов.

Во-вторых, отдельную проблему представляет собой разделение слов в предложении. В английском, как, впрочем, и в большинстве других языков, каждое произносимое слово обозначается на письме рядом букв, разделяемых с двух сторон пробелами. В китайском же мы не можем пользоваться этой же системой для разделения слов, поскольку в китайском письме между элементами письменного текста не ставятся пробелы. Следовательно, перед тем как перейти к морфологическому анализу текста, сначала необходимо пройти дополнительный этап сегментации, чтобы разбить бесконечную цепочку
иероглифов на отдельные кусочки-слова.


Структура китайского и английского языка также различается, в частности порядок, который занимают в предложении определяемые слова и придаточные определительные. В английском любые определяющие слова, будь то прилагательные, группа существительных или придаточные определительные предложения, могут стоять как до, так и после определяемого слова. А вот в китайском определяющие слова почти всегда стоят перед определяемым словом, причем такие определяющие конструкции (а их в китайском несколько видов) могут быть достаточно длинными. Так что неудивительно, что даже на данном этапе своего развития программы, переводя с китайского, сталкиваются с бóльшими трудностями, чем при работе с любыми другими европейскими языками.

Денискина Елена. редактор компании АКЦЕНТ
Корпоративный английский для сотрудников компаний.