Найти в Дзене
Трудный русский

Почему при машинном переводе бывают ошибки?

На этом канале я пишу про разные языки и при этом, что греха таить, часто пользуюсь Гугл-переводчиком. Однако мои читатели иной раз пишут мне в комментариях, что перевод сделан неправильно. Пришлось-таки мне вникать, как работает Гугл-переводчик и почему возникают ошибки.

Другие статьи канала

На этом канале я пишу про разные языки и при этом, что греха таить, часто пользуюсь Гугл-переводчиком. Однако мои читатели иной раз пишут мне в комментариях, что перевод сделан неправильно. Пришлось-таки мне вникать, как работает Гугл-переводчик и почему возникают ошибки.

Есть и другие программы, которые позволяют автоматически переводить тексты с одного языка на другой, но Гугл – самый популярный. Сегодня он предоставляет возможность перевода на 108 языков.

Итак, я выяснила, что самая частая причина ошибок – это то, что значение слова очень зависит от контекста, то есть от других слов, которые его окружают.

Во всех языках бывают омонимы – слова, которые звучат одинаково, а значения имеют разные. Если вам надо перевести слово данные, робот не всегда может понять, имеете ли вы в виду значение «эти» или «информация». Но современная нейронная сеть позволяет обучать робота-переводчика. Сейчас он уже способен выбрать слово bow, а не onion при переводе на английский язык словосочетания «лук из красного дерева».

А кроме омонимов, много других случаев, когда слово употребляется в других, несвойственных ему значениях. Метафоры у поэтов там всякие, метонимии - попробуй бедный робот их переведи)

Другая причина ошибок в том, что не все языки одинаково хорошо изучены. Если к английскому слову, например, предлагаются синонимы, другие варианты перевода, варианты контекстного употребления и другие полезные данные, то для некоторых языков есть просто один перевод, который в определенном контексте может быть неверным.

Третья причина. Любой язык – это не застывшее раз и навсегда явление. Язык непрерывно, ежесекундно, постоянно меняется, обновляется, в нем протекают процессы на всех уровнях – и в фонетике, и в словообразовании, и во всех других. И уж, конечно, появляются новые слова, а какие-то ранее бытовавшие слова устаревают и выходят из употребления. Робот попросту не успевает отслеживать все явления во всех языках. К тому же он пока не может определить, в какое время создан текст и какое значение может в нем иметь слово. Но стремится к этому.

И четвертая причина, на мой взгляд, повинная в ошибках, которые вызвали претензии у читателей.

Не всегда существуют словари, в которых даны прямые соответствия слов одного и другого языка. Навряд ли существуют словари маори и таджикского языков или эстонского и бирманского. В таком случае робот обычно переводит их через посредника – английский язык, а в результате возникают дополнительные ошибки.

В некоторых случаях нет даже прямого перевода на английский. Тогда робот переводит текст на близкородственный язык, потом на английский, и только потом на тот, на который нужно перевести.

К примеру, украинский и белорусский текст сначала переводятся на русский, потом на английский и уже в последнюю очередь на какой-то другой язык.

Вот еще несколько схем:

галисийский ↔ португальский ↔ английский ↔ другой

македонский ↔ болгарский ↔ английский ↔ другой

словацкий ↔ чешский ↔ английский ↔ другой

урду ↔ хинди ↔ английский ↔ другой

Стоит признать, что в автоматическом переводе текстов наблюдается очень заметный прогресс. Так при испано-английских и англо-французских переводах точность перевода приближается к 85-90%.

Разработчики обещают научить робота в скором времени переводить устную речь и видеофайлы. Будем ждать.

#машинный перевод #автоматический перевод

#английский язык #иностранные языки #языки мира