Найти в Дзене
Техникум

Как работают онлайн-переводчики, и причём здесь ООН

Разбираемся, что происходит в недрах Гугл-транслейта.

Источник: Google
Источник: Google

Вы наверняка хоть раз пользовались онлайн-переводчиками. Пусть они не всегда идеально работают – главное, что с их помощью можно читать тексты и общаться с людьми на языках, которые мы даже близко не изучали. Что стоит за технологией машинного перевода? Ответим в этом материале.

Алгоритмы перевода начали появляться ещё в девятом веке во многом благодаря арабскому философу аль-Кинди. Он написал немало трудов по криптографии, статистике, логике, лингвистике, и некоторые методы анализа легли в основу сегодняшних онлайн-переводчиков.

Абу Юсуф Якуб ибн Исхак аль-Кинди. Источник: 1001 Inventions
Абу Юсуф Якуб ибн Исхак аль-Кинди. Источник: 1001 Inventions

В 1954 году состоялась первая открытая демонстрация автоматизированного переводчика. Это была разработка Джорджтаунского университета и компании IBM, которая могла переводить более 60 предложений с русского на английский. Она переводила слова по отдельности, опираясь на словари, поэтому переводы были довольно нескладными.

Аппарат IBM 701. Источник: Time
Аппарат IBM 701. Источник: Time

Настоящий прогресс наметился в 90-е годы. Тогда интернет открыл доступ к огромному количеству текстов на разных языках, которые машины могли анализировать. Среди основных методов перевода выделяют "основанный на правилах", статистический и нейронный.

Первый считается традиционным. Он переводит фразы на основе морфологических и синтаксических правил, которые внесены в систему. Его главный недостаток в том, что фразы должны вписываться в чёткие рамки, поэтому метод плохо подходит для перевода текстов.

Давайте посмотрим на примере самого популярного, пожалуй, Google Переводчика, в чем суть методов, какой лучше и точнее.

Источник: Google
Источник: Google

Google Переводчик появился в 2006 году и сейчас может переводить как печатный текст, так и устную речь. Что происходит где-то там на далёких серверах, когда вы пытаетесь перевести на русский какую-нибудь статью, текст песни, или непонятный сленг из сериала Netflix?

Сначала специальные алгоритмы преобразуют устную речь (если вы что-то произнесли) в письменную, а потом уже переводят с одного языка на другой. Расшифровка речи – отдельный сложный процесс, и в одной из наших статей мы рассказывали, как он устроен.

Источник: iunewind, Getty Images
Источник: iunewind, Getty Images

В первое время система использовала статистический метод. И ей нужно было научиться. В случае с Google, за основу брались тексты ООН и Европарламента, переведённые на разные языки. Дальше словам присвоили числа. Это специальные метки, которые определяют, как часто слова используются в языке.

Для того чтобы перевести фразу с одного языка на другой, система сравнивает тысячи текстов одинакового содержания на разных языках. Она выявляет слова, которые, вероятно, совпадают по смыслу, и сохраняет их в матрице. Статистическая модель не переводит предложения целиком. Она выделяет отдельные слова и словосочетания и сопоставляет их с сохранённой информацией. Потом система, опираясь на статистику, выбирает оптимальный, самый употребляемый вариант перевода.

-6

Кстати, поначалу Google переводил текст не напрямую, то есть, скажем, не с русского на французский. Сначала он перекладывал фразы на английский в качестве промежуточного звена, а потом уже на нужный язык.

Главный минус статистической модели в том, что не учитывается контекст. Поэтому она не всегда хорошо справляется с цельными текстами и подходит скорее для отдельных фраз.

В 2016 году Google объявила о переходе к нейронному машинному переводу. Он тоже сравнивает тексты на разных языках и сохраняет оттуда фразы, но у него есть важная особенность: он учитывает контекст. Нейросеть использует не числовые метки, а так называемые векторы.

Вектор, который присваивается одному слову, состоит из множества чисел, каждое из которых относится к каким-либо лексическим и семантическим признакам. Допустим, слово “собака” будет выглядеть вот так: 0.0 0.2 0.89 0.63 0.72... Векторы слов, которые часто встречаются в одном и том же контексте, будут похожи (например, собака и кошка).

-7

Нейросеть уже не разбивает предложения на отдельные частицы, а анализирует множество векторов и устанавливает между ними связь, то есть подбирает такие слова, которые чаще всего употребляются в похожих контекстах. Такой метод обеспечивает более естественный, плавный перевод и подходит для целых текстов.

Правда, и он не идеален. Система может подобрать неточный перевод, если столкнётся со словом, которое употребляется редко, или с причудливым выражением, которому нет эквивалента на другом языке. Поэтому нейросеть должна постоянно обучаться и пополняться новыми данными.

С переходом на нейронный метод также исчезла необходимость переводить слова сначала на английский, а потом на целевой язык. Система научилась сравнивать между собой переводы, скажем, с японского на английский и с корейского на английский. Таким образом она устанавливает связь уже напрямую между японским и корейским языками.

-8

Сейчас популярные онлайн-переводчики – например, Яндекс, PROMT, SYSTRAN – построены на гибридной модели, то есть могут опираться и на грамматические правила, и на статистику, и на нейросеть. Гибридная модель работает так, что каждый метод выдаёт немного разные переводы одного текста, после чего специальный алгоритм сравнивает их и выбирает оптимальный вариант.

Кстати, перечисленные методы используются и в других программах. Например, при создании автоматических субтитров на YouTube включается распознавание речи, а для перевода на другой язык применяются Google Переводчик.

Источник: SOPA Images via Getty Images
Источник: SOPA Images via Getty Images

Даже на пользовательском уровне видно, что за последние несколько лет машинные переводчики стали заметно точнее, хотя до совершенства им ещё далеко. Возможно, в будущем программы смогут идеально переводить не только прозу, но и поэзию, сохраняя при этом рифму. Но пока это в будущем.

Пишите в комментариях, подводили ли вас когда-нибудь машинные переводчики.