Всем известно понятие машинного переводчика: мы встречаемся с ним на работе, в социальных сетях и даже в быту. Этот инструмент, несомненно, стал важной частью нашей жизни. И все же когда мы говорим об автоматических переводчиках, мы чаще всего представляем лишь знакомую всем строку на браузерной странице онлайн переводчика и не задумываемся о том, как мы пришли к тому, что у каждого из нас появился доступ к переводу на сотни языков в любое время дня и ночи. Эта статья расскажет вам что стоит за страницей всех известных нам компьютерных переводчиков и какой путь мы прошли чтобы прийти к этому этапу. Про преимущества и ограничения нейронного машинного перевода вы можете почитать в этой статье, которая была написана самими разработчиками нейронного переводчика Lingvanex.
С чего все начиналось?
Идея о создании машинного переводчика появилась еще в 30ых годах XX века, однако разработка первых машинных переводчиков началась лишь в 40ых годах. Разрабатывались они, конечно же с помощью знаний лингвистов. Впервые машинный переводчик был представлен широкой публике в 1954 году, командой разработчиков из Джорджтауна. Первые модели машинных переводчиков основывались на правилах: лингвисты-переводчики сами прописывали правила, которые впоследствии использовались системой. Например, возьмем слово “если”. Оно может переводиться на английский разным образом, например “if” в предложениях с условиями, “when”, которое также имеет значение “когда”, “unless” которое чаще всего встречается в условиях “если не” и другие. В первых моделях машинных переводчиков те случаи, когда нужно было использовать те или иные слова для перевода одного слова прописывались в ручную. Например лингвист прописывал, что если поле слова “если” идет слово “не”, то в этом случае оно должно переводиться как “unless”. Однако, конечно, нельзя написать правила для перевода всех слов в языке, особенно если учесть, что некоторые слова могут иметь более сотни значений.
После машинных переводчиков, основанных на правилах пришли на замену переводчики, основанные на статистических методах. Эти методы основывались на анализе параллельных текстов, которые представляли собой тексты с одинаковым содержанием, но написанные на разных языках, например постановления международных организаций. Создавалась статистика с самыми частыми и с самыми редкими вариантами перевода конкретных слов и выражений, которая хранилась в специальных корпусах. На основе этой статистики и проводился машинный перевод. Большинство сервисов машинного перевода с 2014 года перешло со статистических методов на нейронный машинный перевод. Такие переводчики как Lingvanex, Google Translator и DeepL, например, осуществляют именно нейронный переводчики.
Как создаются современные переводчики?
Современные переводчики называются нейронными переводчиками, что значит, что в их основе лежат нейронные сети. Они работают по принципу человеческого мозга и, анализируя большие объемы данных в последствии могут как определять похожие на загруженные в них структуры (например нейронный машинный переводчик запоминает как в определенных контекстах используются те или иные фразы и использует полученную информацию, когда видит их в текстах для перевода), так и делать предсказания касательно того, какие именно слова могут еще использоваться в этом контексте. Существует также “метод внимания” который симулирует то, как человеческое внимание концентрируется на определенных словах в предложениях больше, чем на других.
Обучение современных моделей машинного перевода включает в себя несколько этапов:
- Системы обучаются на больших объемах текстовых данных для понимания структуры и значений слов и фраз.
- Системы проходят дальнейшее обучение на более узких выборках данных, чтобы улучшить качество перевода в конкретных областях, таких как медицина, юриспруденция или техника.
Во время обучения компьютер преобразует данные, в этом случае слова и выражения, в числовые значения, и все найденные закономерности переводит в числовой код.
Как проходит процесс перевода?
Процесс перевода текста с одного языка на другой в современных машинных переводчиках включает несколько шагов:
Токенизация — это процесс, благодаря которому текст разбивается на отдельные слова или небольшие части (токены). Это нужно для того, чтобы компьютерная программа лучше поняла структуру и смысл текста.
После этого слова или токены преобразовываются в числа, которые может обрабатывать компьютер. Это делается с помощью таких методов, как word embeddings ( векторизация слов) и bag-of-words (мешок слов). Векторизация слов предполагает перевод слов предложений в числовую форму, мешок слов делает из текста набор чисел без учета их последовательности.
Затем эти числа проходят через нейронную сеть. Модель анализирует их и их порядок и на основе этого предсказывает перевод каждого слова или токена благодаря тому, чему она научилах на многоязычных текстах. При этом модель учитывает контекст и слова, которые используются в тексте по несколько раз, чтобы перевод был более точным.
После перевода текст проходит финальную обработку. Это нужно, чтобы исправить ошибки и сделать текст более понятным и приятным для чтения.
Заключение
Машинный перевод прошел долгий путь от правил, которые прописывали лингвисты в ручную до того, чтобы подражать мыслительным процессам человеческого мозга. Машинный нейронный перевод осуществляется благодаря предварительной обработке больших массивов данных и переводу их в числовое значение. При загрузке текста в автоматический переводчик, он преобразовывает его в числовые значения и выстраивает на языке перевода их исходя из закономерностей, которые он выучил при анализе текста во время своего обучения. Машинный переводчик, при всей своей простоте использования, является сложной системой, которая использует нейронные связи, чтобы сделать процесс перевода максимально простым и удобным.