Предпосылки потребности в машинном переводе возникли уже в 1930-е, когда частные и государственные организации начали повсеместно применять телефонную, телеграфную и радиосвязь для распространения информации: появилась необходимость в быстром переводе текстов на иностранные языки. Объём контента для многоязычной аудитории, в том числе создаваемого средствами массовой информации, стремительно увеличивался.
В 1935 году два учёных — француз армянского происхождения Жорж Арцруни и педагог из СССР Пётр Троянский — запатентовали первые механические устройства машинного перевода.
Однако их проекты не были массово воплощены в жизнь из-за бурного развития ЭВМ: в конце 30‑х годов это были машины, созданные инженером Конрадом Цузе в Германии (Z1 и Z2), а также Джоном Атанасовым и Клиффордом Берри в США (Atanasoff-Berry Computer, ABC).
В 1940-х годах американский математик Уоррен Уивер предложил использовать криптографический метод для расшифровки текстов на иностранных языках. Его идея легла в основу четырёх принципов машинного перевода: значения слов должны интерпретироваться исходя из контекста, перевод должен подчиняться законам формальной логики, необходимо использовать криптографические инструменты и лингвистические универсалии для облегчения процесса перевода.
Отдельного внимания заслуживает работа советского и российского ученого Юрия Валентиновича Кнорозова, лингвиста и этнографа, применившего статистические методы для расшифровки и перевода мертвого языка индейцев майя. Юрий Валентинович начал изучать этот вопрос еще студентом в 40-е, а получив результат, защитил в 1955 году кандидатскую диссертацию – «"Сообщение о делах в Юкатане" Диего де Ланда как историко-этнографический источник». По сути, те же методы потом легли в основу машинного перевода – статистический движок Moses и последующие.
Матстатистика применялась в лингвистке и до Кнорозова, как и векторное и матричное исчисление — до Томаша Миколова, но именно эти два учёных творчески доработали и применили существовавшую математику и совершили сами или помогли последователям совершить революционные открытия, последствия которых мы пытаемся обуздать в данный момент.
В 1950-х годах начались первые американские и советские исследования в области машинного перевода. В 1954 году исследователи Джорджтаунского университета провели первый эксперимент по машинному переводу на компьютере IBM 701, а в 1955 году в СССР, в Институте точной механики и вычислительной техники при Академии Наук, был проведен опыт машинного перевода на электронно-вычислительной машине БЭСМ (Большая электронно-счётная машина).
В 1960–1970-х годах финансирование исследований в области машинного перевода в США прекратилось, однако в СССР работы продолжались. В 1972 году в Москве под руководством Юрия Апресяна была создана новая система автоматического перевода ЭТАП («Электротехнический автоматический перевод»), а в Ленинграде открылась лаборатория инженерной лингвистики.
В 1990-х годах учёные начали искать новые подходы к машинному переводу. В 1990 году компания IBM разработала программу Candide на основе криптографического метода Уоррена Уивера, а затем появились статистические системы машинного перевода (SMT). За основу были взяты в том числе исследования невыездного в советское время, но международно признанного учёного Юрия Кнорозова.
С 2016 года история развития машинного перевода тесно связана с нейросетями. Компания Google представила систему нейронного перевода GNMT, которая повысила точность перевода благодаря анализу предложений целиком, а не отдельных фраз.
В 2013 году никому не известный чешский аспирант Томаш Миколов предложил свой подход к векторному исчислению в лингвистике в виде word embedding, который он назвал word2vec. Его подход основан на гипотезе, которую в лингвистике принято называть гипотезой локальности: слова, которые встречаются в одинаковых окружениях, имеют близкие значения. Именно это открытие позволило создать современные генеративные большие многоязыковые модели, для которых перевод между языками — лишь одна из функций.
Большие языковые модели (LLM) стали активно развиваться в последние годы. Первая концепция нейросети начала формироваться гораздо ранее — в 40–50-е годы XX века, но технология генеративной нейросети получила развитие лишь в начале XXI века, когда появились мощные процессоры, позволяющие обрабатывать колоссальные объёмы данных.
В 2017 году компания Google разработала новую архитектуру Transformer, которая и стала основой для будущих многоязыковых моделей. LLM представляют собой нейросетевые модели, основанные на алгоритмах машинного обучения и способные обобщать, прогнозировать и генерировать человеческий язык на основе больших объёмов текстовых данных.
Основное же отличие моделей NMT (нейронный машинный перевод) от LLM (большая языковая модель) заключается в том, что NMT специализируются на переводе и фокусируются на предоставлении максимально точных и естественных переводов для определённых языковых пар, тогда как LLM более универсальны. Более обширное обучение может способствовать повышению «беглости текста», но точность для некоторых языков может быть ниже по сравнению со специализированными моделями NMT.
Наиболее известными LLM являются GPT-4 (OpenAI), LaMDA (Google) и BERT (Google). Они используются в различных приложениях: классификация данных, распознавание образов, машинный перевод, поисковые системы, чат-боты и многие другие.
В России разрабатываются собственные LLM, например YandexGPT-3.0. Эта модель применяется в сервисах Яндекса, таких как «Яндекс Переводчик», «Яндекс Кью» и «Дзен». В 2023 году Сбер также открыл доступ к своим генеративным моделям — ruGPT-3.5 13B и обновлённой mGPT 13B, которые лежат в основе GigaChat и теперь доступны всем разработчикам.