1 подписчик

Машинный перевод

5 августа 20245 авг 2024

5 мин

Взлом шифровок противника в древности, криптография Второй мировой, от машинного перевода до Искусственного Интеллекта. Ещё в девятом веке арабский учёный Аль-Кинди предложил взламывать шифры с помощью частотного анализа текста, то есть сравнивать частоту употребления букв в обычном языке с частотой употребления символов в шифровке. Таким образом, Аль-Кинди заложил основы криптографии. В семнадцатом веке в Римскую империю входило множество стран с разными языками, поэтому межъязыковое общение играло важную роль. Так, в 1663 году ученый-иезуит Афанасий Кирхер придумал "языковой ковчег", в нём многоязычный словарь размещался на отдельных дощечках, которые можно было располагать в нужном порядке. В системе Кирхера каждому понятию соответствовал номер. В словаре под этим номером можно было найти слова пяти языков (латинского, французского, немецкого, итальянского и испанского). Зная только один из этих языков, человек мог, пользуясь пронумерованным списком понятий, переводить текст на любо

Взлом шифровок противника в древности, криптография Второй мировой, от машинного перевода до Искусственного Интеллекта.

Ещё в девятом веке арабский учёный Аль-Кинди предложил взламывать шифры с помощью частотного анализа текста, то есть сравнивать частоту употребления букв в обычном языке с частотой употребления символов в шифровке. Таким образом, Аль-Кинди заложил основы криптографии.

В семнадцатом веке в Римскую империю входило множество стран с разными языками, поэтому межъязыковое общение играло важную роль. Так, в 1663 году ученый-иезуит Афанасий Кирхер придумал "языковой ковчег", в нём многоязычный словарь размещался на отдельных дощечках, которые можно было располагать в нужном порядке. В системе Кирхера каждому понятию соответствовал номер. В словаре под этим номером можно было найти слова пяти языков (латинского, французского, немецкого, итальянского и испанского). Зная только один из этих языков, человек мог, пользуясь пронумерованным списком понятий, переводить текст на любой другой язык.

Более современными моделями для машинного перевода принято считать разработки двух учёных из России: Георгия Арцруни и Петра Смирнов-Троянского. Арцруни родился в Армении, в 1922 году эмигрировал во Францию. С 1929 года он работал над машиной, которую называл "механический мозг" (cerveau mécanique). Это устройство предназначалось для хранения и поиска информации. Среди возможных применений своей машины Арцруни перечислял составление телефонных справочников и железнодорожных расписаний, печать билетов, шифрование — и перевод. Арцруни запатентовал свою машину в 1935 году.

В том же 1935 году советский патент на "машину для подбора и печатания слов при переводе с одного языка на другой" получил Петр Смирнов-Троянский. Машина Троянского представляла собой наклонный стол, на котором располагалась уже привычная нам бумажная лента с многоязычным словарем. Перед столом находился фотоаппарат и пишущая машинка. Ленту со словарем вручную протягивали до нужного слова и фотографировали его. Одновременно — и в этом самое важное отличие машины Троянского от механического словаря Арцруни — на пишущей машинке печатали особые знаки, описывающие морфологические признаки слова (число, род и так далее). После этого две ленты — одна со словами, другая с морфологическими признаками — попадали к переписчику. Он писал связный текст, изменяя слова с первой ленты согласно признакам со второй. После этого текст попадал к литературному редактору. Троянский ходатайствовал перед Академией наук СССР о постройке своей машины, но академики сочли, что она недостаточно совершенна. Машина так и не была построена, а работы Троянского были забыты до середины 1950-х годов. Как и машина Арцруни, машина Троянского не могла соревноваться с электронным компьютером.

Война – двигатель прогресса. Криптография сыграла важную роль во Второй мировой войне. Самым известным успехом в этой области стал взлом шифрования машины "Энигма". Её взломали английские учёные во главе со знаменитым Аланом Тьюрингом с помощью электромеханического устройства, которое считается прототипом компьютера. Со временем, появлялись и другие вычислительные устройства, сначала электромеханические, а затем полноценные электронные компьютеры.

Первопроходцем в вопросе перевода был американец Уоррен Уивер. В 1949 году Уивер написал меморандум "Перевод" (Translation), где изложил свои взгляды на автоматизацию перевода. Он полагал, что можно найти некоторые единые для всех языков "инварианты" и осуществлять перевод с их помощью.

Прорывным стал 1954 год. Нью-Йорк, штаб-квартира корпорации IBM. В ходе Джорджтаунского эксперимента на машине IBM 701 был продемонстрирован полностью автоматический перевод более 60 предложений с русского языка на английский. Демонстрация была широко освещена в СМИ. "Машина размером с теннисный корт", писали тогда журналисты. В том же году первый эксперимент по машинному переводу был произведён в СССР, в Институте точной механики и вычислительной техники АН СССР, на компьютере БЭСМ. Руководила исследованиями Изабелла Бельская. Параллельно с группой Бельской над той же проблемой трудились учёные из Отделения прикладной математики Математического института АН СССР имени В.А. Стеклова.

Хотя современные системы машинного перевода достигли высокой точности, они все ещё имеют свои ограничения, особенно при переводе между языками с различной грамматикой и структурой. Современные системы машинного перевода, такие как нейронные сети, используют большие объемы данных для обучения и построения моделей, способных понимать и переводить тексты.

Разберём несколько типов машинного перевода:

- Правила-основанный перевод: основной упор на грамматические правила. Требует большого количества ручной работы для создания и поддержки правил, поэтому обычно используется для перевода между языками со сходной грамматикой и структурой.

- Статистический перевод: метод использует статистические модели, созданные на основе больших корпусов параллельных текстов на разных языках. Анализирует вероятности соответствия различных фраз и слов в исходном и целевом языках для определения наиболее вероятного перевода.

- Нейронный перевод: современный подход к машинному переводу, использующий нейронные сети для обработки и анализа текста. Обучается на больших объемах параллельных текстов для понимания связей между языками и создания более точных переводов.

- Гибридный перевод: метод комбинирует различные подходы к машинному переводу для достижения лучших результатов.

На сегодняшний день лидерами в области машинного перевода являются компании, разрабатывающие и предоставляющие технологии и сервисы машинного перевода и искусственного интеллекта, такие как Google, Microsoft, Amazon и OpenAI.

Человечество развивается, мы делаем свою жизнь легче. Первые машинные переводы от компьютеров IBM сменились текстами от Искусственного интеллекта. ИИ все больше проникает в различные сферы нашей жизни, не только в сфере переводов.

"Искусственный интеллект — тот случай, когда нужно быть достаточно дальновидными в вопросах регулирования, иначе может оказаться слишком поздно." - Илон Маск.