Найти в Дзене

Языки, которые не поддерживают машинный перевод

В мире более 7000 языков, 4000 из которых письменные. Тем не менее, только 100 или около того можно перевести с помощью автоматических инструментов, таких как Google Translate. Новое исследование обещает позволить нам общаться и с другими.
Представьте, что вы натолкнулись на сообщение, которое может содержать информацию, которая может спасти жизнь. Но есть проблема: вы не понимаете ни слова. Вы

В мире более 7000 языков, 4000 из которых письменные. Тем не менее, только 100 или около того можно перевести с помощью автоматических инструментов, таких как Google Translate. Новое исследование обещает позволить нам общаться и с другими.

Представьте, что вы натолкнулись на сообщение, которое может содержать информацию, которая может спасти жизнь. Но есть проблема: вы не понимаете ни слова. Вы даже не уверены, на каком из тысяч языков мира он написан. Что вы будете делать?

Если сообщение написано на французском или испанском языках, его ввод в систему автоматического перевода мгновенно разгадывает загадку и дает неплохой ответ на вашем языке. Но многие другие языки по-прежнему не поддаются машинному переводу, включая языки, на которых говорят миллионы людей, такие как волоф, луганда, тви и эве в Африке. Это потому, что алгоритмы, на которых работают эти механизмы, учатся на человеческих переводах - в идеале - на миллионах слов переведенного текста.

Существует множество таких материалов для таких языков, как английский, французский, испанский и немецкий, благодаря многоязычным учреждениям, таким как парламент Канады, ООН и Европейский союз. Их переводчики-люди производят потоки переведенных стенограмм и других документов. Один только Европейский парламент за десятилетие производит массив данных, содержащий 1,37 миллиарда слов на 23 языках.

Однако такой горы данных не существует для языков, которые могут быть широко распространены, но не столь широко переведены. Они известны как языки с ограниченными ресурсами. Резервный материал для машинного обучения этим языкам состоит из религиозных публикаций, в том числе широко переведенной Библии. Но это ограниченный набор данных, и этого недостаточно для обучения точных и универсальных роботов-переводчиков.

Google Translate в настоящее время предлагает возможность общаться примерно на 108 разных языках, в то время как Microsoft Bing Translator предлагает около 70 языков. Тем не менее, в мире насчитывается более 7000 разговорных языков и не менее 4000 языков с письменной системой.

Этот языковой барьер может стать проблемой для всех, кому нужно срочно собрать точную глобальную информацию, в том числе для служб спасения.

Источник: Mohammed Elshamy/Getty Images
Источник: Mohammed Elshamy/Getty Images

Для решения этой проблемы исследовательские группы используют технологию нейронных сетей, форму искусственного интеллекта, имитирующую некоторые аспекты человеческого мышления. В последние годы модели нейронных сетей произвели революцию в обработке языков. Вместо того, чтобы просто запоминать слова и предложения, они могут узнать их значение. Из контекста они могут понять, что такие слова, как «собака», «пудель» и французское «chien», выражают схожие концепции, даже если внешне они выглядят по-разному.

Однако для этого обычно требуется просмотреть миллионы страниц обучающего текста. Задача состоит в том, чтобы заставить их учиться на меньших объемах данных, как это делают люди. В конце концов, людям не нужно читать парламентские записи за годы, чтобы выучить язык.

«Каждый раз, когда вы изучаете язык, вы никогда в жизни не увидите того объема данных, который современные системы машинного перевода используют для изучения перевода с английского на французский», - говорит Регина Барзилай, специалист по информатике из Массачусетского технологического института, работающая в другой организации. соревнующихся команд. "Вы видите малую часть, которая позволяет вам обобщать и понимать, например, французский язык. Вы определённо захотите взглянуть на следующее поколение систем машинного перевода, которые смогут выполнять отличную работу, даже не имея такого требовательного к данным "поведения".

Для решения проблемы каждая команда делится на более мелкие группы специалистов, которые решают один аспект системы. Основными компонентами являются технологии автоматического поиска, распознавания речи, перевода и обобщения текста, адаптированные для языков с ограниченными ресурсами. С тех пор, как в 2017 году начался четырехлетний проект, команды работали над восемью разными языками, включая суахили, тагальский, сомалийский и казахский.

Одним из достижений стал сбор текста и речи из Интернета в виде новостных статей, блогов и видео. Благодаря тому, что пользователи во всем мире публикуют контент на своих родных языках, растет масса онлайн-данных для многих языков с ограниченными ресурсами.

«Если вы ищете в Интернете данные на казахском языке, вы получите сотни миллионов слов, без проблем», - говорит Скотт Миллер, ученый-компьютерщик из Университета Южной Калифорнии, который возглавляет одну из исследовательских групп, работающих над это. «Вы можете получить текст практически на любом языке в довольно большом количестве в Интернете».

Эти онлайн-данные имеют тенденцию быть одноязычными, что означает, что казахские статьи или видеоролики написаны только на этом языке и не имеют параллельного английского перевода. Но Миллер говорит, что модели нейронных сетей можно предварительно обучить на таких одноязычных данных на многих разных языках.

Считается, что во время предварительного обучения нейронные модели изучают определенные структуры и особенности человеческого языка в целом, которые затем могут применяться к задаче перевода. Что это такое, остается загадкой. «На самом деле никто не знает, каким структурам на самом деле изучают эти модели», - говорит Миллер. «У них миллионы параметров».

Но после предварительной подготовки на многих языках нейронные модели могут научиться переводить между отдельными языками, используя очень мало двуязычных учебных материалов, известных как параллельные данные. Достаточно нескольких сотен тысяч слов параллельных данных - размером с несколько романов.