Найти тему
Веб-интегратор КРИТ

Компания Марка Цукерберга разработала искусственный интеллект-переводчик для устных языков

На данный момент он переводится только с хокиенского на английский, но предлагает потенциал для тысяч языков без официальных письменных систем.

Компания M разработала искусственно интеллектуальную систему перевода, которая может преобразовывать устный язык — хокиен — в разговорный английский. Это еще один шаг к тому, чтобы наконец-то сделать универсальный переводчик Star Trek реальностью.

Генеральный директор Марк Цукерберг поделился видео, демонстрирующим технологию вместе с инженером-программистом Пэн-Джен Ченом, в посте на Facebook в среду. В нем они разговаривают на английском и хокиенском языках соответственно, а система искусственного интеллекта M слышно переводит. Демонстрация выглядит довольно впечатляюще, хотя, как и VR-ноги M, весьма вероятно, что видео было отредактировано в иллюстративных целях, и текущий продукт не такой гладкий.

Искусственный интеллект перевода, как правило, обучается на основе текста, при этом исследователи загружают в свои системы множество написанных слов, чтобы они могли учиться на них. Однако существует более 3000 языков, на которых в основном говорят и которые не имеют широко используемой письменной системы, что затрудняет их включение в такое обучение.

Хокиен - один из таких языков. Используемый более чем 45 миллионами человек в материковом Китае, Тайване, Малайзии, Сингапуре и на Филиппинах, хокиен является устным языком без официальной стандартной письменной системы.

Таким образом, носители языка Хокиен, которым необходимо записывать информацию, как правило, делают это фонетически, что приводит к значительным различиям в зависимости от автора. Существует также очень мало зарегистрированных данных о переводе Хокиена на английский язык, а профессиональных переводчиков-людей очень мало.

Чтобы обойти это, Meta использовала письменный мандаринский язык в качестве посредника между английским и хокиенским языками при обучении своего ИИ.

"Наша команда сначала перевела английскую или хокиенскую речь на китайский текст, а затем перевела ее на хокиен или английский — как с помощью человеческих аннотаторов, так и автоматически", - сказал исследователь Meta Хуан Пино. "Затем они добавили парные предложения к данным, используемым для обучения модели искусственного интеллекта".

Конечно, фильтрация предложения по нескольким языкам иногда может исказить его смысл — это знает любой, кто когда-либо играл с Google Translate. M также работала со спикерами Hokkien для проверки переводов и публикует свои модели, данные и исследования в качестве информации с открытым исходным кодом для использования другими исследователями.