Найти тему
Машинное обучение

Лучший языковой перевод с помощью машинного обучения: все, что я хотел бы знать 6 месяцев назад

Оглавление

Сан-Хосе, Калифорния, является одним из самых разнообразных в языковом отношении городов США. 57% его жителей говорят дома не на английском языке. Считается, что примерно 1 из 5 жителей не владеет английским языком. Испанский и вьетнамский - самые распространенные языки жителей с ограниченным знанием английского языка.

-2

Стремясь предоставить инклюзивные цифровые услуги для всех своих жителей, включая тех, кто плохо владеет английским языком, город Сан-Хосе инвестировал в передовые технологии машинного обучения для использования в своем приложении San José 311.

Команда разработчиков приложения San José 311 использовала машинное обучение для создания настраиваемой модели перевода для городских жителей. В нем используются слова и фразы, характерные для города, и отражены региональные диалекты, характерные для испаноязычных и вьетнамских общин Сан-Хосе.

Самое главное, он был разработан, чтобы со временем постоянно улучшаться.

Приложение San José 311 позволяет жителям сообщать в Интернете о проблемах района, таких как граффити или выбоины. Более качественный машинный перевод позволит генерировать более точный статический текст в приложении. Это также упростило бы общение между жителями, не говорящими по-английски, и персоналом города за счет почти мгновенного динамического перевода.

«[Бесплатные инструменты перевода] для вьетнамского ужасны». - житель Сан-Хосе, говорящий на вьетнамском языке

Предыдущие исследования, проведенные в Сити, показали, что бесплатные, широко используемые инструменты машинного перевода часто дают неточные, бессмысленные переводы. Это отражено в нашей окончательной оценке, проведенной людьми, где мы сравниваем нашу окончательную модель перевода, обученную городским властям, с одним популярным бесплатным инструментом перевода. Модель перевода с обучением в городах привела к улучшению от 22% до 51% по сравнению с бесплатным инструментом в зависимости от языка и направления перевода.

-3

Самые большие сюрпризы:

  1. Для построения и поддержки модели машинного обучения требуется много людей
  2. Определенный текст проще и точнее перевести на машину
  3. Исторические модели иммиграции влияют на языковые предпочтения в регионе
  4. Не полагайтесь только на машины при оценке машинного перевода
  5. Возможно, вам понадобится меньший набор данных, чем вы думаете

Методология оценки человека

Мы обратились за помощью к 20 оценщикам, чтобы оценить популярный бесплатный инструмент перевода по сравнению с моделью перевода, подготовленной городскими властями. Наши эксперты оценили четыре направления перевода: с испанского на английский, с английского на испанский, с вьетнамского на английский и с английского на вьетнамский.

Оценщики оценивали предложения как по (1) соответствию исходному значению, так и (2) по грамматической правильности по трехбалльной шкале: «Хорошо», «Приемлемо» и «Требуется работа». Окончательная оценка требует согласия как минимум трех из четырех оценщиков.

-4

Мы выбрали 100 предложений машинного перевода для оценки человеком в зависимости от реалистичных сценариев для каждого направления перевода.

Например, чтобы оценить машинный перевод с английского на вьетнамский, мы случайным образом выбрали предложения из существующих английских сценариев электронной почты, используемых сотрудниками центра обслуживания клиентов San Jose 311. Затем мы автоматически перевели их на вьетнамский язык, и двуязычные переводчики оценили вьетнамский машинный перевод.

-5

Оценить противоположное направление перевода - скажем, с испанского на английский - было сложнее. У нас не было доступа к описанию запросов на обслуживание 311 для San Jose на испанском языке. Они нужны нам для тестирования нашего конкретного варианта использования. Вместо этого мы перевели 100 случайных запросов на обслуживание с английского на испанский и вьетнамский сертифицированными профессиональными переводчиками. Затем мы автоматически перевели запросы на обслуживание обратно на английский язык. (Это метод «двойного слепого», обычно используемый в академических кругах).

Англоговорящие сотрудники центра обслуживания клиентов оценили исходный запрос на обслуживание на английском языке по сравнению с версией с машинным переводом.

Урок №1: Для создания и поддержки модели машинного обучения требуется много людей

Машинное обучение часто воспринимается как автоматизированное и таинственным образом управляемое машинами. Мы узнали, что квалифицированные люди требуются практически на каждом этапе пути - от сбора высококачественных данных до перевода фраз, от оценки машинных переводов до постоянного переобучения модели.

Мы были удивлены тем, что каждая новая тренировка требует, чтобы человек собирал ошибки перевода, исправлял их, а затем вручную переучивал модель.

Однако, безусловно, самой трудоемкой задачей был сбор качественных пар предложений для построения нашего первого набора данных. Наш набор данных состоит из «пар предложений», также известных как часто используемые слова, фразы и предложения на английском языке, которые соответствуют точным переводам на испанский и вьетнамский.

Урок №2: Определенный текст легче и точнее перевести на машину

Может быть очевидно, что простой, понятный язык, написанный короткими предложениями, легче переводить как людям, так и машинам. Помимо этого, мы выявили еще несколько причин, по которым одни направления перевода оказались лучше других:

Машины для проверки орфографических ошибок, идиом и сленга

Описания запросов на обслуживание, представленные резидентами, включают сленг, орфографические и грамматические ошибки, идиомы и образы речи. Этот тип языка доводит алгоритм до предела его возможностей. Кроме того, мы узнали, что некоторые вьетнамские символы используют диакритические знаки, которые требуют дополнительных усилий со стороны пользователя, отправляющего данные через мобильное устройство.

С другой стороны, электронные письма от городских сотрудников могут содержать городской жаргон, но с минимальным количеством орфографических ошибок и сленга. Наша модель, обученная городам, отлично справляется с правильным переводом бюрократического языка, поскольку жаргон часто следует правилам.

Культура и диалект

Благодаря нашей работе с вьетнамским двуязычным персоналом Города мы узнали о различиях между письменным вьетнамским до 1975 года и после 1975 года, а также о небольших различиях между северным, центральным и южным вьетнамским языком. Были некоторые общеупотребительные английские слова, которые просто не имели вьетнамского эквивалента, такие как граффити, пожарный гидрант и продажа двора.

Это добавило сложности нашей вьетнамской модели, которая теперь включает пять различных фраз для граффити на вьетнамском языке. Это было менее актуально для нашей модели перевода на испанский.

Базовое качество существующего инструмента перевода повлияло на нашу модель

Наша технология использовала существующий бесплатный инструмент перевода в качестве основы для нашей модели обучения городу. Поэтому качество инструмента перевода для конкретных языков повлияло на наши модели. Это объясняет, как мы собрали примерно половину данных для испанского языка, чем для вьетнамского - 1178 пар предложений против 2049 пар предложений - но наша испанская модель все же лучше протестировалась на людях.

«[Инструмент бесплатного перевода на испанский] не так уж и плох. С годами он стал намного лучше ». - Испаноговорящий оценщик

«[Бесплатные инструменты перевода] для вьетнамского ужасны». - житель Сан-Хосе, говорящий на вьетнамском языке

Урок № 3: Исторические модели иммиграции влияют на языковые предпочтения в регионе

Мексика - страна происхождения номер один для иммигрантов в округе Санта-Клара. Почти 20% всех иммигрантов в графстве иммигрировали из Мексики. Наша команда сразу же пришла к выводу, что наша модель перевода на испанский будет ориентирована на мексиканский испанский. Поначалу по вьетнамскому было меньше ясности.

В конечном итоге, однако, вьетнамский двуязычный персонал города выразил почти единодушное предпочтение южному вьетнамскому языку до 1975 года в письменных сообщениях из города.

«... когда коммунисты захватили Юг [в 1975 году], более миллиона жителей Южного Вьетнама смогли бежать во внешний мир ... принеся с собой свое культурное и языковое наследие ... язык до 1975 года был академическим языком, которому преподавали в школах… Сан-Хосе следует использовать формальный и академический язык, чтобы его могли серьезно воспринять вьетнамско-американские читатели ». - лидер вьетнамской общины

«Судя по моему опыту работы с вьетнамским сообществом в Сан-Хосе, они очень разборчивы в использовании вьетнамского языка до 1975 года. Я думаю, что южная лексика более популярна ». - лидер вьетнамской общины

Урок №4: не полагайтесь только на машины при оценке машинного перевода

Оценка BLEU (Bilingual Evaluation Understudy) - широко распространенная метрика, используемая для оценки машинно-переведенного текста. Он варьируется от 0 до 100. Вначале нас разочаровывали оценки BLEU, автоматически генерируемые нашими моделями перевода. Эксперт по машинному переводу посоветовал нам стремиться к минимальному баллу BLEU, равному 85. Наш балл BLEU постоянно находится в диапазоне 50-60.

-6

Человеческие оценки наших моделей перевода рассказали нам другую историю:

-7

Мы подозреваем, что оценка BLEU более точна для больших и разнообразных наборов данных. Наши рекомендации для других команд, испытывающих трудности с ограниченными ресурсами:

  • Используйте оценку BLEU в качестве прокси-метрики, но не слишком на нее полагайтесь.
  • Не расстраивайтесь из-за низкого показателя BLEU.
  • Рассмотрите возможность оценки с людьми раньше, чем вы планировали

Урок № 5: вам может понадобиться меньший набор данных, чем вы думаете

Различные эксперты по машинному обучению сообщили нам, что для создания качественной модели машинного перевода нам нужно как минимум от 5000 до 10000 пар обучения.

Мы смогли соответствовать нашему критерию «готово» с меньшим набором данных, чем мы ожидали. В итоге мы нашли 1178 пар предложений для нашей испанской модели и 2049 пар предложений для нашей вьетнамской модели.

Мы предположили, что наши конкретные варианты использования ограничивают словарный запас, то есть существует не так много способов, которыми житель может описать выбоину или незаконную свалку. Даже сообщения из Города скованы пустословием.

В некоторых случаях добавление данных было вредным для переводов. Мы рекомендуем осторожно использовать функцию глоссария для односложных слов вьетнамского языка. Глоссарий - это отдельный набор данных, который заменяет переводы в основной модели машинного обучения. Что касается вьетнамского языка, мы видели, что переводы газет (báo) и жилья (nhà) появляются в странных местах, поскольку их вьетнамский перевод состоит из одного слога во многих других общих словах.

Мы будем рады связаться с вами

В ходе нашей работы мы узнали, что другие государственные учреждения находятся в процессе внедрения или рассмотрения приложений для этой технологии. Нам было сложно найти значимое общение с кем-либо из них.

Мы считаем, что есть потенциал для обмена знаниями, извлеченными уроками и, возможно, даже парами предложений на государственном языке.

Если у вас есть опыт использования машинного обучения для перевода в государственных учреждениях, мы будем рады услышать от вас!

Большое спасибо моим нынешним и бывшим коллегам Герману Седано, Арти Тангри, Мишель Тонг и Нире Датта.Ничего из этого не было бы возможным без продуманного руководства со стороны Кипа Харкнесса, Джерри Дриссена, Роба Ллойда и Долана Бекеля, а также наших партнеров по языковому доступу: Сарбджита Каура и Стефани Джейн.

Мы также очень признательны нашим двуязычным переводчикам и оценщикам: Хоанг Траунг, Ви Нгуен, Куонг Ле, Джени Ле, Чау Ле, Хан-Джао Нгуен, Оскар Дельгадо, Рон Эчеверри, Анни Гамбелино, Шочитль Монтес, Сезар Аррелланоха, Абелардо Пантоха. Дезире Джаффрис, Киа О'Хара, Шэрон Смит, Дженнифер Петтигрю, Деника Дженкинс, Кэти Альварадо, Донна Беккер, Вивиан До и Куин Нгуен.