Найти тему
НаучПрим

Применение машинного перевода и маркировка отдельных фрагментов речи

Оглавление

=================================================

Сегментация арабских слов значительно улучшила качество перевода в таких задачах NLP, как машинный перевод, маркировка части речи и поиск информации. Поэтому за последние два десятилетия было проведено значительное количество исследований по арабской морфологической сегментации, начиная от анализаторов на основе правил до современных статистических сегментов. Морфологическая сегментация делит слова на морфемы.

Материал взят с ресурса Яндекс картинки
Материал взят с ресурса Яндекс картинки

Несмотря на выгоды, полученные от использования морфологической сегментации, существует несколько предостережений в отношении использования этих инструментов.

  • Во-первых, они усложняют процесс обучения, поскольку сопряжены со сложной предварительной обработкой (и дополнительной постобработкой в случае перевода с английского на арабский язык).
  • Что еще более важно, эти инструменты специфичны для диалектов и доменов. Сегмент, обученный нынешнему обыденному арабскому языку (MSA), работает значительно хуже на диалектном арабском языке, или, когда он применяется в новом домене.

Было изучено, можно ли избежать языково-зависимых компонентов предварительной или послеобрабатывающей стратификации и изучить сегментацию непосредственно на основе данных обучения, используемых для данной задачи.

Были исследованы основанные на данных альтернативы морфологической сегментации с использованием неконтролируемых подсловарных единиц, полученных с использованием кодирования пар сегментации исключительно по признакам.

Сегментарные подходы

Исследователи экспериментировали с тремя основанными на данных схемами сегментации: морфологической сегментацией, подсловесной сегментацией на основе BPE и двумя вариантами сегментации на основе признаков.

Сначала они сопоставляют каждое исходное слово с его соответствующими сегментами (в зависимости от схемы сегментации), встраивают все сегменты слова в векторное пространство и передают их по одному в модель кодер-декодер.

Морфологическая сегментация

Имеется большой объем работы по статистической сегментации по арабскому языку. В качестве исходных данных используют современный арабский сегмент MADAMIRA и Farasa. MADAMIRA использует морфологический анализатор, который генерирует список возможных вариантов анализа на уровне словарей (независимо от контекста).

Анализы сопровождаются оригинальным текстом для компонента Feature Modeling, который применяет SVM и языковую модель для составления прогнозов, которые оцениваются компонентом Analysis Ranking. Farasa, с другой стороны, представляет собой легковесный сегмент, который игнорирует контекст и вместо этого использует различные функции и лексику для сегментации.

Кодирование на уровне символов

Было установлено, что характерно-ориентированные модели эффективны при переводе тесно связанных языковых пар и слов OOV. Ученые исследовали их как альтернативу морфологической сегментации. Их преимущество заключается в том, что для встраивания символов не требуется никаких сложных шагов предварительной и постобработки, кроме сегментации слов на символы.

Полностью буквенный датчик воспринимает исходное предложение как последовательность букв, кодируя каждую букву в кодере LSTM.

Материал взят с ресурса Яндекс картинки
Материал взят с ресурса Яндекс картинки

Результаты машинного перевода

По сравнению с системой UNSEG, система MORPH2 улучшила качество перевода на 4,6 и 1,6 балла BLEU в системах Ar-to-En и Ento-Ar соответственно. Результаты также улучшились на 3 балла BLEU для систем cCNNN и CHAR в направлении Ar-to-En. Тем не менее, производительность ниже, по крайней мере, на 0,6 балла BLEU по сравнению с системой MORPH.

В направлении En-to-Ar, где cCNNN и CHAR применяются на сторонние цели, производительность значительно снизилась. В случае с CHAR, привязка одного исходного слова ко многим целевым символам затрудняет для NMT изучение хорошей модели.

Это согласуется с выводом об использовании более низкого значения OP для сегментации BPE. Удивительно, но результаты системы cCNNN уступают показателям системы UNSEG по En-to-Ar. Возможное объяснение заключается в том, что прогнозы декодера все еще выполняются на уровне слова даже при использовании модели cCNNN (которая кодирует целевой вход во время обучения, но не выходной сигнал).

На практике это может привести к генерации неизвестных слов. Действительно, в случае Ar-toEn cCNNN значительно сокращает количество неизвестных слов в наборах тестов, в то время как в случае En-to-Ar количество неизвестных слов между UNSEG и cCNNN остается примерно одинаковым.

Система BPE превзошла все другие системы в направлении Ar-to-En и всего на 0,2 балла ниже, чем система MORPH в обратном направлении. Это показывает, что машинный перевод с использованием арабского языка может обеспечить конкурентные результаты при сегментации на основе данных.

Это дает дополнительное преимущество - независимый от языка конвейер предварительной обработки и постобработки. В попытке выяснить, являются ли достижения, полученные в результате применения методов сегментации на основе данных и морфологической сегментации, дополнительными, применили BPE к морфологическим сегментированным данным. В дальнейшем наблюдали улучшение показателей вплоть до 1 балла BLEU за счет использования двух сегментов в тандеме.

Материал взят с ресурса Яндекс картинки
Материал взят с ресурса Яндекс картинки

================================================

В результате

Специалисты изучили несколько альтернатив языковой сегментации арабского языка и оценили их с точки зрения задач машинного перевода и POS-маркировки. Что касается машинного перевода, то сегментация BPE дала наилучшие результаты и даже превзошла современную морфологическую сегментацию в арабско-английском направлении.

В задаче POS-маркировки персонажно-ориентированные модели стали ближе всего к использованию современной сегментации. Результаты показали, что основанные на данных схемы сегментации могут служить альтернативой хорошо спроектированным языковым инструментам и достигать очень конкурентоспособных результатов. В анализе было показано, что NMT работает лучше, когда отношение источника к целевому маркеру близко к одному или более.