Отношения сервисов для автоматического перевода и людей-переводчиков основаны не на конкуренции, а на взаимовыгодном сотрудничестве. При грамотном использовании машинные методы могут стать вполне разумным инструментом для переводчика. Они позволяют увеличить скорость перевода в среде Memsource до 8 000 слов в день. Чтобы достигнуть такого результата, необходимо применять навыки эффективного постредактирования.
Модели МП
История машинного перевода начинается с середины прошлого столетия, когда появился аналитический машинный перевод. Он обучался через словари и «запоминал» правила, а потому его результат был всегда (или почти всегда) предсказуемым. Правда, такой перевод отличался машинным акцентом.
В нулевых появился статистический МП, который шагнул дальше: эта модель взвешивает вероятность вариантов перевода. Благодаря обучению через массив параллельных данных на отдельных словах и фразах текст стал плавным, но результат утратил предсказуемость.
Нейронный МП стал следующим этапом развития на фоне роста вычислительных мощностей и сокращения их стоимости, увеличения количества текстов в цифровом пространстве и развития нейросетевых технологий. Он «учитывает контекст» — НМП построен на базе матричных вычислений и позволяют создавать более сложные вероятностные модели и векторные представления слов. Он также обучается на параллельных данных, но уже не на отдельных словах и фразах, а на целых предложениях. В результате мы имеем гладкий перевод без машинного акцента, но не всегда предсказуемый результат.
Типы ошибок нейронного МП
Как было сказано выше, результат нейронного машинного перевода не всегда предсказуем. Выделяют следующие типовые ошибки, свойственные нейронной модели:
· синтаксис (порядок слов, конструкции, несвойственные для языка);
· орфография и пунктуация (диакритика, апострофизация, капитализация);
· терминология (неверное употребление терминов в тексте, несоблюдение единообразия терминологии);
· точность перевода (неправильный перевод, опущения, добавления, повторы, неологизмы);
· стиль (книжный/разговорный, буквальный перевод, сухой информативный язык, который не передает образность);
· форматирование (теги, переменные/ссылки, искажение знаков, длина строки);
· зоны локализации (форматы даты и времени, формат денежных величин, единицы измерения).
Распространенные ошибки пост-редакторов МП
С типовыми ошибками машинного перевода разобрались. Ниже приведены описания ошибок, которые при постредактировании МП допускают люди:
· субъективные стилистические исправления;
· недостаточно отредактированные переводы;
· избыточно отредактированные переводы;
· неверное употребление терминов, несоблюдение единообразия терминологии;
· наличие непереведенных слов, добавлений и опущений;
· неверная передача аббревиатур;
· наличие нелокализованного текста;
· опечатки;
· буквальный перевод или «ложные друзья переводчика»;
· ошибки на уровне структуры;
· наличие машинных неологизмов (несуществующих слов).
Рекомендации по проработке типовых ошибок
· Исправляется любой термин, неверно употребленный в тексте (технический или нетехнический), исключается несоблюдение единообразия терминологии.
· Исправляется любая синтаксическая ошибка (нарушение правил употребления частей речи, разрушение структуры фразы, неправильный порядок слов и фраз).
· Исправляется любая морфологическая ошибка — неверные формы слов (число, род, падеж, лицо, время, наклонение, залог и проч.).
· Исключаются любые опущения (абзаца, предложения, фразы, слова), которые мешают восприятию смысла исходного сообщения.
· Исправляются любые опечатки.
· Исправляются ошибки пунктуации, которые мешают восприятию смысла исходного сообщения.
· Допускается наличие стилистических ошибок, которые не мешают восприятию смысла исходного сообщения.
· Не допускается наличие оскорбительного или неприемлемого с точки зрения культуры контента.
Восемь заповедей эффективного постредактирования
Информация о типах ошибок нейронного МП, распространенных ошибках пост-редакторов и методах проработки таких ошибок позволяет вывести следующую формулу эффективного постредактирования.
1. Исправь грамматические, синтаксические, семантические и пунктуационные ошибки.
2. Убедись, что перевод не содержит опущений или добавлений.
3. Убедись, что все теги расставлены правильно.
4. Используй как можно больше необработанного результата МП.
5. Используй клавиатуру и горячие клавиши.
6. Не трать слишком много времени на обработку результата МП.
7. Не исправляй тавтологические конструкции.
8. Не вноси субъективные коррекции.
Когда целесообразно использовать МП как основу для постредактирования
Как уменьшить трудозатраты в техническом направлении
· Использовать горячие клавиши в CAT-инструменте.
· Использовать клавиатуру.
· Использовать мышь только тогда, когда действие невозможно выполнить с помощью клавиатуры.
· Использовать навыки слепого набора текста.
Как ускорить процесс перевода
· Отфильтровать результат МП по проценту совпадения с сегментами в базе переводов в следующем порядке: 100%, 99%, высокий процент нечеткого совпадения, низкий процент нечеткого совпадения. Редактировать МП по категориям и подтверждать сегменты.
· Отфильтровать внутренние повторы, отредактировать и подтвердить сегменты.
· Использовать функцию автозамены для исправления повторяющихся ошибок (отдельные слова и конструкции, терминология, цифры, аббревиатуры, знаки пунктуации, двойные пробелы, капитализация).
· Использовать горячие клавиши для изменения форматирования и редактирования текста.
· Использовать клавиатуру для перемещения внутри сегмента, удаления результата MT или добавления текста.
Универсальные горячие клавиши для различных сред перевода
Ctrl+C/V/X Копировать/вставить/вырезать
Ctrl+B/U/I Выделение жирным/нижнее подчеркивание/выделение курсивом
Ctrl+F/H Найти/заменить
Ctrl+A Выбрать все
Shift+F3 Изменение регистра выделенного текста
Ctrl+Shift+8 Показать знаки форматирования
Ctrl+Start/End Переход к началу/концу файла
Ctrl+стрелка влево/вправо Переход на одно слово влево/вправо
Ctrl+Shift+стрелка влево/вправо Выделить одно слово слева/справа
Ctrl+Z/Y Отмена/повтор последнего действия
F7 Проверка орфографии
Универсальные горячие клавиши для CAT-tools
F7 Проверка орфографии
Ctrl+Enter Подтвердить и перейти к следующему сегменту
Ctrl+Shift+Enter Отменить подтверждение сегмента
Ctrl+Insert Копировать выделенный текст оригинала в перевод
Ctrl+Shift+F Отфильтровать сегменты
Ctrl+K Поиск по TM/TB
Ctrl+Tab Переключить активную вкладку
Ctrl+ [номер результата на CAT-панели] Вставить совпадение с указанным номером из САТ-панели в активный сегмент
Ctrl+Del Удалить перевод
F8 Удалить/добавить/редактировать теги
Ctrl+S Сохранить
CtrI+E/ Ctrl+J Разделить сегмент/объединить сегменты
Ctri+L Заблокировать/разблокировать сегмент
F9 QA
Стратегия эффективного постредактирования
Закрепление технических навыков постредактирования МП
Эти знания позволяют значительно увеличить скорость работы и производительность переводчика в CAT-системах автоматизированного перевода.
Данная статья основана опыте специалистов чешской компании Memsource.