Переводчик ChatGPT против моего: кто кого?

Множество статей и восторженных отзывов свидетельствуют о том, что переводчик ChatGPT не только удерживает высокое качество перевода по сравнению с DeepL и Google, но порой и превосходит их.

Множество статей и восторженных отзывов свидетельствуют о том, что переводчик ChatGPT не только удерживает высокое качество перевода по сравнению с DeepL и Google, но порой и превосходит их. Как основателя компании Lingvanex, занимающейся разработкой собственных решений в области перевода, меня начал интересовать вопрос: насколько это действительно так, и как соотносится наше решение с ChatGPT? Стоит ли нам беспокоиться о таком сильном конкуренте?

С целью оценки качества перевода мы подготовили тестовые наборы данных для семи пар языков:

  • Английский‑испанский
  • Английский‑немецкий
  • Английский‑русский
  • Английский‑французский
  • Английский‑итальянский
  • Английский‑португальский
  • Английский‑финский

Каждый тестовый набор включает около 2500 строк, охватывая предложения разной тематики, длины, стилистики и форматирования, чтобы исключить возможность подгонки текста под конкретный переводчик.

Недавно был представлен API версии 4 для ChatGPT, однако доступ к нему имеют пока только пользователи, уже оплатившие версию 3.5. Судя по отзывам, новая версия значительно продвинулась в обеспечении качества перевода по сравнению с предыдущей версией. Нам предстоит также проверить это утверждение!

Для оценки мы используем две метрики: BLEU и COMET.

  1. BLEU — широко используемая метрика для оценки качества перевода. Мы будем использовать версию SacreBleu, которая применяется на конференции по машинному переводу WMT и в различных международных соревнованиях. Она сравнивает перевод и оригинал по количеству n-грамм (комбинаций слов). Цель метрики — найти максимально совпадающие комбинации между переводами, выполненными человеком и машиной. Оценка начинается с кластеров из четырех слов, а при отсутствии совпадений происходит поиск трех n-граммов и так далее. Минус данной метрики в том, что она не учитывает синонимы и может показать низкий результат, даже если смысл передан верно, но другими словами.
  2. COMET — метрика, разработанная для учета синонимов, которые могут быть недостаточно учтены метриками, основанными на символьных сравнениях строк. Если результат перевода выражает аналогичное значение, но использует другие слова, метрика все равно покажет схожий результат. Также стоит помнить, что результаты могут зависеть от разнообразия лингвистического корпуса, на котором строится классификатор для сравнения. Эта метрика часто используется как альтернатива BLEU.

Для оценки качества перевода через ChatGPT мы использовали промпт:

"You are TranslateGPT. You translate user messages from English to Italian (Finnish / French / German / Portuguese / Russian / Spanish). You are the most accurate English to X translator in the world."

Графики с результатами тестов показаны ниже.

Перевод англо-финский

Мы взяли эту пару как пример языка, который имеет сложную грамматику. На графике видно, что по обоим метрикам наше решение превосходит обе версии ChatGPT

Множество статей и восторженных отзывов свидетельствуют о том, что переводчик ChatGPT не только удерживает высокое качество перевода по сравнению с DeepL и Google, но порой и превосходит их.-2

Перевод англо-французкий

На этой паре языков заметно улучшение качество перевода ChatGPT 4 относительно версии 3.5. По метрике COMET ChatGPT4 уже немного превосходит Lingvanex.

Множество статей и восторженных отзывов свидетельствуют о том, что переводчик ChatGPT не только удерживает высокое качество перевода по сравнению с DeepL и Google, но порой и превосходит их.-3

Перевод англо-немецкий

При переводе не немецкий язык ситуация такая же, как с французским. Но отставание по метрике COMET у Lingvanex — минимальны.

Множество статей и восторженных отзывов свидетельствуют о том, что переводчик ChatGPT не только удерживает высокое качество перевода по сравнению с DeepL и Google, но порой и превосходит их.-4

Сведем все отличия в таблицу. Красным шрифтом покажем где ChatGPT уступает Lingvanex. Зеленым шрифтом пометим, где превосходит. Данные актуальны на 31 июля 2023 года.

Множество статей и восторженных отзывов свидетельствуют о том, что переводчик ChatGPT не только удерживает высокое качество перевода по сравнению с DeepL и Google, но порой и превосходит их.-5

Расчет стоимости перевода Lingvanex был определен на основе аренды начального уровня GPU-сервера (150 долларов в месяц), стоимости языковой модели Lingvanex (от 100 долларов в месяц) и количества символов, подлежащих переводу на данной конфигурации в течение месяца.

Выводы

Анализ результатов показывает, что хотя ChatGPT 3.5 в большинстве случаев уступает Lingvanex в качестве перевода, ChatGPT 4, по метрике COMET, часто достигает сравнимых результатов.

Необходимо отметить, что в настоящее время перевод больших объемов текста с использованием ChatGPT 4 является затратным занятием. Для проведения тестов и перевода около 20 тысяч строк пришлось потратить 45 долларов. Сложность оценки стоимости перевода связана с тем, что заранее сложно предсказать, сколько токенов потребуется для перевода.

В настоящий момент скорость перевода через ChatGPT 4 является нестабильной, возможно, она зависит от текущей загрузки серверов. Между запросами приходилось делать паузы продолжительностью 3–4 секунды. В среднем на тестовом наборе данных скорость перевода составила около 8 слов в секунду. В то время как наше решение позволяет переводить несколько тысяч слов в секунду, даже на менее мощных серверах. Кроме того, заметно, что перевод через ChatGPT подвержен цензуре: при наличии нецензурной лексики, предложение не переводится целиком.

Таким образом, ChatGPT более предпочтителен для стилистического перевода небольших текстовых объемов без особых требований к безопасности. При этом стили и темы могут быть меняны по ходу. С использованием подходящих промптов можно добиться улучшения качества перевода для конкретной задачи, но это может потребовать испытаний с большим числом вариантов.

С решениями от ChatGPT и Lingvanex следует оперировать в соответствии с конкретными задачами. ChatGPT 4 может быть ценным при стилевом переводе, в то время как Lingvanex более подходит для масштабных переводов с учетом стоимости, безопасности, скорости и стабильности.

Очевидно, что различия в качестве перевода могут быть значительны на разных языковых парах, однако проведение тестов на всех возможных комбинациях длительно и дорого.

В общем и целом, ChatGPT и Lingvanex представляют разные решения, и выбор между ними следует делать исходя из конкретных целей. Если наше решение соответствует вашим потребностям, мы предоставляем бесплатную двухнедельную пробную версию нашего сервера, мобильного SDK и Cloud API. В дополнение, наша компания также предоставляет решения для транскрипции речи (аудио в текст).