Найти в Дзене
Вячеславный интернет

Google выпустила TranslateGemma: новое семейство ИИ-моделей для перевода на 55 языков

Американская корпорация представила сразу три версии искусственного интеллекта для переводов, которые можно запускать прямо на личных устройствах. Больше не нужно отправлять данные в облако — теперь перевод происходит локально, что особенно важно для конфиденциальной информации. Разработчики создали линейку под конкретные устройства. Самая компактная версия на 4 миллиарда параметров заточена под смартфоны и планшеты. Средняя, с 12 миллиардами параметров, рассчитана на обычные ноутбуки. А вот тяжёлая артиллерия — модель на 27 миллиардов параметров — предназначена для облачных серверов с одним графическим ускорителем H100 или специализированным тензорным процессором. Интересно, что средняя версия показала результаты лучше, чем старшая модель предыдущего поколения. В тестировании на платформе MetricX, где оценивается количество ошибок при переводе, TranslateGemma с 12 миллиардами параметров получила 3,6 балла. Для сравнения: базовая Gemma 3 на 27 миллиардов параметров набрала 4,04 балла.
Оглавление

Американская корпорация представила сразу три версии искусственного интеллекта для переводов, которые можно запускать прямо на личных устройствах. Больше не нужно отправлять данные в облако — теперь перевод происходит локально, что особенно важно для конфиденциальной информации.

Три модели для разных задач

Разработчики создали линейку под конкретные устройства. Самая компактная версия на 4 миллиарда параметров заточена под смартфоны и планшеты. Средняя, с 12 миллиардами параметров, рассчитана на обычные ноутбуки. А вот тяжёлая артиллерия — модель на 27 миллиардов параметров — предназначена для облачных серверов с одним графическим ускорителем H100 или специализированным тензорным процессором.

Интересно, что средняя версия показала результаты лучше, чем старшая модель предыдущего поколения. В тестировании на платформе MetricX, где оценивается количество ошибок при переводе, TranslateGemma с 12 миллиардами параметров получила 3,6 балла. Для сравнения: базовая Gemma 3 на 27 миллиардов параметров набрала 4,04 балла. Чем ниже показатель — тем качественнее работа алгоритма.

-2

По сравнению с предшественником того же размера количество ошибок сократилось примерно на четверть. И это касается не только популярных языков вроде английского или испанского. Редкие языковые пары тоже получили существенный прирост качества: исландский улучшился на 30 процентов, суахили — на 25.

-3

Как обучали новые алгоритмы

Процесс подготовки TranslateGemma состоял из двух этапов. Сначала нейросеть училась на параллельных данных — текстах, переведённых как профессионалами, так и другими алгоритмами. Затем включалось обучение с подкреплением: несколько специализированных нейросетей автоматически проверяли качество без участия человека-эксперта. Отдельная модель анализировала, насколько естественно звучит итоговый результат на целевом языке.

Чтобы новые алгоритмы не превратились в узкоспециализированные инструменты, разработчики добавили в обучающую выборку 30 процентов общих данных. Благодаря этому модели сохранили универсальность и могут работать как классические чат-боты, отвечая на вопросы и поддерживая диалог.

Профессиональные переводчики в целом подтвердили прогресс, хотя обнаружилась одна проблема. При переводе с японского на английский качество немного снизилось — корпорация связывает это с некорректной обработкой имён собственных.

Бонус для мультимодальности

Все три версии TranslateGemma унаследовали от Gemma 3 способность работать с изображениями. Модели могут переводить текст прямо с картинок, причём делают это без дополнительного обучения. Тесты в специализированном бенчмарке Vistra показали, что улучшения распространяются и на визуальный контент.

Для максимальной эффективности компания советует в промптах указывать, что алгоритм должен вести себя как профессиональный переводчик, учитывающий культурные особенности. Это действительно влияет на результат — модель начинает подбирать более точные эквиваленты, а не просто механически переводить слова.

Все новинки уже доступны на платформах Kaggle и Hugging Face.

-4
Spaces - Hugging Face
TranslateGemma - a google Collection

Разработчики могут бесплатно скачать и интегрировать их в свои приложения. Учитывая возможность локального запуска, это открывает интересные перспективы для создания офлайн-переводчиков, которые будут работать без подключения к интернету.

Подпишись, поставь лайк и поделись с друзьями!

Жмякни на колокольчик