86,8 тыс подписчиков

Alibaba выпустила модель синхронного перевода на 60 языков с задержкой 2,8 секунды

ВчераВчера

111

2 мин

Команда Qwen компании Alibaba представила Qwen3.5-LiveTranslate-Flash — модель для синхронного перевода речи в реальном времени. Она поддерживает 60 языков на входе и 29 языков на выходе, а задержка перевода составляет 2,8 секунды. По данным тестирования разработчиков, модель опережает решения Google и OpenAI с похожим функционалом. В отличие от предыдущих версий новое поколение отличается мультимодальностью. Большинство систем перевода работают только со звуком, поэтому чаще ошибаются при шуме или фонетически похожих словах. Qwen3.5-LiveTranslate-Flash анализирует видео параллельно со звуком — модель считывает движения губ, жесты говорящего, текст на экране и объекты в кадре. По заявлению разработчиков, это помогает сохранять точность перевода в шумной среде, например на конференциях, торговых площадках и в ситуациях, когда голоса накладываются друг на друга. Модель построена на базе Qwen3.5-Omni и использует механизм reading unit processing. Вместо того чтобы ждать конца фразы, систе

В отличие от предыдущих версий новое поколение отличается мультимодальностью. Большинство систем перевода работают только со звуком, поэтому чаще ошибаются при шуме или фонетически похожих словах. Qwen3.5-LiveTranslate-Flash анализирует видео параллельно со звуком — модель считывает движения губ, жесты говорящего, текст на экране и объекты в кадре. По заявлению разработчиков, это помогает сохранять точность перевода в шумной среде, например на конференциях, торговых площадках и в ситуациях, когда голоса накладываются друг на друга.

Модель построена на базе Qwen3.5-Omni и использует механизм reading unit processing. Вместо того чтобы ждать конца фразы, система определяет момент, когда уже накопила достаточно смысла для перевода, и начинает выдавать результат до того, как говорящий заканчивает предложение.

Так Alibaba пытается решить главную проблему синхронного перевода — постоянный компромисс между скоростью и пониманием контекста. Дополнительно модель использует алгоритм предсказания смысловых единиц, который, по данным разработчиков, позволяет сохранить более 94% точности по сравнению с переводом не в реальном времени.

Среди новых функций — имитация голоса в реальном времени. Для создания голосового профиля говорящего достаточно одной произнесенной фразы. После этого переведенная речь воспроизводится с характеристиками оригинального голоса — тембром, темпом и интонацией. Разработчики также добавили динамическую работу с глоссариями: пользователи могут передавать отраслевую терминологию, например фармацевтическую, юридическую или техническую, прямо во время сессии. Это снижает риск критических ошибок перевода в профессиональных контекстах.

По сравнению с предыдущей версией модель существенно расширила охват. Число поддерживаемых входных языков выросло с 18 до 60, более чем в три раза, а голосовой вывод теперь доступен на 29 языках вместо 10. Среди поддерживаемых языков — китайский, английский, русский, арабский, хинди, японский, корейский, а также большинство западноевропейских языков. Модель доступна через Alibaba Cloud Model Studio по протоколу WebSocket.

Подпишитесь на «Инк» в Telegram. Там мы пишем нескучным языком о самом важном для предпринимателей. Подписаться.

Гаджеты и электроника

5,73 млн интересуются