Команда Qwen компании Alibaba представила Qwen3.5-LiveTranslate-Flash — модель для синхронного перевода речи в реальном времени. Она поддерживает 60 языков на входе и 29 языков на выходе, а задержка перевода составляет 2,8 секунды. По данным тестирования разработчиков, модель опережает решения Google и OpenAI с похожим функционалом. В отличие от предыдущих версий новое поколение отличается мультимодальностью. Большинство систем перевода работают только со звуком, поэтому чаще ошибаются при шуме или фонетически похожих словах. Qwen3.5-LiveTranslate-Flash анализирует видео параллельно со звуком — модель считывает движения губ, жесты говорящего, текст на экране и объекты в кадре. По заявлению разработчиков, это помогает сохранять точность перевода в шумной среде, например на конференциях, торговых площадках и в ситуациях, когда голоса накладываются друг на друга. Модель построена на базе Qwen3.5-Omni и использует механизм reading unit processing. Вместо того чтобы ждать конца фразы, систе
Alibaba выпустила модель синхронного перевода на 60 языков с задержкой 2,8 секунды
ВчераВчера
111
2 мин