Alibaba открыла исходники Qwen3-ASR — передовых мультимодальных моделей распознавания речи с поддержкой 52 языков, высокой точностью и эффективностью. Решения подходят для исследований и промышленного внедрения в сфере искусственного интеллекта. 29 января команда Alibaba Qwen официально открыла исходные коды серии моделей Qwen3-ASR — мощного набора решений для распознавания речи в рамках экосистемы Qwen. В релиз вошли две полнофункциональные модели ASR — Qwen3-ASR-1.7B и Qwen3-ASR-0.6B, а также инновационная модель принудительного выравнивания речи Qwen3-ForcedAligner-0.6B. Вместе они обеспечивают распознавание речи и идентификацию языка более чем в 52 языках и диалектах. По данным Alibaba, Qwen3-ASR использует новый предобученный аудиоэнкодер AuT в сочетании с мультимодальным фундаментом Qwen3-Omni, что обеспечивает высокую точность и стабильность распознавания. Модель на 1,7 млрд параметров демонстрирует передовые результаты (SOTA) в различных сценариях — от китайского и английского
Alibaba Qwen представила модель распознавания речи Qwen3-ASR: поддержка 52 языков, версия с 1,7 млрд параметров достигла SOTA
30 января30 янв
2
1 мин