Главное — у неё вылезла неожиданная способность: писать рабочий код по устным инструкциям и по видео (Qwen называет это «audio-visual vibe coding»). Кратко по сути: • Контекст до 256k токенов и нативная предобученность на 100+ млн часов аудио/видео. • Распознавание речи теперь на 74 языках (113 с диалектами), голосовой вывод — в 36 языках. • ARIA — новая схема для синхронизации текста и голоса в реальном времени. • Модель доступна только через API — веса не выкладывают. 💡 Что важно: это пример «эмергентного» навыка: при масштабе появляются новые возможности — и новые риски: прозрачность, контроль качества кода, безопасность данных и лицензирование остаются вопросами. **Технология двигает границы — но практическая интеграция Подробнее тут
🔹 Появился новый омнимодальный Qwen3.5-Omni — модель, которая умеет работать с текстом, изображениями, аудио и видео одновременно
31 марта31 мар
1
~1 мин