14 подписчиков

🔹 Появился новый омнимодальный Qwen3.5-Omni — модель, которая умеет работать с текстом, изображениями, аудио и видео одновременно

31 марта31 мар

~1 мин

Главное — у неё вылезла неожиданная способность: писать рабочий код по устным инструкциям и по видео (Qwen называет это «audio-visual vibe coding»). Кратко по сути: • Контекст до 256k токенов и нативная предобученность на 100+ млн часов аудио/видео. • Распознавание речи теперь на 74 языках (113 с диалектами), голосовой вывод — в 36 языках. • ARIA — новая схема для синхронизации текста и голоса в реальном времени. • Модель доступна только через API — веса не выкладывают. 💡 Что важно: это пример «эмергентного» навыка: при масштабе появляются новые возможности — и новые риски: прозрачность, контроль качества кода, безопасность данных и лицензирование остаются вопросами. **Технология двигает границы — но практическая интеграция Подробнее тут

🔹 Появился новый омнимодальный Qwen3.5-Omni — модель, которая умеет работать с текстом, изображениями, аудио и видео одновременно. Главное — у неё вылезла неожиданная способность: писать рабочий код по устным инструкциям и по видео (Qwen называет это «audio-visual vibe coding»).

Кратко по сути:

• Контекст до 256k токенов и нативная предобученность на 100+ млн часов аудио/видео.

• Распознавание речи теперь на 74 языках (113 с диалектами), голосовой вывод — в 36 языках.

• ARIA — новая схема для синхронизации текста и голоса в реальном времени.

• Модель доступна только через API — веса не выкладывают.

💡 Что важно: это пример «эмергентного» навыка: при масштабе появляются новые возможности — и новые риски: прозрачность, контроль качества кода, безопасность данных и лицензирование остаются вопросами. **Технология двигает границы — но практическая интеграция

Подробнее тут

IT (информационные технологии)

5,67 млн интересуются