Команда Qwen от Alibaba представила новую генерацию полностью мультимодальной модели — Qwen3.5-Omni. Это не просто очередной большой языковой модель, а настоящий шаг к «omni-modal AGI» — искусственному интеллекту, который изначально понимает и генерирует текст, изображения, аудио и видео в едином конвейере. Модель поддерживает три варианта: Plus, Flash и Light. Все они работают с контекстом до 256K токенов, что позволяет обрабатывать: Модель обучена на огромных объёмах данных: текст, визуальная информация и свыше 100 миллионов часов аудио-видео контента. Благодаря нативной мультимодальной предобучке (early-fusion) она не склеивает отдельные модальности, а понимает их вместе в одном проходе. Ключевые улучшения по сравнению с предыдущей версией: Самая интересная и неожиданно возникшая способность модели — Audio-Visual Vibe Coding («вибро-кодинг» по аудио и видео). Вы просто записываете экран (или снимаете на камеру), говорите вслух, что хотите получить, и модель пишет рабочий код на осно
Alibaba выпустила Qwen3.5-Omni — мультимодальный ИИ, который пишет код по видеозаписи экрана
1 апреля1 апр
3 мин