Qwen3.5-Omni — это полноценно омнимодальная нейросеть, которая одновременно обрабатывает текст, изображения, аудио и видео без конвертирования форматов. Модель работает с аудио длительностью более 10 часов и видео до 400 секунд в 720P, понимая содержимое и находя связи между модальностями. Это первая действительно интегрированная система, где все модальности обрабатываются в едином пространстве представлений. За последний год AI работал как узкий специалист: одна модель для текста, вторая для картинок, третья для голоса. Информацию нужно было скармливать в правильном формате, иначе всё ломалось. Qwen3.5-Omni меняет эту парадигму кардинально. Система может обработать более 10 часов аудиозаписи и более 400 секунд видео в формате 720P. Это не просто загрузить и забыть — система анализирует происходящее, описывает, находит причинно-следственные связи между звуком и изображением, строит гипотезы о контексте. Система узнаёт речь на 113 языках и диалектах, а отвечает голосом на 36. Включая ре