80 подписчиков

Alibaba выпустила небольшую модель Qwen3.5-9B, которая обошла GPT-OSS-120B от OpenAI и работает на обычных ноутбуках

3 марта3 мар

4 мин

Alibaba презентовала серию компактных моделей Qwen3.5, и вот что удивило всех: 9-миллиардная версия обходит 120-миллиардную модель OpenAI в ключевых тестах. При этом работает прямо на ноутбуках. Это звучит как чит, но это реальность. Команда Qwen Team представила четыре новых модели: Это нишечка совсем другого масштаба. Если флагманы от OpenAI, Anthropic и Google считаются триллионными параметрами, то Qwen3.5 — это сотни миллионов или миллиарды. Прямо как небольшие модели от MIT-овского LiquidAI. Alibaba отошла от стандартной архитектуры Transformer. Вместо этого используется гибридный подход: Gated Delta Networks (вид линейного внимания) плюс разреженные Mixture-of-Experts (MoE). Эта штука решает проблему «стены памяти», которая обычно душит маленькие модели. Результат: выше пропускная способность, ниже задержки при работе. Вообще красота. И это нативно мультимодальные модели. Не прикручивают визуальный энкодер к текстовой модели, а делают это правильно — с помощью раннего слияния мул

Оглавление

Маленькая, но мощная: революция в локальных ИИ
Что именно выпустила Alibaba
Как это работает технически

Маленькая, но мощная: революция в локальных ИИ

Что именно выпустила Alibaba

Команда Qwen Team представила четыре новых модели:

Qwen3.5-0.8B и 2B — микромодели для смартфонов и устройств, где батарея на вес золота.
Qwen3.5-4B — мультимодальная база для лёгких агентов с поддержкой 262 тысяч токенов контекста.
Qwen3.5-9B — компактная модель рассуждений, которая лучше OpenAI’s gpt-oss-120B по многоязычности и логике уровня выпускника.

Это нишечка совсем другого масштаба. Если флагманы от OpenAI, Anthropic и Google считаются триллионными параметрами, то Qwen3.5 — это сотни миллионов или миллиарды. Прямо как небольшие модели от MIT-овского LiquidAI.

Как это работает технически

Alibaba отошла от стандартной архитектуры Transformer. Вместо этого используется гибридный подход: Gated Delta Networks (вид линейного внимания) плюс разреженные Mixture-of-Experts (MoE).

Эта штука решает проблему «стены памяти», которая обычно душит маленькие модели. Результат: выше пропускная способность, ниже задержки при работе. Вообще красота.

И это нативно мультимодальные модели. Не прикручивают визуальный энкодер к текстовой модели, а делают это правильно — с помощью раннего слияния мультимодальных токенов. Благодаря этому даже 4B модель видит интерфейсы и считает предметы в видео так, как раньше требовались модели в десять раз больше.

Числа, которые шокируют

Давай посмотрим на бенчмарки:

Визуальное мышление MMMU-Pro: Qwen3.5-9B получила 70.1 балла, выше чем Gemini 2.5 Flash-Lite (59.7) и даже специализированная Qwen3-VL-30B-A3B (63.0).
Логика уровня выпускника GPQA Diamond: 9B модель набрала 81.7, обогнав gpt-oss-120b (80.1), которая в 13 раз больше.
Видео: На тесте Video-MME Qwen3.5-9B получила 84.5, а 4B — 83.5. Gemini 2.5 Flash-Lite отстала с 74.6.
Математика: В турнире HMMT Feb 2025 9B версия набрала 83.2, 4B — 74.0. Высокий STEM не требует суперкомпьютеров.
Документы и языки: 9B ведёт в OmniDocBench v1.5 (87.7 баллов) и держит топ в многоязычном тесте MMMLU (81.2 против 78.2 у gpt-oss-120b).

Что говорят разработчики

После выхода этой новости сообщество заговорило. Слоган «больше интеллекта, меньше вычислений» попал прямо в цель.

Paul Couvert из Blueshell AI не скрывал удивления: «Как это вообще возможно?! Qwen выпустила 4 новые модели, и 4B почти так же хороша, как предыдущая 80B A3B. А 9B равна GPT OSS 120b, но в 13 раз меньше!»

И дальше пошёл практический список:

«Работают на любом ноутбуке»
«0.8B и 2B для смартфона»
«Локально и с открытым исходным кодом»

Karan Kendre из Kargul Studio подтвердил: «эти модели запускаются локально на моём M1 MacBook Air бесплатно». Один из разработчиков отметил, что 4B модель как «сильная мультимодальная база» — это просто «game changer для мобильных разработчиков», которым нужно считывать экран без перегрева процессора.

Даже Hugging Face разработчик Xenova заметил: новые Qwen3.5 Small Models могут работать прямо в браузере и делать сложные вещи вроде анализа видео.

Открытый исходный код — победа сообщества

Все веса и конфиги выложены под лицензией Apache 2.0. Это означает:

Коммерческое использование: Встраивай в продукты без роялти.
Модификация: Делай fine-tuning и переучивание под свои нужды.
Распространение: Переупакуй в Ollama или другие локальные системы.

Никакого vendor lock-in, никаких проприетарных API. Это серьёзно.

Почему это важно прямо сейчас

Мы перешли в эру «Agentic Realignment». Чат-боты — это вчерашний день. Сейчас нужна автономия: умение мыслить (reasoning), видеть (мультимодальность) и действовать (использовать инструменты).

Триллион-параметровые модели для этого дорого до невозможности. Локальная Qwen3.5-9B может делать эти цикли за доли стоимости облака.

Alibaba масштабировала Reinforcement Learning на миллион-агентных окружениях и встроила в эти маленькие модели «человеческую логику». Теперь они справляются с многошаговыми задачами: организовать рабочий стол, разобрать код из видео, провести рефакторинг.

Будь то 0.8B на смартфоне или 9B на кодовом терминале — Qwen3.5 серия демократизирует агентскую эру. Переносит продвинутое мышление на «край» сети — на устройства и локальные серверы. Компании получат возможность автоматизировать задачи, которые раньше требовали дорогого облака или долгой обработки.

Где это применится в компаниях

Практические сценарии прямо сейчас:

Инженеры софта: Локальный интеллект кода, рефакторинг целых репозиториев, автодебаг в терминале.
Ops и IT: Безопасная автоматизация системных настроек и управления файлами без облака.
Продукт и дизайн: Встроить мультимодальное рассуждение прямо в мобильные и десктопные приложения.
Данные и аналитика: Извлечение структурированных данных из сложных отчётов, OCR высокой точности.

О чём нужно помнить

Не всё идеально. В многошаговых агентских процессах маленькие ошибки на ранних этапах могут привести к каскадному провалу. Модели хороши в написании нового кода «с нуля», но тяжелее с отладкой сложных legacy-систем.

Даже «маленькие» модели вроде 9B требуют приличного VRAM для быстрого вывода. И да, использование китайского провайдера может вызвать вопросы по остаточным данным в некоторых юрисдикциях — но Apache 2.0 версия может крутиться на локальных облаках.

Лучше всего эти модели работают с «проверяемыми» задачами: кодирование, математика, следование инструкциям. Где результат можно проверить автоматически по правилам. Это защищает от молчаливых ошибок.

Если тема зашла — самое время держаться ближе к обновлениям (там часто всплывают детали, которые решают все).🔔 Чтобы читать больше про нейросети, AI-сервисы и практические кейсы, подписывайся на канал «ProAI» в Telegram!