80 подписчиков

Zhipu AI выпустила GLM-4.6V: открытая модель, которая видит, думает и действует одновременно

11 декабря 202511 дек 2025

6 мин

Представьте себе: искусственный интеллект, который не просто смотрит на скриншот вашего сайта, но тут же может переписать его код. Или берёт многостраничный отчёт в PDF и за один проход вытаскивает нужные данные. Звучит как фантастика? Что ж, китайский стартап Zhipu AI (он же Z.ai) только что выпустил GLM-4.6V — серию открытых моделей зрения и языка, которые это действительно умеют. И вот что самое интересное: это не просто очередная VLM (vision-language model, если кому интересна аббревиатура). Здесь реально что-то новое — встроенная способность вызывать инструменты прямо с визуальными данными. Но об этом чуть позже. В релизе две версии: Почему это важно? Ну, параметры — это вроде нейронов в мозгу модели. Чем их больше, тем «умнее» система в целом. Но размер — это не всегда благо. Маленькие модели работают быстро, экономят ресурсы, и вот их-то как раз хватает для реальных задач на краю сети (в смартфонах, IoT устройствах и тому подобном). Интересно то, что обе версии показывают конкур

Оглавление

Две модели: большая и быстрая
Главная фишка: функции, которые видят
Окно контекста размером с небольшую библиотеку

И вот что самое интересное: это не просто очередная VLM (vision-language model, если кому интересна аббревиатура). Здесь реально что-то новое — встроенная способность вызывать инструменты прямо с визуальными данными. Но об этом чуть позже.

Две модели: большая и быстрая

В релизе две версии:

GLM-4.6V (106B) — монстр со 106 миллиардами параметров. Это для облачных вычислений, когда скорость не критична, зато нужна максимальная мощность.
GLM-4.6V-Flash (9B) — компактная версия с 9 миллиардами параметров. Для локальных приложений, когда задержка — враг номер один.

Почему это важно? Ну, параметры — это вроде нейронов в мозгу модели. Чем их больше, тем «умнее» система в целом. Но размер — это не всегда благо. Маленькие модели работают быстро, экономят ресурсы, и вот их-то как раз хватает для реальных задач на краю сети (в смартфонах, IoT устройствах и тому подобном).

Интересно то, что обе версии показывают конкурентные результаты в своих весовых категориях. Flash зачастую обыгрывает похожие по размеру модели других компаний — просто потому что она лучше обучена.

Главная фишка: функции, которые видят

Вот здесь Zhipu AI сделал настоящий прыжок вперёд. В GLM-4.6V встроена нативная функция вызова инструментов — и вот это да! То есть модель может передавать картинки, скриншоты и документы прямо в инструменты вроде поиска, обрезки изображений или распознавания графиков. Без промежуточных текстовых описаний, которые неизбежно теряют информацию.

Как это работает? Двусторонне:

На входе — вы даёте модели картинку плюс инструмент (например: «обрежь этот график из документа»).
На выходе — инструмент возвращает новую картинку, которую модель сразу же анализирует и продолжает рассуждать.

На практике это означает, что GLM-4.6V может:

Генерировать структурированные отчёты из документов разных форматов
Проверять качество картинок (например, кандидатов на выборе)
Автоматически вытаскивать диаграммы из научных статей во время написания
Искать в веб-результатах и отвечать на вопросы с картинками

Вообще, это шаг в сторону по-настоящему агентивных систем, которые не просто наблюдают, но и действуют.

Окно контекста размером с небольшую библиотеку

GLM-4.6V поддерживает 128 000 токенов контекста. Чтобы вы понимали — это примерно 300 страниц текста в одном взаимодействии. Или целый фильм (час видео), или 200 слайдов. За один раз!

Это открывает дикие возможности: анализ больших финансовых досье, подробное резюме спортивных трансляций с временными метками событий. Представьте, что раньше нужно было разбивать на куски — теперь это просто съедается в один проход.

Бенчмарки: реальные цифры

Модель прошла тестирование на 20+ открытых бенчмарках. Вот что показали результаты:

GLM-4.6V (106B) заняла лучшие или близкие к лучшим позиции среди открытых моделей того же размера на тестах типа MMBench, MathVista, ChartQAPro и других.
GLM-4.6V-Flash (9B) обходит конкурентов вроде Qwen3-VL-8B почти по всем категориям.
Большая модель с её 128K контекстом даже обыграет куда более крупные системы (вроде Step-3 с 321B параметров) на долгих документах и видео.

Конкретные примеры:

MathVista: 88.2 (GLM-4.6V) против 84.6 у предыдущей версии
WebVoyager: 81.0 против 68.4 у конкурента
Распознавание объектов на картинках — тоже на уровне лучших

Лицензия: полная свобода для предприятий

Обе модели выпущены под MIT лицензией — это значит, что вы можете их использовать, модифицировать, даже встраивать в коммерческие продукты. Никаких обязательств открывать код производных работ.

Для корпораций это критично: полный контроль над инфраструктурой, возможность развернуть локально, без интернета, в полной изоляции («воздушный зазор»). Веса лежат на Hugging Face, код — на GitHub. Всё открыто.

Архитектура: как это устроено

Классическая схема: энкодер-декодер архитектура, но с изюминкой. В основе Vision Transformer (ViT) для анализа изображений, затем MLP слой для согласования визуальных признаков с большой языковой моделью на выходе.

Видео обрабатывается 3D свёртками, пространство кодируется через 2D-RoPE. Главное — система работает с картинками любых размеров и пропорций, даже панорамные (соотношение 200:1). Есть поддержка временных последовательностей видеокадров с явными токенами времени.

На этапе генерации модель поддерживает структурированный вывод, совместимый с вызовом функций и API. Расширенный словарь токенов, шаблоны форматирования — всё для стабильной работы с инструментами.

Автоматизация интерфейсов и длинные документы

Zhipu AI особо подчёркивает способность GLM-4.6V помогать разработчикам:

Воспроизвести HTML/CSS/JS с пиксельной точностью по скриншоту UI
Принимать команды на естественном языке для редактирования макетов
Находить и менять конкретные элементы интерфейса визуально

Это встроено в отдельный инструмент визуального программирования, где модель итерирует по дизайну, намерению и коду, просто глядя на экран.

Обучение: когда RL лучше человека

Модель обучалась в несколько этапов: предобучение, затем supervised fine-tuning (SFT) и reinforcement learning (RL). Ключевые моменты:

Curriculum Sampling (RLCS) — система динамически меняет сложность примеров в зависимости от прогресса модели.
Мультидоменные системы вознаграждения — отдельные верификаторы для STEM, графиков, GUI, видео и пространственного понимания.
Функция-осведомленное обучение — специальные теги для структурирования рассуждений.

А вот любопытный выбор: они использовали RL с верифицируемыми вознаграждениями вместо обратной связи от людей (RLHF). Почему? Масштабируемость. RLHF требует толп аннотаторов, а автоматическая верификация работает на любых объёмах.

Цены: где GLM-4.6V выигрывает

Вот табличка ценообразования для API:

GLM-4.6V: $0.30 (входные токены) / $0.90 (выходные) за миллион
GLM-4.6V-Flash: бесплатно

Да, вы правильно прочитали — Flash совершенно бесплатная. А большая версия? Посмотрите на конкурентов: Qwen3-VL-235B стоит в несколько раз дороже, GPT-5.1 — в 9 раз, Claude Opus — в 75 раз. GLM-4.6V попадает в разумную середину: мощная, но не ограбит бюджет.

Предыдущая серия: GLM-4.5

До 4.6V была серия 4.5, вышедшая в середине 2025 года. Там уже были инструменты, рассуждение, кодирование, агентивное поведение. Плюс забавная фишка — модель может генерировать полные PowerPoint презентации из одного запроса. Для корпоративных отчётов, образования, внутренних коммуникаций — самое то.

Потом добавили варианты: GLM-4.5-X, AirX, Flash для ещё большей скорости. Вся семья GLM позиционируется как дешёвая, открытая, production-ready альтернатива для тех, кому нужен полный контроль над моделью и её развёртыванием.

Что это значит для экосистемы

GLM-4.6V — это серьёзный шаг в развитии открытых мультимодальных систем. За последний год таких моделей появилось много, но мало кто предлагает:

Встроенное использование визуальных инструментов
Структурированную мультимодальную генерацию
Логику памяти и принятия решений для агентов

Жиpu AI делает упор именно на «замыкание цикла» — от восприятия к действию через встроенный вызов функций. Это шаг к настоящим агентивным системам. Архитектура и подход к обучению показывают эволюцию семейства GLM, и она явно конкурирует с GPT-4V от OpenAI и Gemini от Google DeepMind.

Итог для бизнеса

Zhipu AI выпустила GLM-4.6V — открытую VLM с нативным вызовом инструментов, длинным контекстом и способностью к автоматизации интерфейсов. Новые рекорды производительности, открытая лицензия, конкурентные цены. Если вам нужна мощная мультимодальная система, которая вы сможете контролировать полностью и встраивать в свои продукты — вот она.

Открытые модели вроде GLM-4.6V — это будущность корпоративного AI. Контроль, гибкость, реальная автоматизация. Не хотите пропустить новости из этого мира?🔔 Чтобы следить за развитием мультимодальных моделей, функциями AI для бизнеса и другими прорывами в искусственном интеллекте, подпишитесь на мой канал «ProAI» в Telegram!