Представьте себе: искусственный интеллект, который не просто смотрит на скриншот вашего сайта, но тут же может переписать его код. Или берёт многостраничный отчёт в PDF и за один проход вытаскивает нужные данные. Звучит как фантастика? Что ж, китайский стартап Zhipu AI (он же Z.ai) только что выпустил GLM-4.6V — серию открытых моделей зрения и языка, которые это действительно умеют.
И вот что самое интересное: это не просто очередная VLM (vision-language model, если кому интересна аббревиатура). Здесь реально что-то новое — встроенная способность вызывать инструменты прямо с визуальными данными. Но об этом чуть позже.
Две модели: большая и быстрая
В релизе две версии:
- GLM-4.6V (106B) — монстр со 106 миллиардами параметров. Это для облачных вычислений, когда скорость не критична, зато нужна максимальная мощность.
- GLM-4.6V-Flash (9B) — компактная версия с 9 миллиардами параметров. Для локальных приложений, когда задержка — враг номер один.
Почему это важно? Ну, параметры — это вроде нейронов в мозгу модели. Чем их больше, тем «умнее» система в целом. Но размер — это не всегда благо. Маленькие модели работают быстро, экономят ресурсы, и вот их-то как раз хватает для реальных задач на краю сети (в смартфонах, IoT устройствах и тому подобном).
Интересно то, что обе версии показывают конкурентные результаты в своих весовых категориях. Flash зачастую обыгрывает похожие по размеру модели других компаний — просто потому что она лучше обучена.
Главная фишка: функции, которые видят
Вот здесь Zhipu AI сделал настоящий прыжок вперёд. В GLM-4.6V встроена нативная функция вызова инструментов — и вот это да! То есть модель может передавать картинки, скриншоты и документы прямо в инструменты вроде поиска, обрезки изображений или распознавания графиков. Без промежуточных текстовых описаний, которые неизбежно теряют информацию.
Как это работает? Двусторонне:
- На входе — вы даёте модели картинку плюс инструмент (например: «обрежь этот график из документа»).
- На выходе — инструмент возвращает новую картинку, которую модель сразу же анализирует и продолжает рассуждать.
На практике это означает, что GLM-4.6V может:
- Генерировать структурированные отчёты из документов разных форматов
- Проверять качество картинок (например, кандидатов на выборе)
- Автоматически вытаскивать диаграммы из научных статей во время написания
- Искать в веб-результатах и отвечать на вопросы с картинками
Вообще, это шаг в сторону по-настоящему агентивных систем, которые не просто наблюдают, но и действуют.
Окно контекста размером с небольшую библиотеку
GLM-4.6V поддерживает 128 000 токенов контекста. Чтобы вы понимали — это примерно 300 страниц текста в одном взаимодействии. Или целый фильм (час видео), или 200 слайдов. За один раз!
Это открывает дикие возможности: анализ больших финансовых досье, подробное резюме спортивных трансляций с временными метками событий. Представьте, что раньше нужно было разбивать на куски — теперь это просто съедается в один проход.
Бенчмарки: реальные цифры
Модель прошла тестирование на 20+ открытых бенчмарках. Вот что показали результаты:
- GLM-4.6V (106B) заняла лучшие или близкие к лучшим позиции среди открытых моделей того же размера на тестах типа MMBench, MathVista, ChartQAPro и других.
- GLM-4.6V-Flash (9B) обходит конкурентов вроде Qwen3-VL-8B почти по всем категориям.
- Большая модель с её 128K контекстом даже обыграет куда более крупные системы (вроде Step-3 с 321B параметров) на долгих документах и видео.
Конкретные примеры:
- MathVista: 88.2 (GLM-4.6V) против 84.6 у предыдущей версии
- WebVoyager: 81.0 против 68.4 у конкурента
- Распознавание объектов на картинках — тоже на уровне лучших
Лицензия: полная свобода для предприятий
Обе модели выпущены под MIT лицензией — это значит, что вы можете их использовать, модифицировать, даже встраивать в коммерческие продукты. Никаких обязательств открывать код производных работ.
Для корпораций это критично: полный контроль над инфраструктурой, возможность развернуть локально, без интернета, в полной изоляции («воздушный зазор»). Веса лежат на Hugging Face, код — на GitHub. Всё открыто.
Архитектура: как это устроено
Классическая схема: энкодер-декодер архитектура, но с изюминкой. В основе Vision Transformer (ViT) для анализа изображений, затем MLP слой для согласования визуальных признаков с большой языковой моделью на выходе.
Видео обрабатывается 3D свёртками, пространство кодируется через 2D-RoPE. Главное — система работает с картинками любых размеров и пропорций, даже панорамные (соотношение 200:1). Есть поддержка временных последовательностей видеокадров с явными токенами времени.
На этапе генерации модель поддерживает структурированный вывод, совместимый с вызовом функций и API. Расширенный словарь токенов, шаблоны форматирования — всё для стабильной работы с инструментами.
Автоматизация интерфейсов и длинные документы
Zhipu AI особо подчёркивает способность GLM-4.6V помогать разработчикам:
- Воспроизвести HTML/CSS/JS с пиксельной точностью по скриншоту UI
- Принимать команды на естественном языке для редактирования макетов
- Находить и менять конкретные элементы интерфейса визуально
Это встроено в отдельный инструмент визуального программирования, где модель итерирует по дизайну, намерению и коду, просто глядя на экран.
Обучение: когда RL лучше человека
Модель обучалась в несколько этапов: предобучение, затем supervised fine-tuning (SFT) и reinforcement learning (RL). Ключевые моменты:
- Curriculum Sampling (RLCS) — система динамически меняет сложность примеров в зависимости от прогресса модели.
- Мультидоменные системы вознаграждения — отдельные верификаторы для STEM, графиков, GUI, видео и пространственного понимания.
- Функция-осведомленное обучение — специальные теги для структурирования рассуждений.
А вот любопытный выбор: они использовали RL с верифицируемыми вознаграждениями вместо обратной связи от людей (RLHF). Почему? Масштабируемость. RLHF требует толп аннотаторов, а автоматическая верификация работает на любых объёмах.
Цены: где GLM-4.6V выигрывает
Вот табличка ценообразования для API:
- GLM-4.6V: $0.30 (входные токены) / $0.90 (выходные) за миллион
- GLM-4.6V-Flash: бесплатно
Да, вы правильно прочитали — Flash совершенно бесплатная. А большая версия? Посмотрите на конкурентов: Qwen3-VL-235B стоит в несколько раз дороже, GPT-5.1 — в 9 раз, Claude Opus — в 75 раз. GLM-4.6V попадает в разумную середину: мощная, но не ограбит бюджет.
Предыдущая серия: GLM-4.5
До 4.6V была серия 4.5, вышедшая в середине 2025 года. Там уже были инструменты, рассуждение, кодирование, агентивное поведение. Плюс забавная фишка — модель может генерировать полные PowerPoint презентации из одного запроса. Для корпоративных отчётов, образования, внутренних коммуникаций — самое то.
Потом добавили варианты: GLM-4.5-X, AirX, Flash для ещё большей скорости. Вся семья GLM позиционируется как дешёвая, открытая, production-ready альтернатива для тех, кому нужен полный контроль над моделью и её развёртыванием.
Что это значит для экосистемы
GLM-4.6V — это серьёзный шаг в развитии открытых мультимодальных систем. За последний год таких моделей появилось много, но мало кто предлагает:
- Встроенное использование визуальных инструментов
- Структурированную мультимодальную генерацию
- Логику памяти и принятия решений для агентов
Жиpu AI делает упор именно на «замыкание цикла» — от восприятия к действию через встроенный вызов функций. Это шаг к настоящим агентивным системам. Архитектура и подход к обучению показывают эволюцию семейства GLM, и она явно конкурирует с GPT-4V от OpenAI и Gemini от Google DeepMind.
Итог для бизнеса
Zhipu AI выпустила GLM-4.6V — открытую VLM с нативным вызовом инструментов, длинным контекстом и способностью к автоматизации интерфейсов. Новые рекорды производительности, открытая лицензия, конкурентные цены. Если вам нужна мощная мультимодальная система, которая вы сможете контролировать полностью и встраивать в свои продукты — вот она.
Открытые модели вроде GLM-4.6V — это будущность корпоративного AI. Контроль, гибкость, реальная автоматизация. Не хотите пропустить новости из этого мира?🔔 Чтобы следить за развитием мультимодальных моделей, функциями AI для бизнеса и другими прорывами в искусственном интеллекте, подпишитесь на мой канал «ProAI» в Telegram!