Найти в Дзене
Social Mebia Systems

Zhipu открыла «гиганта зрения»: GLM 4.5V на 106B параметров умеет отличать крылышки KFC от McD

Zhipu AI представила и открыла GLM‑4.5V — новое поколение мультимодальной модели понимания визуальных данных. Модель тренирована на текстовой базе GLM‑4.5‑Air, продолжает «мыслящую» линию GLM‑4.1V‑Thinking, насчитывает 106 млрд параметров (MoE с ~12 млрд активных) и получила ручной переключатель режима «Thinking». Для разработчиков — открытый код, FP8‑квантизованные веса, настольный ассистент и щедрый бесплатный пакет API на 20 млн токенов. Ссылки на релиз и демо: Что умеет на практике Внутренняя валидация Zhipu: из 42 бенчмарков по картинкам, видео, документам и GUI‑агентам GLM‑4.5V лидирует в 41 относительно моделей сопоставимого класса (Step‑3, Qwen2.5‑VL и др.). Что под капотом Открытость и инструменты Ограничения и ожидания Почему это важно Визуальная компетентность — ключ для агентов, которые взаимодействуют с компьютером и реальным миром, а не только с текстом. GLM‑4.5V сочетает сильное «зрение», управляемое размышление и практичную открытость: можно локально экспериментировать,

Zhipu AI представила и открыла GLM‑4.5V — новое поколение мультимодальной модели понимания визуальных данных. Модель тренирована на текстовой базе GLM‑4.5‑Air, продолжает «мыслящую» линию GLM‑4.1V‑Thinking, насчитывает 106 млрд параметров (MoE с ~12 млрд активных) и получила ручной переключатель режима «Thinking».

Для разработчиков — открытый код, FP8‑квантизованные веса, настольный ассистент и щедрый бесплатный пакет API на 20 млн токенов.

Ссылки на релиз и демо:

-2

Что умеет на практике

  • Тонкая визуальная дифференциация. Модель распознаёт отличия между крылышками McDonald’s и KFC, аргументируя по цвету прожарки, текстуре корочки и т. п. Это хороший индикатор семантического «зрения», а не лишь OCR.
  • «Угадай место по фото». За 7 дней участия GLM‑4.5V заняла 66‑е место на сайте соревнований, обойдя 99% игроков. При этом в сложных кейсах без явных ориентиров модель может ошибаться (в одном тесте спутала уголок Линьиньсы с локацией на Цинчэншане), но демонстрирует прозрачный ход рассуждений и опорные признаки.
  • GUI‑понимание и агентные сценарии. На скриншотах интернет‑магазина считает скидки, перепроверяет вывод и объясняет шаги. Линейка агент‑фреймворков AutoGLM уже использует GLM‑4.5V как визуальный «мозг».
  • Код по скриншоту/видео. По записи экрана или снимку веб‑страницы генерирует HTML/CSS/JS с приближённым внешним видом и частично восстанавливает логику. В одном из тестов по скриншоту модель выдала верстку за ~10 минут с высокой визуальной схожестью (хотя без интерактивов — их лучше подавать через видеозапись).
  • Документы, PDF, слайды. Суммирует, переводит, извлекает таблицы и графики, опираясь на «визуальное чтение», а не голый OCR, что снижает каскадные ошибки и лучше сохраняет структуру.
  • Визуальная локализация. По вопросу находит и маркирует целевой объект, возвращает координатные рамки — полезно для инспекций, ретейла, геонаблюдений.

Внутренняя валидация Zhipu: из 42 бенчмарков по картинкам, видео, документам и GUI‑агентам GLM‑4.5V лидирует в 41 относительно моделей сопоставимого класса (Step‑3, Qwen2.5‑VL и др.).

Что под капотом

  • Контекст и модальности. 64K мультимодальный контекст, входы — изображения, видео, файлы, текст. Для видео — 3D‑свертки; для высоких разрешений и экстремальных пропорций — двукратная бикубическая интерполяция; для пространственно‑временной «геометрии» — 3D‑RoPE.
  • Три фазы обучения. Предобучение на крупной мультимодальной смеси с упором на длинный контекст; SFT с явными образцами цепочек рассуждений (CoT) для причинно‑следственного и мультимодального понимания; RL‑этап с мультирежимной системой вознаграждений, сочетающей RLVR и RLHF, таргетно усиливающей STEM‑задачи, локализацию и агентные умения.

Открытость и инструменты

  • Доступность. Веса и код доступны на GitHub/HF/ModelScope; есть FP8‑вариант. Для пользователей — приложение‑просмотрщик на Mac (Apple Silicon).
  • Онлайн‑опыт. Модель уже подключена в z.ai (можно загрузить картинку/видео, включить «режим размышления») и в приложениях «Чистый диалог» от Zhipu.
  • Настольный ассистент (open source). Умеет делать скриншоты, запись экрана и передавать в GLM‑4.5V для задач от код‑помощи до анализа видео/документов.
  • API и квоты. На BigModel.cn запущен API с бесплатным пакетом 20 млн токенов. Биллинг заявлен от 2 RMB за 1 млн входных токенов и 6 RMB за 1 млн выходных; поддержаны изображение, видео, файлы и текст.

Ограничения и ожидания

  • В задачах «угадай локацию» без явных ориентиров возможны уверенные, но неверные гипотезы — важно смотреть на объяснение и не полагаться безусловно.
  • Воссоздание интерфейсов по статике передаёт стиль и структуру, но интерактивы требуют видеоданных и итераций.
  • FP8 и большие контексты снижают барьер входа, но для масс‑инференса и агентных пайплайнов стоит учитывать бюджет латентности и стоимость вывода.

Почему это важно

Визуальная компетентность — ключ для агентов, которые взаимодействуют с компьютером и реальным миром, а не только с текстом. GLM‑4.5V сочетает сильное «зрение», управляемое размышление и практичную открытость: можно локально экспериментировать, собрать настольный ассистент, встроить в робофлоу инспекций или GUI‑автоматизацию — и всё это с низким порогом входа.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/