24 подписчика

КИТАЙСКИЕ МОДЕЛИ ПОКОЛЕНИЯ Z

16 декабря 202516 дек 2025

2 мин

КИТАЙСКИЕ МОДЕЛИ ПОКОЛЕНИЯ Z💥 GLM-4.6V выпустили сразу два варианта:➡️🚀 🔹 GLM-4.6V (106B) — монстр с 128K контекстом, способный прожевать целый час видео, 150 страниц отчёта или 200 слайдов презентации за один укус 🧠📊 🔹 GLM-4.6V-Flash (9B) — лёгкий, быстрый, как TikTok-скроллер в 3 ночи, идеален для локального запуска, даже на ноуте с дискретной видеокартой 🖥💨 Но самое сочное — нативный multimodal tool calling. Это значит: модель смотрит на картинку → понимает → сама вызывает функцию, чтобы сделать что-то полезное. Без костылей, без костромной магии, без “давайте сначала переведём это в текст…” — всё в одном потоке 🔥 Нужно сверстать сайт по скриншоту? Готово 🧪 Надо найти в видео конкретный момент, где забили гол, и выдать таймкод? Пожалуйста ⏱️⚽️ Хочешь, чтобы модель распарсила PDF-презентацию и сделала из неё красивый пост с иллюстрациями? Она уже за это 💼🎨 И да — это open-source, веса лежат на Hugging Face, можно ставить даже у себя в гараже (если там серверный шкаф) 🔓?

КИТАЙСКИЕ МОДЕЛИ ПОКОЛЕНИЯ Z💥

GLM-4.6V выпустили сразу два варианта:➡️🚀

🔹 GLM-4.6V (106B) — монстр с 128K контекстом, способный прожевать целый час видео, 150 страниц отчёта или 200 слайдов презентации за один укус 🧠📊

🔹 GLM-4.6V-Flash (9B) — лёгкий, быстрый, как TikTok-скроллер в 3 ночи, идеален для локального запуска, даже на ноуте с дискретной видеокартой 🖥💨

Но самое сочное — нативный multimodal tool calling. Это значит: модель смотрит на картинку → понимает → сама вызывает функцию, чтобы сделать что-то полезное. Без костылей, без костромной магии, без “давайте сначала переведём это в текст…” — всё в одном потоке 🔥

Нужно сверстать сайт по скриншоту? Готово 🧪

Надо найти в видео конкретный момент, где забили гол, и выдать таймкод? Пожалуйста ⏱️⚽️

Хочешь, чтобы модель распарсила PDF-презентацию и сделала из неё красивый пост с иллюстрациями? Она уже за это 💼🎨

И да — это open-source, веса лежат на Hugging Face, можно ставить даже у себя в гараже (если там серверный шкаф) 🔓🏗

💥 Почему это круто?

Потому что GLM-4.6V — это не просто “мозг”, это полный мультимодальный агент. Больше не нужно собирать костыльный пайплайн из OCR → LLM → функция → интерфейс. Всё теперь встроено.

Модель видит → думает → действует.

Это революция в UX для ИИ-агентов: вместо того чтобы ты описывал картинку, модель смотрит сама и делает выводы. А с 128K контекстом она помнит всё — от первой до последней сцены в видео, от первого слайда до последнего абзаца.

И да — она SoTA на куче бенчмарков: MMBench, MathVista, OCRBench… То есть не просто “крутая”, а подтверждённо крутая 🏆

А Flash-версия — это подарок для всех, кто устал ждать 20 секунд, пока модель подумает. Ты даёшь ей картинку — она уже выводит код/сводку/описание, пока ты моргаешь 👀⚡️

💼 Как это использовать в бизнесе?

1️⃣ Автоматизация анализа контента — пусть модель смотрит на часовые записи встреч и выдаёт краткое содержание с таймкодами ключевых решений. Прощай, стенограммы!

2️⃣ Генерация отчётов по скриншотам/документам — клиент скинул PDF или слайды? Модель сама структурирует, вставит графики и оформит в брендированном стиле 📈

3️⃣ Инструмент для разработчиков — загрузил макет в Figma → получил готовый фронтенд. Без промежуточных танцев с бубном 💻✨

4️⃣ Мультимодальный поиск — ищи по картинке + тексту одновременно. Например: “найди в архиве все презентации, где есть график роста и упоминание ИИ после 2023 года” 🔍

5️⃣ Видео-аналитика для маркетинга — модель смотрит рекламные ролики, выделяет ключевые кадры, эмоции, логотипы и даёт рекомендации по улучшению 🎬🧠

Веса

Тестить тут

Подробнее

⏳⏳⏳⏳⏳⏳⏳⏳

👩‍🍼 Это наш ИИ-Продавец

😖 Маркетплейс ИИ-Менеджеров

🫢 ИИрки - ИИ-рекламки в Телеграм

▶️ Это наш Ютубчик

💬 Это наша ВКшечка

#llm