Найти в Дзене
Neurogen

GLM-Image

Zai-org представили новую модель генерации изображений на гибридной архитектуре, совмещает авторегрессивный подход и диффузионный декодер 🔘Состоит из двух основных компонентов: 1️⃣Авторегрессивный генератор (9B параметров) - Базируется на модели GLM-4-9B - Расширенный словарь с визуальными токенами - Генерирует компактное кодирование (~256 токенов), которое затем расширяется до 1K-4K токенов - Поддерживает выход в высоком разрешении 1K-2K 2️⃣Диффузионный декодер (7B параметров) - Архитектура на базе single-stream DiT - Оснащён Glyph Encoder, специальным модулем для точного рендеринга текста - Работает в латентном пространстве для быстрой генерации 🔘По возможностям Text-to-Image Генерация высокодетализированных изображений из текстовых описаний, неплохая производительность в сценариях с плотной информацией, рендеринг текста на изображениях (рекорды на бенчмарках) Image-to-Image Редактирование изображений, трансфер стиля, генерация с сохранением идентичности (лица и объекты), кон

GLM-Image

Zai-org представили новую модель генерации изображений на гибридной архитектуре, совмещает авторегрессивный подход и диффузионный декодер

🔘Состоит из двух основных компонентов:

1️⃣Авторегрессивный генератор (9B параметров)

- Базируется на модели GLM-4-9B

- Расширенный словарь с визуальными токенами

- Генерирует компактное кодирование (~256 токенов), которое затем расширяется до 1K-4K токенов

- Поддерживает выход в высоком разрешении 1K-2K

2️⃣Диффузионный декодер (7B параметров)

- Архитектура на базе single-stream DiT

- Оснащён Glyph Encoder, специальным модулем для точного рендеринга текста

- Работает в латентном пространстве для быстрой генерации

🔘По возможностям

Text-to-Image

Генерация высокодетализированных изображений из текстовых описаний, неплохая производительность в сценариях с плотной информацией, рендеринг текста на изображениях (рекорды на бенчмарках)

Image-to-Image

Редактирование изображений, трансфер стиля, генерация с сохранением идентичности (лица и объекты), консистентность нескольких объектов

Показала лучшую точность слов (0.9116) среди открытых моделей на бенчмарке CVTG-2K, обогнала seedream 4.5, z-image и qwen-image

Хорошие результаты на бенчмарках OneIG-Bench и TIIF-Bench, конкурируя с топовыми коммерческими моделями

Модель поддерживает интеграцию через Hugging Face Transformers + Diffusers

🔘Требования

Требуется минимум 80GB VRAM или multi-GPU setup😏

Разрешение: должно делиться на 32

Время инференса: ~64 сек для 1024×1024 на H100

GitHub

Hugging Face

Техническая документация

API

-2
-3
-4