Zai-org представили новую модель генерации изображений на гибридной архитектуре, совмещает авторегрессивный подход и диффузионный декодер 🔘Состоит из двух основных компонентов: 1️⃣Авторегрессивный генератор (9B параметров) - Базируется на модели GLM-4-9B - Расширенный словарь с визуальными токенами - Генерирует компактное кодирование (~256 токенов), которое затем расширяется до 1K-4K токенов - Поддерживает выход в высоком разрешении 1K-2K 2️⃣Диффузионный декодер (7B параметров) - Архитектура на базе single-stream DiT - Оснащён Glyph Encoder, специальным модулем для точного рендеринга текста - Работает в латентном пространстве для быстрой генерации 🔘По возможностям Text-to-Image Генерация высокодетализированных изображений из текстовых описаний, неплохая производительность в сценариях с плотной информацией, рендеринг текста на изображениях (рекорды на бенчмарках) Image-to-Image Редактирование изображений, трансфер стиля, генерация с сохранением идентичности (лица и объекты), кон