24 подписчика

GLM-Image: Новая Open Source модель для генерации изображений

14 января14 янв

1 мин

Zhipu AI представила GLM-Image – первую open source модель для генерации изображений промышленного уровня, сочетающую авторегрессивную архитектуру с диффузионным декодером. Веса модели доступны на HuggingFace, код – на GitHub, лицензия MIT. Основная сложность диффузионных моделей, таких как Stable Diffusion или FLUX, заключается в их неспособности точно следовать сложным инструкциям и частых ошибках при генерации текста, особенно длинного. GLM-Image решает эту проблему, разделяя процесс: авторегрессивный модуль на 9 миллиардов параметров (на базе GLM-4) создает семантическую основу изображения из токенов, а затем диффузионный декодер на 7 миллиардов параметров (на базе CogView4) детализирует его. Отдельным модулем Glyph-byT5 обеспечивается качественная отрисовка текста. В результате, на бенчмарке CVTG-2k модель показала 91% точности в генерации текста, превзойдя GPT Image 1 (86%) и другие open source решения. Преимущество GLM-Image особенно заметно при работе с китайским текстом: 97.88

Основная сложность диффузионных моделей, таких как Stable Diffusion или FLUX, заключается в их неспособности точно следовать сложным инструкциям и частых ошибках при генерации текста, особенно длинного. GLM-Image решает эту проблему, разделяя процесс: авторегрессивный модуль на 9 миллиардов параметров (на базе GLM-4) создает семантическую основу изображения из токенов, а затем диффузионный декодер на 7 миллиардов параметров (на базе CogView4) детализирует его. Отдельным модулем Glyph-byT5 обеспечивается качественная отрисовка текста.

В результате, на бенчмарке CVTG-2k модель показала 91% точности в генерации текста, превзойдя GPT Image 1 (86%) и другие open source решения. Преимущество GLM-Image особенно заметно при работе с китайским текстом: 97.88% против 61.9% у OpenAI.

Модель демонстрирует эстетику, сопоставимую с лучшими конкурентами, хотя и не превосходит лидеров, таких как Seedream 4.5 и Nano Banana Pro. Для локального запуска потребуется мощное оборудование: 16 миллиардов параметров требуют около 40 GB видеопамяти в полной точности, однако с использованием квантизации можно адаптировать модель для RTX 4090.