Zhipu AI представила GLM-Image – первую open source модель для генерации изображений промышленного уровня, сочетающую авторегрессивную архитектуру с диффузионным декодером. Веса модели доступны на HuggingFace, код – на GitHub, лицензия MIT. Основная сложность диффузионных моделей, таких как Stable Diffusion или FLUX, заключается в их неспособности точно следовать сложным инструкциям и частых ошибках при генерации текста, особенно длинного. GLM-Image решает эту проблему, разделяя процесс: авторегрессивный модуль на 9 миллиардов параметров (на базе GLM-4) создает семантическую основу изображения из токенов, а затем диффузионный декодер на 7 миллиардов параметров (на базе CogView4) детализирует его. Отдельным модулем Glyph-byT5 обеспечивается качественная отрисовка текста. В результате, на бенчмарке CVTG-2k модель показала 91% точности в генерации текста, превзойдя GPT Image 1 (86%) и другие open source решения. Преимущество GLM-Image особенно заметно при работе с китайским текстом: 97.88