Найти в Дзене
Нейро Отличник

Молния! Igeogram 4 опенсорснулся!

Сегодня в опенсорс вышла Ideogram 4 — генератор картинок, который уже по первым тестам обходит конкурентов по скорости и качеству. Это не доработка старых моделей, а полностью новая архитектура с открытыми весами. Для энтузиастов и разработчиков это редкая возможность посмотреть, как устроен современный генератор изображений изнутри. Главная особенность — структурированный JSON-интерфейс промптов, который позволяет явно управлять цветами, текстом и даже аспектами изображения до 6:1. Модель отлично справляется с многоязычной отрисовкой текста и понимает сложные запросы благодаря интеграции Qwen3-VL-8B-Instruct — полноценной vision-language модели вместо привычных текстовых энкодеров. Внутри — 9,3 миллиарда параметров, что делает Ideogram 4 заметно компактнее Qwen-Image (20B) и FLUX.2 (32B). Это значит, что модель можно запускать даже на относительно слабых видеокартах. Доступны две версии весов: nf4 (Cuda) и fp8, а в будущем обещают добавить больше вариантов квантизации. Ideogram 4 пост

Сегодня в опенсорс вышла Ideogram 4 — генератор картинок, который уже по первым тестам обходит конкурентов по скорости и качеству. Это не доработка старых моделей, а полностью новая архитектура с открытыми весами. Для энтузиастов и разработчиков это редкая возможность посмотреть, как устроен современный генератор изображений изнутри.

Главная особенность — структурированный JSON-интерфейс промптов, который позволяет явно управлять цветами, текстом и даже аспектами изображения до 6:1. Модель отлично справляется с многоязычной отрисовкой текста и понимает сложные запросы благодаря интеграции Qwen3-VL-8B-Instruct — полноценной vision-language модели вместо привычных текстовых энкодеров.

Внутри — 9,3 миллиарда параметров, что делает Ideogram 4 заметно компактнее Qwen-Image (20B) и FLUX.2 (32B). Это значит, что модель можно запускать даже на относительно слабых видеокартах. Доступны две версии весов: nf4 (Cuda) и fp8, а в будущем обещают добавить больше вариантов квантизации.

Технические детали для гиков

Ideogram 4 построена на Diffusion Transformer (DiT) с полностью единой последовательностью: текстовые и визуальные токены обрабатываются одним 34-слойным трансформером без раздельных веток. Такой подход обеспечивает глубокое взаимодействие между текстом и картинкой на всех этапах генерации. Модель обучалась на разметке в формате JSON, а для пользователей доступны промпт-гайд и улучшайзер запросов.

Есть нюансы с цензурой: используется сервис thehive.ai, но, судя по всему, сообщество быстро разберётся, как это обойти, если потребуется. Лицензия — некоммерческая, детали пока уточняются.

Всё — и веса, и код, и инструкции — уже выложено на GitHub. Пробовать можно не только локально, но и через популярные агрегаторы: fal, crea, comfyAPI, runware, magnifik, replicate и другие.

В ближайшее время обещают добавить редактируемый текст, перемещаемые слои и полноценное редактирование изображений. Завтра будем разбираться с анатомией модели, цензурой и глубиной управления текстом.

Всем бессонной ночи!

Нейро Отличник www.neurootlichnik.ru