Пока одни обсуждают, кто первый создаст «AGI», в мире генеративного искусства кипят страсти другого рода. На платформе Specular Realms прошёл своеобразный «баттл» моделей для редактирования изображений — соревнование, где 7 лучших систем попытались выполнить 12 текстовых заданий вроде «добавь серфера на волну Хокусая» или «замени короля пик на короля червей».
Итог: ни одна из моделей не справилась идеально. Даже лидеры промахивались там, где требуется не просто «фантазия», а точное пространственное мышление.
🏆 Лидеры и аутсайдеры
🧠 Seedream 4 — абсолютный фаворит теста, набрал 9 из 12 возможных успехов. Разработанная ByteDance модель уверенно редактирует цвет, стиль и мелкие детали, но «спотыкается» на точном позиционировании объектов. Например, вместо перестановки блоков местами она просто перекрашивала их.
⚡ Gemini 2.5 Flash от Google занял второе место (7/12), демонстрируя уверенные результаты в художественных задачах — особенно при добавлении новых элементов (например, серфера в «Великую волну у Канагавы»).
🖼️ Qwen-Image-Edit от Alibaba показал стабильный, но не идеальный результат (6/12), особенно выделившись в задаче по редактированию классических изображений и локальной цветокоррекции.
Зато модели вроде OmniGen2 (1/12) и FLUX.1 Kontext dev (5/12) показали, что «больше параметров» не всегда значит «лучше результат».
🧩 Сложнейшие задачи
🔥 Самыми трудными оказались:
- 🧱 Смена позиций объектов — модели буквально «не понимают», что значит «поменять местами» предметы разного размера. Они видят цвет, текстуру, но не пространство.
- 🧽 Удаление конкретных предметов — вместо точечного удаления модели склонны «перерисовывать» всю сцену.
- 🌀 Геометрическая коррекция — например, выпрямить Пизанскую башню, не тронув фон. Большинство систем не справились: либо исправляли весь кадр, либо «наклоняли» башню в другую сторону.
Это подтверждает: ИИ пока не понимает геометрию и контекст в человеческом смысле. Он не знает, где заканчивается рука, начинается фон и почему у жирафа нельзя «укоротить шею», не отрезав голову.
🧠 Почему это важно
Современные image-to-image модели достигли уровня, где визуальная достоверность больше не является проблемой. Но как только в задаче появляется контроль структуры, пространственное мышление и локальная точность, всё рушится.
📸 Для дизайнера или иллюстратора это критично: вместо «исправь деталь» ИИ создаёт «новую картину».
🧑🔧 Для разработчиков — повод пересмотреть архитектуры: вероятно, без мультимодальных attention-механизмовс пониманием глубины сцены и композиции мы не продвинемся дальше.
🧮 Технические наблюдения
🧰 Успешные модели используют универсальные энкодеры и fine-tuned cross-attention между текстом и изображением, что помогает удерживать стиль и освещение.
🖼️ Однако почти все участники страдают от инерции контекста — малейшая правка «расплывается» по всей картине.
💡 Интересный момент: Seedream 4 — это по сути продолжение идей diffusion-семейства, но с итеративным контролем на уровне слоёв шума. Поэтому она чаще всех давала «узнаваемый, но изменённый» результат.
🎭 Что это говорит о будущем
Пока ИИ ближе к фоторетушеру, чем к редактору сцен. Он может оживить лицо, добавить тень или подсветить объект, но не умеет оперировать пространством и смыслом.
И всё же в этой несовершенности есть потенциал: когда такие системы научатся понимать сцены, появятся инструменты нового поколения — гибридные визуальные редакторы, где художник задаёт смысл, а ИИ работает как исполнитель.
💬 Мнение автора
Для меня этот «showdown» показателен не только технически, но и философски. Мы видим, как искусственный интеллект начинает сталкиваться с границами воображения, не подкреплённого физикой.
ИИ научился рисовать, но не научился понимать, что он рисует.
Именно это делает человека — человеком.
🔗 Источник: