160 подписчиков

🎨 Когда ИИ ещё не художник: битва моделей редактирования изображений показала границы генеративных систем

29 октября29 окт

3 мин

Оглавление

🏆 Лидеры и аутсайдеры
🧩 Сложнейшие задачи
🧠 Почему это важно

Пока одни обсуждают, кто первый создаст «AGI», в мире генеративного искусства кипят страсти другого рода. На платформе Specular Realms прошёл своеобразный «баттл» моделей для редактирования изображений — соревнование, где 7 лучших систем попытались выполнить 12 текстовых заданий вроде «добавь серфера на волну Хокусая» или «замени короля пик на короля червей».

Итог: ни одна из моделей не справилась идеально. Даже лидеры промахивались там, где требуется не просто «фантазия», а точное пространственное мышление.

🏆 Лидеры и аутсайдеры

🧠 Seedream 4 — абсолютный фаворит теста, набрал 9 из 12 возможных успехов. Разработанная ByteDance модель уверенно редактирует цвет, стиль и мелкие детали, но «спотыкается» на точном позиционировании объектов. Например, вместо перестановки блоков местами она просто перекрашивала их.

⚡ Gemini 2.5 Flash от Google занял второе место (7/12), демонстрируя уверенные результаты в художественных задачах — особенно при добавлении новых элементов (например, серфера в «Великую волну у Канагавы»).

🖼️ Qwen-Image-Edit от Alibaba показал стабильный, но не идеальный результат (6/12), особенно выделившись в задаче по редактированию классических изображений и локальной цветокоррекции.

Зато модели вроде OmniGen2 (1/12) и FLUX.1 Kontext dev (5/12) показали, что «больше параметров» не всегда значит «лучше результат».

🧩 Сложнейшие задачи

🔥 Самыми трудными оказались:

🧱 Смена позиций объектов — модели буквально «не понимают», что значит «поменять местами» предметы разного размера. Они видят цвет, текстуру, но не пространство.
🧽 Удаление конкретных предметов — вместо точечного удаления модели склонны «перерисовывать» всю сцену.
🌀 Геометрическая коррекция — например, выпрямить Пизанскую башню, не тронув фон. Большинство систем не справились: либо исправляли весь кадр, либо «наклоняли» башню в другую сторону.

Это подтверждает: ИИ пока не понимает геометрию и контекст в человеческом смысле. Он не знает, где заканчивается рука, начинается фон и почему у жирафа нельзя «укоротить шею», не отрезав голову.

🧠 Почему это важно

Современные image-to-image модели достигли уровня, где визуальная достоверность больше не является проблемой. Но как только в задаче появляется контроль структуры, пространственное мышление и локальная точность, всё рушится.

📸 Для дизайнера или иллюстратора это критично: вместо «исправь деталь» ИИ создаёт «новую картину».
🧑‍🔧 Для разработчиков — повод пересмотреть архитектуры: вероятно, без мультимодальных attention-механизмовс пониманием глубины сцены и композиции мы не продвинемся дальше.

🧮 Технические наблюдения

🧰 Успешные модели используют универсальные энкодеры и fine-tuned cross-attention между текстом и изображением, что помогает удерживать стиль и освещение.
🖼️ Однако почти все участники страдают от инерции контекста — малейшая правка «расплывается» по всей картине.
💡 Интересный момент: Seedream 4 — это по сути продолжение идей diffusion-семейства, но с итеративным контролем на уровне слоёв шума. Поэтому она чаще всех давала «узнаваемый, но изменённый» результат.

🎭 Что это говорит о будущем

Пока ИИ ближе к фоторетушеру, чем к редактору сцен. Он может оживить лицо, добавить тень или подсветить объект, но не умеет оперировать пространством и смыслом.
И всё же в этой несовершенности есть потенциал: когда такие системы научатся понимать сцены, появятся инструменты нового поколения — гибридные визуальные редакторы, где художник задаёт смысл, а ИИ работает как исполнитель.

💬 Мнение автора

Для меня этот «showdown» показателен не только технически, но и философски. Мы видим, как искусственный интеллект начинает сталкиваться с границами воображения, не подкреплённого физикой.
ИИ научился рисовать, но не научился понимать, что он рисует.
Именно это делает человека — человеком.

🔗 Источник: