7 подписчиков

Внимание эксперимент: 12 моделей - 12 задач. Технические аспекты.

28 февраля28 фев

2 мин

После того, как мы доверчиво изучили сильные и слабые стороны нейросетей в их способности генерировать изображения, пришло время проверить это на практике. В предыдущей публикации, опираясь на данные из интернета и показания ChatGPT, Deepseek и Qwen (их приходилось постоянно проверять и поправлять) был составлен список рекомендаций с какой задачей к какой нейросети обращаться. Но, посмотрев на этот список, мне захотелось проверить эти утверждения самой. В итоге был запланирован большой эксперимент. Целью было подобрать задачи, которые максимально ярко продемонстрируют сильные и слабые стороны разных моделей, протестировать и сравнить. Midjourney, GPT Image 1.5, Kling Image 2.1 и Playground v3 на своих официальных сайтах. Остальные модели — на платформах-агрегаторах (Krea и Syntx). Сразу возник нюанс: если использовать универсальный промпт для всех, это может быть нечестно по отношению к некоторым моделям, а использование только адаптированных промптов усложнит сравнение. В итоге бы

Оглавление

Список из 12 задач:
Список из 12 моделей:
Платформы для тестирования:

После того, как мы доверчиво изучили сильные и слабые стороны нейросетей в их способности генерировать изображения, пришло время проверить это на практике.

В предыдущей публикации, опираясь на данные из интернета и показания ChatGPT, Deepseek и Qwen (их приходилось постоянно проверять и поправлять) был составлен список рекомендаций с какой задачей к какой нейросети обращаться.

Но, посмотрев на этот список, мне захотелось проверить эти утверждения самой. В итоге был запланирован большой эксперимент.

Целью было подобрать задачи, которые максимально ярко продемонстрируют сильные и слабые стороны разных моделей, протестировать и сравнить.

Список из 12 задач:

Фэнтези-иллюстрация / концепт-арт (мир, персонаж, воображение, композиция)
Реалистичный портрет одного человека (кожа, волосы, возраст, руки, «живость»)
Групповой портрет / взаимодействие (несколько людей, позы, эмоции, правдоподобие)
Реалистичный интерьер (материалы, свет, перспектива)
Экстерьер / архитектура / городская сцена (масштаб, детали, сложный свет)
Продуктовая реклама lifestyle (сцена, реквизит, «дорогой» свет, бренд-вайб)
Маркетплейс/каталог: предметка на чистом фоне (точность формы, края, текстуры)
Постер/афиша/приглашение с текстом (типографика, читаемость, иерархия)
Комикс/раскадровка: 4 панели + пузыри (последовательность, повторяемость героев, текст)
Логотип + мини-айдентика (знак, вариации, носители, аккуратность)
Научная/техническая инфографика со схемой и подписями (структура, подписи, «схемность»)
Тест на «управляемость/точность ТЗ» (prompt-following: много конкретных условий в одном кадре)

Список из 12 моделей:

Midjourney v7
Nano Banana Pro
GPT Image 1.5
FLUX.1 Pro Ultra
Qwen-Image-2.0
Seedream 4.5
Playground v3
Ideogram 2.0
Imagen 4
Kling Image 2.1
Recraft
Krea 1

Платформы для тестирования:

Midjourney, GPT Image 1.5, Kling Image 2.1 и Playground v3 на своих официальных сайтах. Остальные модели — на платформах-агрегаторах (Krea и Syntx).

Методология.

Сразу возник нюанс: если использовать универсальный промпт для всех, это может быть нечестно по отношению к некоторым моделям, а использование только адаптированных промптов усложнит сравнение.

В итоге было решено использовать две линии исследования:

Базовый промпт (универсальный для всех).
Адаптированный промпт (максимально раскрывающий возможности конкретной модели).

Это позволит увидеть две важные метрики:

Насколько хорошо модель справляется с задачей «из коробки».
Насколько сильно результат зависит от специфического подбора слов (требует ли модель «особого подхода»).

Все оценки будут любовно собираться в большую таблицу, которую можно будет рассматривать под разными углами. Но уже после каждого шага "модель + задача" появятся какие-то выводы о том насколько нам нравится, как модель с задачей справляется, следует ли нашим указаниям, зависит ли результат от того, как мы формулируем промпт.

А как только мы посмотрим, как справляются с задачей все 12 моделей, то подведем итоги с инфографикой и публикацией лучших изображений.
Предполагаю, что оценивать полученные изображения по разным техническим параметрам мне будет помогать ChatGPT (но это пока не точно, вдруг не сложится). Читателям блога можно будет тоже поучаствовать в оценке результатов, для желающих я опубликую критерии.

Итоговый рейтинг формируется из суммы баллов, где учитывается как объективное качество, так и субъективное впечатление («эстетический X-фактор»).

Если будет проявлен интерес, я выложу подробный протокол исследования и критерии оценки отдельной публикацией.

Продолжение следует....

Следующая задача: Интерьеры в исполнении Midjourney