Найти в Дзене

Внимание эксперимент: 12 моделей - 12 задач. Технические аспекты.

После того, как мы доверчиво изучили сильные и слабые стороны нейросетей в их способности генерировать изображения, пришло время проверить это на практике. В предыдущей публикации, опираясь на данные из интернета и показания ChatGPT, Deepseek и Qwen (их приходилось постоянно проверять и поправлять) был составлен список рекомендаций с какой задачей к какой нейросети обращаться. Но, посмотрев на этот список, мне захотелось проверить эти утверждения самой. В итоге был запланирован большой эксперимент. Целью было подобрать задачи, которые максимально ярко продемонстрируют сильные и слабые стороны разных моделей, протестировать и сравнить. Midjourney, GPT Image 1.5, Kling Image 2.1 и Playground v3 на своих официальных сайтах. Остальные модели — на платформах-агрегаторах (Krea и Syntx). Сразу возник нюанс: если использовать универсальный промпт для всех, это может быть нечестно по отношению к некоторым моделям, а использование только адаптированных промптов усложнит сравнение. В итоге бы
Оглавление

После того, как мы доверчиво изучили сильные и слабые стороны нейросетей в их способности генерировать изображения, пришло время проверить это на практике.

В предыдущей публикации, опираясь на данные из интернета и показания ChatGPT, Deepseek и Qwen (их приходилось постоянно проверять и поправлять) был составлен список рекомендаций с какой задачей к какой нейросети обращаться.

Но, посмотрев на этот список, мне захотелось проверить эти утверждения самой. В итоге был запланирован большой эксперимент.

Целью было подобрать задачи, которые максимально ярко продемонстрируют сильные и слабые стороны разных моделей, протестировать и сравнить.

Список из 12 задач:

  1. Фэнтези-иллюстрация / концепт-арт (мир, персонаж, воображение, композиция)
  2. Реалистичный портрет одного человека (кожа, волосы, возраст, руки, «живость»)
  3. Групповой портрет / взаимодействие (несколько людей, позы, эмоции, правдоподобие)
  4. Реалистичный интерьер (материалы, свет, перспектива)
  5. Экстерьер / архитектура / городская сцена (масштаб, детали, сложный свет)
  6. Продуктовая реклама lifestyle (сцена, реквизит, «дорогой» свет, бренд-вайб)
  7. Маркетплейс/каталог: предметка на чистом фоне (точность формы, края, текстуры)
  8. Постер/афиша/приглашение с текстом (типографика, читаемость, иерархия)
  9. Комикс/раскадровка: 4 панели + пузыри (последовательность, повторяемость героев, текст)
  10. Логотип + мини-айдентика (знак, вариации, носители, аккуратность)
  11. Научная/техническая инфографика со схемой и подписями (структура, подписи, «схемность»)
  12. Тест на «управляемость/точность ТЗ» (prompt-following: много конкретных условий в одном кадре)

Список из 12 моделей:

  1. Midjourney v7
  2. Nano Banana Pro
  3. GPT Image 1.5
  4. FLUX.1 Pro Ultra
  5. Qwen-Image-2.0
  6. Seedream 4.5
  7. Playground v3
  8. Ideogram 2.0
  9. Imagen 4
  10. Kling Image 2.1
  11. Recraft
  12. Krea 1

Платформы для тестирования:

Midjourney, GPT Image 1.5, Kling Image 2.1 и Playground v3 на своих официальных сайтах. Остальные модели — на платформах-агрегаторах (Krea и Syntx).

Методология.

Сразу возник нюанс: если использовать универсальный промпт для всех, это может быть нечестно по отношению к некоторым моделям, а использование только адаптированных промптов усложнит сравнение.

В итоге было решено использовать две линии исследования:

  1. Базовый промпт (универсальный для всех).
  2. Адаптированный промпт (максимально раскрывающий возможности конкретной модели).

Это позволит увидеть две важные метрики:

  • Насколько хорошо модель справляется с задачей «из коробки».
  • Насколько сильно результат зависит от специфического подбора слов (требует ли модель «особого подхода»).

Все оценки будут любовно собираться в большую таблицу, которую можно будет рассматривать под разными углами. Но уже после каждого шага "модель + задача" появятся какие-то выводы о том насколько нам нравится, как модель с задачей справляется, следует ли нашим указаниям, зависит ли результат от того, как мы формулируем промпт.


А как только мы посмотрим, как справляются с задачей все 12 моделей, то подведем итоги с инфографикой и публикацией лучших изображений.
Предполагаю, что оценивать полученные изображения по разным техническим параметрам мне будет помогать ChatGPT (но это пока не точно, вдруг не сложится). Читателям блога можно будет тоже поучаствовать в оценке результатов, для желающих я опубликую критерии.

Итоговый рейтинг формируется из суммы баллов, где учитывается как объективное качество, так и субъективное впечатление («эстетический X-фактор»).

Если будет проявлен интерес, я выложу подробный протокол исследования и критерии оценки отдельной публикацией.

Продолжение следует....

Следующая задача: Интерьеры в исполнении Midjourney