- Слепой тест как приговор
- Запрос первый: «Кот-библиотекарь, засыпающий над стопкой древних книг в луче света от настольной лампы, атмосфера уюта и магии»
- Запрос второй: «Фотография вымышленного мегаполиса будущего, где здания сделаны из света, а по небу летают киты-киборги, футуристично, высокая детализация»
Все спорят, какая нейросеть круче. Я решил не спорить, а проверить. Давал им одинаковые запросы, сложные и простые, а потом показывал результаты жене и друзьям, не говоря, где чья работа. Итоги этого жестокого, но честного эксперимента — в этом посте.
Слепой тест как приговор
Когда вы смотрите на картинку в ленте и восхищаетесь ею, вам все равно, какая нейросеть ее нарисовала. Важен только результат — та эмоция, которую вы получаете. Я взял этот принцип за основу. Вместо того чтобы разбираться в технических терминах, я устроил простое соревнование. Два запроса. Две нейросети. Я показывал готовые работы обычным людям и спрашивал: «Какая тебе нравится больше и почему?». Их вердикты, подкрепленные моим техническим анализом, и легли в основу этого поста.
Запрос первый: «Кот-библиотекарь, засыпающий над стопкой древних книг в луче света от настольной лампы, атмосфера уюта и магии»
Этот запрос проверяет несколько вещей сразу: понимание гибридных существ (кот-человек), работу со светом, создание атмосферы и детализацию.
Midjourney:
Результат был... волшебным. Midjourney всегда был силен в этой сказочной, почти мифической эстетике. Он нарисовал кота в мантии ученого, с очками на носу. Свет от лампы был мягким, объемным, идеально ложился на страницы фолиантов. Текстура старой бумаги, древесные трещины на столе — все это было проработано с любовью и вниманием. Картинка от Midjourney была готова к печати на обложке дорогой сказочной книги. Она была красивой до боли.
DALL-E 3:
А вот DALL-E 3 подошел к задаче иначе. Он не нарисовал кота в мантии. Он нарисовал обычного кота, который уснул прямо на раскрытой книге, положив голову на лапы. Луч света освещал его шерстку и строки на странице. Не было никаких человеческих атрибутов — только чистая, трогательная сцена, которая могла бы произойти в реальной жизни, будь в ней чуть больше магии. DALL-E 3 понял запрос не как набор слов «кот» + «библиотекарь», а как целостную историю про уставшее существо в уютном месте.
Вердикт жены: «Мне больше нравится вторая (DALL-E 3). Она более живая и милая. На первую можно смотреть, а вторая вызывает эмоции».
Запрос второй: «Фотография вымышленного мегаполиса будущего, где здания сделаны из света, а по небу летают киты-киборги, футуристично, высокая детализация»
Здесь я проверял работу с фантастическими концепциями, связью несовместимых элементов и фотореализмом.
Midjourney:
Тут Midjourney показал себя как абсолютный визуальный титан. Здания из света представляли собой сложнейшие архитектурные формы с невероятными градиентами. Киты-киборги были детализированы до последней болтанки, их механические части органично переплетались с живой плотью. Кадр был скомпонован как кадр из блокбастера с бюджетом в полмиллиарда долларов. Midjourney не просто нарисовал город. Он создал эпичный, потрясающий воображение видовой концепт.
DALL-E 3:
DALL-E 3 справился... хорошо. Он нарисовал город с неоновыми зданиями, которые могли быть сделаны из света. В небе парили киты, к которым были прикреплены явно механические элементы. Но общая картина была более простой, более мультяшной. Не хватало той самой кинематографичной глубины, безумной детализации и ощущения масштаба, которые выдал Midjourney. Он понял запрос буквально, но не смог (или не захотел) придать ему ту эпическую, почти подавляющую эстетику.
Вердикт друга (гейм-дизайнера): «Первая (Midjourney) — это готовый арт для моего проекта. Вторая (DALL-E 3) — это красивая, но простая иллюстрация для поста в блог».
Так в чем же фундаментальная разница?
Проведя десятки таких сравнений, я сформулировал для себя ключевое отличие.
Midjourney — это гениальный ХУДОЖНИК-ПОСТАНОВЩИК. Его главная цель — создать максимально красивое, стильное, эстетически безупречное изображение. Он часто жертвует буквальным пониманием запроса ради красоты кадра. Он — нарцисс, который живет ради ваших востлицов «Вау!».
DALL-E 3 — это гениальный ИЛЛЮСТРАТОР-СКАЗОЧНИК. Его главная цель — точно и понятно передать историю, заложенную в вашем промпте. Его красота — в точности и ясности повествования. Он — внимательный слушатель, который хочет донести вашу мысль до зрителя без искажений.
Midjourney продает вам эмоцию через эстетику. DALL-E 3 продает вам историю через точность.
Проблема шести пальцев и летающих часов
Любой, кто работал с Midjourney, знает его болячки: странные руки, абсурдная анатомия, логические несоответствия. Он может нарисовать человека с тремя часами на руке, потому что это «красиво» с точки зрения композиции.
DALL-E 3, благодаря своему «мозгу» от ChatGPT, с этой проблемой справляется на порядок лучше. Он понимает, что у человека две руки, что часы носят на одной руке, что объекты подчиняются законам физики. Его картины могут быть менее «вау», но они почти всегда более логичны и осмысленны.
Вывод: Так кто же победил?
Однозначного победителя нет. И это — главный вывод моего эксперимента.
- Вам нужен Midjourney, если вы ищете вдохновение, создаете концепт-арт, декорации или просто хотите получать визуальное наслаждение. Вы — режиссер, который нанимает визуального гения с своенравным характером.
- Вам нужен DALL-E 3, если вы блогер, маркетолог или писатель, и вам нужно быстро, точно и без мороки проиллюстрировать конкретную мысль, историю или идею. Вы — автор, который нанимает внимательного и педантичного иллюстратора.
Они оба — титаны, но стоят на разных берегах одной реки. Midjourney поражает красотой, а DALL-E 3 — пониманием. И от этого выбора теперь зависит весь будущий ландшафт визуального контента.
А какой берег выбираете вы? Что для вас важнее в нейросети: способность поразить воображение красивой картинкой или способность без искажений понять и воплотить вашу идею? Поспорим в комментариях?