Но есть нюанс
Неделю назад (а точнее, 3 октября 2023 года, если вы читаете эту статью гораздо позже) в мире нейросетей случилось редкое и маловероятное событие: новейшая версия почти уже легендарной модели DALL-E от компании OpenAI, DALL-E 3, внезапно стала доступна всем пользователям поисковика Bing от Microsoft.
Бесплатно.
Удивительно в этом следующее: во-первых, DALL-E всегда была платной и очень неплохо себя при этом чувствовала. Ничто, как говорится, не предвещало. Во-вторых, версия 3 вышла буквально за пару недель до этого, 20 сентября, то есть это была совсем ещё горячая новинка. И, в-третьих, пользователи Bing получили доступ к ней даже раньше, чем пользователи чат-бота ChatGPT от той же OpenAI с оплаченным аккаунтом.
Я хочу ещё раз это повторить, чтобы поверить: люди, которые заплатили деньги компании OpenAI за аккаунт ChatGPT, смогут начать пользоваться её моделью DALL-E 3 только в конце этого месяца. А всякие простолюдины вроде меня, которые ничего OpenAI не платили, могут это делать прямо сейчас. Расскажите мне теперь о справедливости.
О причинах такой небывалой щедрости Microsoft умалчивается. Некоторые поговаривают, что компания пошла на это, чтобы переключить внимание прессы и пользователей со скандала с хакерским взломом Azure. Видимо, нам стоит поблагодарить неизвестных китайских хакеров за возможность бесплатно пользоваться, пожалуй, самой понятливой и послушной графической нейросетью в мире.
Правда, для этого необходимо выполнить два условия:
- во-первых, нужно иметь аккаунт в Microsoft (вот где внезапно мне сослужили службу лицензионные Windows и Office!);
- во-вторых, нужно притвориться, что вы не из России.
Если по обоим пунктам у вас всё схвачено и проблем не возникнет, смело ступайте на Bing Image Creator и начинайте творить.
DALL-E из тех моделей, которые не позволяют вам вмешиваться в процесс генерации. Ввели запрос, нажали кнопку — получите результат и не смейте указывать ИИ, как его достигать. Поэтому никаких настроек и параметров вы здесь не найдёте. Зато нейросеть действительно прекрасно понимает, чего вы от неё хотите.
Это и неудивительно, ведь она — сестра-близнец ChatGPT, с которым при желании можно вести долгие задушевные беседы. Интеллект у них общий.
Убедиться в понятливости нейросети DALL-E (и даже заподозрить её в чтении мыслей) мне помог незакрытый гештальт.
Помните мои эксперименты с моделью PhotoReal на платформе Leonardo AI? Тогда многие мои запросы были, мягко говоря, не очень точно истолкованы. Нейросеть нарисовала всё мегареалистично и очень убедительно, только вот не совсем то, о чём её просили. Поэтому моё желание всё-таки добить эти запросы и добиться своего никуда не делось.
И случилось чудо: DALL-E сгенерировала именно то, что смутно маячило перед моим мысленным взором. А дальше смотрите сами.
A beautiful alien creature, non-human, exotic looking, large kaleidoscopic eyes, pale skin, elegant, draped robes, exquisite jewelry, wise, merciful, kind, peaceful.
(Прекрасное инопланетное существо, не человек, экзотично выглядящее, большие калейдоскопические глаза, бледная кожа, элегантные драпированные одежды, изысканные украшения, мудрое, милосердное, доброе, мирное.)
Вот то самое неземное создание, за которое Leonardo попытался выдать обычную хорошенькую девушку в восточных одеждах без инопланетных признаков. Самое главное здесь — глаза. Калейдоскопические.
Mysterious otherworldly fantasy creature, features of a bird, reptile, mammal, pale skin, platinum fur, large eyes, glowing halo above the head, folded wings, pastel colored robe, exquisite jewelry, foggy background.
(Загадочное потустороннее фантастическое существо, черты птицы, рептилии, млекопитающего, бледная кожа, платиновый мех, большие глаза, светящийся нимб над головой, сложенные крылья, одеяние пастельных тонов, изысканные украшения, туманный фон.)
Ещё одно существо не из этого мира, и снова мои ожидания оправданы наилучшим образом. Разве что крылья на паре картинок слегка расправлены, а не сложены, но PhotoReal вообще превратил их в модное боа.
A fantasy creature, long iridescent spikes, silver fur, fangs, multiple eyes.
(Фантазийное существо, длинные переливающиеся шипы, серебристый мех, клыки, множество глаз.)
За эту генерацию мне захотелось просто-напросто обнять нейросеть, или пожать ей руку, или выписать премию. Ни одна из пяти других нейросетей, получивших такое же задание, не смогла придумать ничего лучше длинношёрстного вервольфа с укладкой шерсти в стиле Горшка лаком для волос сильной фиксации. И ни один из этих вервольфов не имел более двух глаз. А вот DALL-E создала невероятное, невиданное, нереальное перламутровое существо, усыпанное шипами, зубами и глазами, и оно великолепно, хотя и немного агрессивно.
A cyberpunk android knight, a cyber knight, resilient, strong, mighty, epic, full clear plastic armor, metal elements, tubes, LED lights, banners, castle walls in the background, dark, menacing.
(Киберпанк-андроид-рыцарь, кибер-рыцарь, стойкий, сильный, могучий, эпический, полностью прозрачная пластиковая броня, металлические элементы, трубки, светодиодные фонари, баннеры, стены замка на заднем плане, мрачно, угрожающе.)
Leonardo PhotoReal не рискнул связываться с начинкой робота под прозрачным панцирем, а DALL-E рискнула. И смогла же!
A mad scientist in his lab, holding a test tube with neon blue liquid, looking excited, very busy background, lab interior, monitors, microscopes, test tubes, desk.
(Безумный ученый в своей лаборатории держит пробирку с неоново-голубой жидкостью, выглядит взволнованным, очень насыщенный фон, интерьер лаборатории, мониторы, микроскопы, пробирки, стол.)
Вот!.. Вот как должен выглядеть свихнувшийся учёный!.. Кстати, обратите внимание, как хорошо и почти без ошибок DALL-E справляется с руками.
Bastet, Egyptian goddess, a woman with a human body and a head of a cat, royal outfit, sitting on a throne, cinematic lighting, dramatic lighting.
(Бастет, египетская богиня, женщина с человеческим телом и головой кошки, царский наряд, сидящая на троне, кинематографическое освещение, драматическое освещение.)
С Бастет немного помучилась даже DALL-E, но в итоге нейросеть всё же смогла привинтить кошачью голову к человеческому телу. Немного неуверенно, но смогла.
A beautiful fantasy bird, gold, green, purple, gorgeous plumage, golden beak, golden eyes, photo realistic, hyper realism.
(Красивая фантазийная птица, золотой, зеленый, фиолетовый, великолепное оперение, золотой клюв, золотые глаза, фотореалистичность, гиперреализм.)
Этой птице, в отличие от птицы Leonardo, может быть, и недостаёт фотографической убедительности, зато она действительно волшебная.
An exotic fish, sparkling scales, large gorgeous tail fin, wavy, veil, colorful, elegant.
(Экзотическая рыбка, сверкающая чешуя, большой роскошный хвостовой плавник, волнистый, вуаль, красочная, нарядная.)
Небольшой, но впечатляющий косяк роскошных петушков против давешней пары скромных вуалехвостов от Leonardo. Пусть более реалистичных, но в смысле роскоши определённо уступающих петушкам.
Кстати, DALL-E говорит не только по-английски. Она прекрасно понимает и русский. Даже лучше, чем российские нейросети. Смотрите сами.
Маленький фантастический пушистый зверёк выглядывает из куста цветущей сирени.
Для сравнения — то же в исполнении "Кандинского" 2.2, который до сих пор использует название ruDALL-E (Russian DALL-E) для сайта:
Ах ты ж мой фантастический зверёк и мичуринская сирень!.. Попробуем другой запрос.
Полная корзина грибов лисичек стоит под кустом малины, несколько грибов лежат рядом в траве.
Снова "Кандинский" 2.2:
Не обращайте внимания на кислотные цвета: как решить эту проблему, мы давно уже выяснили. Оценивайте только точность соответствия запросу.
Вот ещё один.
Крошечная девочка, ростом 3 сантиметра, идёт среди огромных стеблей травы, уходящих высоко в небо, над ней летают пчёлы, иллюстрация, яркие сочные цвета.
В общем, сами всё видите.
Будет немного обидно, если у нас отнимут возможность притворяться, что мы не из России, хотя бы перед Bing. Но переживём как-нибудь, а вот "Кандинскому" лучше бы всё-таки начать соответствовать имени, которое он так самоуверенно позаимствовал.