Найти в Дзене

7 вещей, которые не умеет рисовать "Кандинский" (а "Шедеврум" умеет)

Спойлер: это не пальцы Развлекаясь с рисующими нейросетями, люди обычно стараются придумать что-нибудь особенное, фантастическое и в реальной жизни не существующее. Мало кому приходит в голову попросить искусственный интеллект нарисовать банальный стакан или банан, к примеру. Зачем, если фотографий стаканов и бананов в интернете и так полно? Именно потому, что обычно это мало кто делает, один из раундов "Битвы интеллектов" был посвящён проверке умения нейросетей изображать простые повседневные предметы. И хотя в целом и "Шедеврум", и "Кандинский" с заданиями справились неплохо, неожиданно выяснилось, что последний (после недавних открытий так и хочется ласково назвать его Леонардычем) иногда не знает, как выглядят самые тривиальные вещи. Выявить все без исключения слабые места "Кандинского" невозможно: для этого пришлось бы перебирать все существующие предметы по одному, - но в процессе моего общения с нейросетями кое-что всплыло само по себе. Сегодня расскажу о некоторых простых запр

Спойлер: это не пальцы

Картинка-загадка: что это? Отгадка ниже. Автор головоломки - "Кандинский" 2.1
Картинка-загадка: что это? Отгадка ниже. Автор головоломки - "Кандинский" 2.1

Развлекаясь с рисующими нейросетями, люди обычно стараются придумать что-нибудь особенное, фантастическое и в реальной жизни не существующее. Мало кому приходит в голову попросить искусственный интеллект нарисовать банальный стакан или банан, к примеру. Зачем, если фотографий стаканов и бананов в интернете и так полно?

Именно потому, что обычно это мало кто делает, один из раундов "Битвы интеллектов" был посвящён проверке умения нейросетей изображать простые повседневные предметы. И хотя в целом и "Шедеврум", и "Кандинский" с заданиями справились неплохо, неожиданно выяснилось, что последний (после недавних открытий так и хочется ласково назвать его Леонардычем) иногда не знает, как выглядят самые тривиальные вещи.

Выявить все без исключения слабые места "Кандинского" невозможно: для этого пришлось бы перебирать все существующие предметы по одному, - но в процессе моего общения с нейросетями кое-что всплыло само по себе. Сегодня расскажу о некоторых простых запросах, которые сбивают Леонардыча с толку. А в конце назову вам самый страшный объект, который никогда - никогда-никогда! - не стоит просить нарисовать "Кандинского", если вам дорога ваша бессмертная душа.

1. Арбузы

Нет, ну в общих чертах "Кандинский" представляет себе, что у арбуза должно быть и примерно где оно должно располагаться. Но в том-то и дело, что примерно. Из нескольких попыток нарисовать нормальный, ботанически правильный арбуз ему толком не удалась ни одна. Особая беда у Леонардыча с семечками: они то испуганно сбиваются в кучку, то вырастают до размеров косточки авокадо. Кожура тоже представляет интерес: она разлинована то в клетку, то в точку, то в леопардовые пятна.

Сравните эти картинки с теми, что выдал Leonardo AI: явно срисовано у мастера, но срисовано немножко неумело. Впрочем, мякоть арбуза у "Кандинского" местами получилась даже убедительнее:

А вот что сгенерировал "Шедеврум", для сравнения. Устраивать полноценный баттл между ИИ на эту тему было бы жестоко и неспортивно (к тому же подобный уже был).

2. Грибы

Если когда-нибудь "Кандинский" предложит вам купить у него ведро свежих грибов - не покупайте. Неизвестно ещё, что там будет, в этом ведре. Опять же, в целом нейросеть правильно понимает, как они выглядят: у них есть ножка и шляпка, первая находится под второй, и всё вместе обычно торчит из травы. Но в видах грибов ИИ не разбирается совсем.

Рыжики, боровики, мухоморы - это всё "Кандинскому" едино, поэтому рисует он их по наитию. Чаще всего получаются мухоморы - за исключением случаев, когда вы просите его нарисовать мухоморы.

Лично мне больше всего нравятся рыжик и боровик, хотя собирать их лучше не надо, а то ещё мухомор придёт.

Но есть исключение: если попросить "Кандинского" нарисовать грибы-лисички (во множественном числе), он внезапно понимает, что надо рисовать:

Результат генерации "Кандинского" 2.1 по запросу "грибы-лисички", ruDALL-E
Результат генерации "Кандинского" 2.1 по запросу "грибы-лисички", ruDALL-E

Ну так, приблизительно понимает. Пояснение для не-грибников: это не лисички! Если вы вдруг встретите что-то такое в лесу, проходите мимо. Но сначала сфотографируйте и отправьте в сообщества грибников, пусть поломают голову.

В этом отношении "Шедеврум" - куда более надёжный источник, хотя использовать его в качестве справочника грибника я тоже не советую:

Неожиданное появление имбиря объясняется машинной логикой и особенностями перевода, о чём можно чуть более подробно почитать в недавнем посте. Если коротко: рыжик - рыжий - ginger (что означает одновременно "рыжеволосый" и "имбирь").

3. Пайетки

На всякий случай поясню, что пайетки - это такие маленькие, обычно круглые и чаще пластиковые блестящие пластинки с дыркой или без, которые нашиваются или наклеиваются на одежду для её украшения.

Интересно, что "Кандинский" 2.1 понимает английское слово sequins, но не понимает его русский перевод "пайетки" - ни сам по себе, ни с уточнениями. В интерпретации ИИ пайетки - что-то вроде старлеток и профурсеток.

Ну или мешков из-под строительной смеси.

Справедливости ради нужно сказать, что такой косяк выдают только телеграм-бот и сайт Fusion Brain. Пайетки на ruDALL-E выглядят очень похоже на пайетки (но изображаются всегда только на платье и никак иначе):

Результат генерации по запросу "пайетки", модель "Кандинский" 2.1, ruDALL-E
Результат генерации по запросу "пайетки", модель "Кандинский" 2.1, ruDALL-E

"Шедеврум" в курсе модных деталей и отдаёт предпочтение синему и красному.

4. Скрепки

В продолжение темы мелких предметов. С канцелярией у "Кандинского" тоже не заладилось: скрепки, ветки, прищепки - какая разница?

На всякий случай проверю тот же запрос в ruDALL-E и на сайте Fusion Brain, где вроде бы используется та же модель.

У "Шедеврума" проблем со скрепками нет. То есть есть проблемы с их безошибочным построением, но нет - с пониманием предмета:

"Шедеврум" 0.2.0
"Шедеврум" 0.2.0

5. Смородина

Арбуз - не единственный фрукт, с которым у "Кандинского" проблемы. Например, вместо смородины он рисует произвольно выбранные гроздья ягод. Чаще всего они напоминают бузину, калину или виноград.

Если вы думаете, что это простительное заблуждение для нейросети, то вот вам результат "Шедеврума" (бета-версии, напоминаю). Даже дважды просить не пришлось:

В случае "Шедеврума" я точно знаю, на что смотрю. В случае "Кандинского" - ну-у-у... Надо проконсультироваться со специалистом.

Ещё можете попробовать попросить его нарисовать ежевику и ягоды шелковицы, а потом поискать между ними отличия. Успехов!

6. Расчёски

Как оказалось, расчёска - в принципе сложный для нейросетей объект из-за большого количества мелких элементов - зубцов или щетинок, расположенных близко. Предмет настолько сложный, что с ним сел в лужу даже Leonardo, что уж говорить о Леонардыче.

Вот - просто для сравнения - результаты Leonardo AI:

На этом фоне "Шедеврум" выглядит - чего там - гением. Пусть его щётка сгенерирована не очень аккуратно и без исключительной гипердетализации, зато это однозначно щётка для волос, а не мохнатый арт-объект:

"Шедеврум" 0.2.0
"Шедеврум" 0.2.0

7. Скворечники

Вот оно.

Самое опасное заклинание, которое вы можете сказать "Кандинскому", - это "скворечник".

Здесь нелишне будет напомнить вам взглянуть на дату публикации и версию нейросетевой модели, о которой идёт речь. Я не исключаю, что через какое-то время в одном из обновлений этот забавный (хм) баг будет исправлен, но пока что он действует, и ещё как.

Признаюсь: я в полной растерянности. Никакие логические цепочки не приводят меня к тому, что рисует Леонардыч по этому запросу. Я не вижу никакой связи, совсем. С положительной стороны - я не могу перестать смеяться уже неделю.

Судите сами, но предупреждаю: глубоко верующим и богобоязненным людям лучше быстренько пройти мимо и не листать галерею. Для подстраховки на первый слайд я поставлю результат генерации по запросу "Скворечник на дереве". Тоже ничего так фрукт вышел.

...

@sber, почему?!. Это пасхалка такая? Если да, то их две, и они парные, правильно? Потому что ruDALL-E по этому же запросу рисует комплементарную серу.

Всегда серу. Вот такую:

И ещё пытается промычать: SILISIIUR, SUUUUF. Призывает предыдущего персонажа, не иначе.

(Ладно-ладно, я знаю, что это он пытается сказать sulfur.)

Вы почините это дело, что ли, пока вас не предали анафеме :D

Интересно, кто его этому научил? Точно не Leonardo: тот рисует симпатичные такие птичьи домики, иногда с жильцами, палисадником и веночком над дверью (aww!):

Ну и результат "Шедеврума":

Просто суровый российский скворечник. "Шедеврум" 0.2.0
Просто суровый российский скворечник. "Шедеврум" 0.2.0

Наверняка таких простых и одновременно непостижимых для "Кандинского" вещей намного больше. Если они будут мне попадаться, я буду ими с вами делиться. Если что-то попадётся вам, поделитесь со мной.

Попутно хочу напомнить, что работа над искусственным интеллектом требует мощного естественного интеллекта. Какие бы забавные промахи не допускал пока ИИ, всё равно он - чудо технологий и результат огромного труда многих людей. Не нужно ждать, что любая новая разработка, представленная публике, сразу же будет работать так, как публика этого хочет.

Терпение, друзья мои, терпение и снисходительность. Москва не сразу строилась, научится и "Кандинский" когда-нибудь строить скворечники.

...но всё равно смешно XD