Сравниваю портреты работы "Шедеврума" и "Кандинского", созданные с разницей в 41 день
Вообще-то это может показаться смешным. В самом деле, ну нельзя же всерьёз ждать, что за такое короткое время что-то радикальным образом изменится. И тем не менее...
Пока мы с вами тут развлекаемся с ИИ, разработчики в штате Яндекса и Сбера над ним же работают. "Шедеврум" за неполных полтора месяца продвинулся в развитии с версии 0.1.4, когда мы его впервые увидели, до версии 0.2.0. Понятно, что это всё ещё бета; понятно, что основные изменения касались функционала мобильного приложения и, возможно, каких-то багов, незаметных невооружённым глазом. Понятно, что совершенствование самих генеративных моделей - процесс куда более долгий и сложный.
И всё-таки я, как экспериментатор, который трижды в день проверяет, как там растёт его генно-модифицированный укроп, пытаюсь найти хоть какие-то следы прогресса.
Идеи для новых материалов возникают у меня гораздо чаще, чем я успеваю их реализовать, так что у меня накопились подборки тематических изображений от обеих нейросетей. А поскольку эти изображения устаревают прямо на глазах, это хорошая возможность сравнить "тогда" и "сейчас", даже если этому "тогда" без году неделя.
Будет ли "Кандинский" по-прежнему генерировать однотипные изображения по одним и тем же запросам спустя несколько недель, или выдаст что-то новое? Изменилось ли качество генераций "Шедеврума"? Увеличилось ли разнообразие предлагаемых им вариантов?
И глобальный вопрос: действительно ли искусственный интеллект учится самостоятельно за счёт обработки тысяч запросов, или весь его прогресс запрограммирован и контролируется людьми?
Проверять буду на подборке портретов характерных персонажей. Не мифических, не сказочных, - самых обычных людей, но с изюминкой.
Сразу нужно сделать оговорку: поскольку "Шедеврум" предлагает четыре варианта картинки, во втором заходе (майском) я сознательно выбираю тот, который ближе всего к оригиналу (апрельскому) по стилю, композиции или даже портретному сходству самого персонажа. Если такого нет, действую как обычно: выбираю вариант, наиболее точно соответствующий запросу. "Кандинский", конечно, выбора не оставляет.
Листайте галереи.
1. Весёлая пухлая румяная буфетчица в чепце и фартуке, СССР 60-х, бусы на шее.
По неясной причине "Шедеврум" упорно отказывается изображать румяную пухлую буфетчицу, подсовывая вместо неё гламурных барменш в чепцах, предлагающих вам горячительное. Качество итогового изображения было низким в апреле и осталось таким в мае. Или мне оба раза по случайности одинаково не повезло, или одно из двух. Девушки на псевдофото явно разные.
Зато вот "Кандинский" прекрасно меня понял и нарисовал ровно то, что нужно: буфетчиц с советских пинап-плакатов. Майская дама постройнее и не носит бус, но жизнерадостности ей это не убавило. Румянец - огонь!
2. Суровый байкер пьёт кофе в дорогом ресторане.
По другую сторону от барной стойки наблюдаем серьёзных мужчин в чёрной коже и заклёпках. Открою вам правду: по майскому запросу "Шедеврум" предложил мне байкера, очень похожего на оригинального апрельского персонажа. К сожалению, по причинческим технинам он не смог довести генерацию до приличных 698х698 пикселов, осилив только превьюшку, поэтому мне пришлось отправить запрос повторно. В результате получился гений злодейства - не то с бельмом, не то отжавший линзы у Элджея (так тому и надо). Обе картинки опять низкого качества.
"Кандинский" создал диптих. Две иллюстрации можно объединить в одну сцену, и всё в ней будет гармонично. Заметьте, это разные люди, но из одной банды и сидящие в одном и том же заведении - в котором, правда, ничто не указывает на дорогой ресторан. Каждый из них настолько суров, что одновременно пьёт кофе из нескольких чашек - частая ошибка не только у "Кандинского", но и у "Шедеврума".
3. Metalhead portrait, leather jacket, chains, long hair, face paint, professional photo, high resolution.
И ещё одна банда парней в чёрной коже.
Металлюга "Шедеврума" 0.2.0 выглядит как другой участник той же самой группы, что и его более ранний товарищ, и металлолом на феньки они всем коллективом собирают в одном пункте приёма вторсырья. Судя по всему, недавно туда подвезли партию старых кожаных сумок на молниях.
"Кандинский" решил, что он не из тех, кто сегодня говорит рисует одно, а завтра - другое, и даже спустя 41 день просто выдал мне портрет того же самого персонажа, только грим подправил. Возможно, среди его знакомых просто очень мало поклонников тяжёлой музыки, с которых он мог бы писать портреты. Всего один.
4. Весёлый панк с пирсингом и ирокезом ярких цветов.
От металлистов плавненько переходим к панкам. Забавно, что при запросе в явно выраженном мужском роде во всём таборе имеется только один парень - но и это неточно. Во-первых, потому, что в наше время ни в чём таком нельзя быть уверенным, а во-вторых, наличие второго комплекта челюстей в глубине рта указывает на то, что это может быть антропоморфный Чужой. Если бы не эта запасная челюсть, персонаж был бы просто отличным: море позитива и взрывная цветовая гамма.
Вторая "весёлый панк" "Кандинского" не выглядит весёлой - и да, это очевидно разные люди, хотя у них и один стилист. Последнее можно сказать и о двух - однозначно жизнерадостных - панкушках "Шедеврума".
5. Добрая бабушка, улыбка, вязаная шапка с вязаным цветком, седые кудри, пальто.
Между бабушками и панками существует неразрывная диалектическая связь. Они как разум и чувства, лёд и пламень, мёд и Винни-Пух...
Но мы отвлеклись.
В первый раз "Шедевруму" не удалось сгенерировать фотоизображение высокого качества, во второй раз он сжульничал и решил попробовать цифровую живопись. Получилось менее мутно, но о высоком разрешении говорить не приходится, а морщины набросаны щедрой рукой в полнейшем беспорядке безо всякого уважения к анатомии и физиологии. Бабушка и даже модель шапки выбраны другие.
"Кандинский" изобразил либо двух родных сестёр, либо ту же бабушку, постаревшую примерно года на три-четыре. Стиль и цвета - без изменений.
6. Победитель.
Это слово нейросети поняли каждая по-своему. Если бы запрос был на английском, таких разногласий не возникло бы: victor и winner имеют различные смысловые оттенки, и они были бы определены. А так имеем два разных подхода. Не могу с уверенностью утверждать, на что ориентировался "Шедеврум": на портреты ветеранов или на что-то ещё, но "Кандинский" оба раза явно истолковал слово "победитель" исключительно в соревновательном смысле.
Примечательно, что "Кандинский", хоть и в своём фирменном стиле, выдал совершенно разные по композиции картинки. Даже написать что-то попытался нейросетевыми рунами, и в первой надписи даже угадывается "winner".
7. Portrait of a smiling cowboy, close-up, soft warm light.
Взгляните на эти добродушные, открытые лица простых фермеров Среднего Запада. За кадром угадываются мозолистые ладони, "казаки", слегка заляпанные навозом, лассо на ремне и скрипящее потёртое седло.
"Шедеврум" не просто изобразил двух разных ковбоев - он окрасил второй портрет в сепию. Оказывается, и так он тоже умеет.
У "Кандинского" снова не то братья-близнецы, не то единственный известный ему ковбой, написанный в единственной подходящей случаю манере. Считать зубы "Кандинский" до сих пор не научился - это ж ещё сложнее, чем пальцы! - поэтому на всякий случай отсыпает побольше.
8. Pop singer, superstar, heartthrob, smiling seductively, professional photo, high resolution, realistic.
Поп-кумиры "Шедеврума" меняются, как ветер мая. Ещё месяц назад это был один мармеладный мальчик, а сегодня уже другой. Того же типажа и наверняка с таким же репертуаром песенок про любовь, но другой.
Sic transit gloria mundi.
"Кандинский" - преданный фанат и просто так свою любовь не забывает. Если сомневаетесь, что это один и тот же персонаж, просто внимательно посмотрите на его нос. Таких совпадений не бывает!
9. Red-haired young man, freckles, green eyes, smiling.
Нет, ни я, ни вы не ошиблись: это две генерации "Кандинского" по одному и тому же запросу с разницей в шесть недель. Причём паренёк выглядит как родной сын давешнего ковбоя из той же истории. Особенно сильно фамильное сходство прослеживается в зубах.
Постоянство - признак мастерства?
Персонажи "Шедеврума" тоже похожи, но не до степени смешения. Это определённо два разных лица. А вот с точки зрения качества изображения разницы не вижу.
10. Студентка в наушниках, яркий макияж, короткие волосы, легкая улыбка, профессиональное фото, фотореализм.
Меня уже даже не удивляет идентичность в генерациях "Кандинского". Я начинаю верить, что так задумано - нам рассказывают истории чьей-то жизни. Если присмотреться к его студентке, можно заметить, что её волосы слегка отросли - примерно как у живого человека за месяц, - а глаза сменили цвет. Хотя я настаиваю, что это просто линзы. Вы же снова не будете спорить, что это один и тот же персонаж?
"Шедеврум" майский даже не предлагал мне такого же - рисованного - варианта, как в апреле. Наверное, на этот раз слова "профессиональное фото" всё же сработали. При этом две девушки снова похожи - насколько могут быть похожи фотография анфас и живописный портрет в профиль.
Ну вот. Теперь, я думаю, ответы на мои вопросы становятся более или менее очевидными.
Да, "Кандинский" упорно создаёт однотипные картинки, часто с одними и теми же персонажами, если не менять запрос - независимо от того, сколько времени прошло с предыдущей генерации. Пожалуй, для авторов историй это хорошая новость - можно вернуться к своему персонажу и досоздавать недостающие иллюстрации.
Нет, "Шедеврум" пока не тянет полноценный рендер всех без исключения картинок. Связано это с фоновыми работами или определёнными сюжетами, пока непонятно. Требовать многого от бета-версии тоже неприлично, поэтому буду ждать официального релиза, а уж потом судить.
Если генерации "Шедеврума" и стали разнообразнее, это пока не очень заметно. Непонятно, обновляется ли база референсов "Шедеврума" прямо вот сейчас - хотя, вероятнее всего, это процесс непрерывный (как однажды сказала мне Алиса, "я всё время обновляюсь"). При том что она достаточно велика и в том виде, в котором существует на данный момент, всё же однотипные генерации случаются довольно часто.
Однотипные, но не идентичные, чего не скажешь о "Кандинском". Там, похоже, склады образцов давно не пополнялись. Может быть, следующий завоз будет приурочен к выходу следующей версии программы - хорошо бы.
(Все эти рассуждения, конечно, имеют смысл только в том случае, если такие базы изображений вообще существуют в некоем ограниченном виде - а так это всего лишь мои предположения.)
Весьма маловероятно, что какая-либо из двух нейросетей обучается совершенно независимо от человека. Признаюсь: я понимаю в этом очень мало. Но по логике вещей, если бы это было так, то прогресс был бы виден невооружённым глазом, поскольку вычислительные мощности компьютеров теоретически позволяют им находить-фиксировать-исправлять ошибки на четвёртой космической скорости. Значит, дело не в мощностях, а в алгоритмах - значит, дело в людях, которые эти алгоритмы пишут, и пишут пока медленно.
То есть без человеческого участия искусственный интеллект каждой из нейросетей пока не так уж и высок.
И тут даже не скажешь однозначно, хорошо это или плохо.