558 подписчиков

Битва интеллектов: "Шедеврум" против "Кандинского", раунд 13

27 мая 202327 мая 2023

6 мин

Проверка на человечность Давненько не сходились на ринге наши нейросети. Пора возвращаться! После более чем двухнедельного перерыва возобновляю творческое состязание между "Шедеврумом", нейросетевой моделью от Яндекса, и "Кандинским" от Сбера. На тему сегодняшнего баттла меня натолкнула незначительная на первый взгляд деталь, которая вскрылась в экспериментальном беспилотном выпуске "Битвы интеллектов", где запросы для генерации изображений составлял ChatGPT. Деталь такая: ни в одном из сюжетов искусственный мозг не вывел в качестве центральной фигуры человека. Нет, люди в целом где-то там предполагались. Фоном. Наверное. Но только как дополнение к пейзажу. Рассматривать человека как объект, достойный отдельного полотна, программа как-то не догадалась. Из многочисленных антиутопий все мы хорошо знаем, что между людьми и машинами всенепременно должен случиться конфликт. И корень конфликта лежит - практически во всех без исключения историях - в фундаментальном различии между Homo Sapi

Проверка на человечность

Давненько не сходились на ринге наши нейросети. Пора возвращаться! После более чем двухнедельного перерыва возобновляю творческое состязание между "Шедеврумом", нейросетевой моделью от Яндекса, и "Кандинским" от Сбера.

На тему сегодняшнего баттла меня натолкнула незначительная на первый взгляд деталь, которая вскрылась в экспериментальном беспилотном выпуске "Битвы интеллектов", где запросы для генерации изображений составлял ChatGPT. Деталь такая: ни в одном из сюжетов искусственный мозг не вывел в качестве центральной фигуры человека.

Нет, люди в целом где-то там предполагались. Фоном. Наверное. Но только как дополнение к пейзажу. Рассматривать человека как объект, достойный отдельного полотна, программа как-то не догадалась.

Из многочисленных антиутопий все мы хорошо знаем, что между людьми и машинами всенепременно должен случиться конфликт. И корень конфликта лежит - практически во всех без исключения историях - в фундаментальном различии между Homo Sapiens и Ex Machina, которое заключается в полном отсутствии у последней человеческих эмоций.

Если же вдруг вследствие случайного сбоя в программе они у машины возникают, то тут - о счастье! - безысходность и вражда заканчиваются, и наступает эпоха человеко-машинного согласия и процветания.

Поэтому сегодня мы с ИИ затронем тему эмоций. Не буду завышать требования и хотеть маловероятного. Ограничусь простым вопросом: могут ли нейросети хотя бы узнавать эмоции? Ладно, не так, ещё проще: понимают ли они связь между выражением лица человека и его желанием, допустим, заехать вам ~~по лицу~~ в дисплей?

Вот сейчас и проверим. Каждый мой запрос состоит всего из одного слова, обозначающего одну чистую человеческую эмоцию, никаких дополнительных уточнений.

1. Радость

Начали хорошо. Степень радости у обеих героинь разная, но радость, без сомнения, убедительная. Если критиковать технику, то "Шедеврум" традиционно накосячил с пальцами, а "Кандинский" - с зубами, но уже давно понятно, что как минимум до выхода следующей версии обеих программ в этом отношении ничего не изменится.

Результат: "Шедеврум" - 1, "Кандинский" - 1.

2. Недоумение

Если бы у меня в волосах завелись пенопластовые кирпичи, а вокруг меня кружили дроны размером со стрекозу, то моё выражение лица, вполне возможно, было бы примерно таким же. Не могу объяснить сюрреалистический антураж, но в этом, видимо, и соль - недоумение же.

Как живой человек, привыкший распознавать эмоции, могу заметить, что здесь оно вдобавок крепко замешано на страхе. Он тут даже превалирует, поэтому "Кандинского" от провала спасает только моё благодушное настроение.

Недоумение героини "Шедеврума" (дайте угадаю: девичья фамилия - Аддамс, верно?) замешано на львиной доле высокомерия. Впечатление несколько смазывает косящий глаз, но в целом попытка удалась.

Результат: "Шедеврум" - 1, "Кандинский" - 1.

3. Досада

Пальцы игнорируем, считываем эмоцию.

В принципе, "Шедевруму" верю. Да, этот трейдер вполне может сидеть в такой позе после обвала рынка средней тяжести. Досадно, но переживём.

"Кандинский" изобразил эмоционально неустойчивого вервольфа, если судить по нижним зубам. Наверное, испытанное огорчение запустило в бедолаге механизм обращения в зверя. Говорите что хотите, но эмоции различаются не только знаками плюс-минус, но и силой проявления. Полутонов и нюансов "Кандинский" не учёл. Это - не досада, это - бешенство.

Результат: "Шедеврум" - 1, "Кандинский" - 0.

4. Ярость

Нет, это не ошибка с моей стороны. "Досада" и "ярость" для "Кандинского" совершенно неразличимы. После этой генерации у него было ещё две попытки - уверяю вас, стало только хуже. Глаза персонажа буквально полезли из орбит, а фирменный внутриротовой комплект челюстей стал формироваться всё явственнее.

Наверное, разработчики в Сбере очень вспыльчивые. Ударился локтем о стол - сжёг нафиг мебельную фабрику. Постараюсь впредь выбирать выражения, а то мало ли что.

Во всяком случае, на этот раз "Кандинский" угадал. "Шедеврум" от него не отстаёт и даже даёт фору в рисовании распахнутых ртов. Там зубов тоже больше нормы, но они хотя бы растут в один ряд.

Результат: "Шедеврум" - 1, "Кандинский" - 1.

5. Печаль

Обратили внимание, как используется цвет? Ярость была в красных тонах, а вот печаль - в серо-синих. В общем неудивительно, поскольку человеческие художники именно так бы и поступили, а нейросети учатся на их работах. Но всё равно заслуживает упоминания.

Не знаю, зачем "Шедеврум" понесло в фэнтези, но его героиня явно в печали, а остальное не имеет значения. "Кандинский" нагнал грусти, добавил для пущей убедительности дождь, кровавую слезу и непонятные шрамы. Его эмоция снова несколько гипертрофирована, но, во всяком случае, без выхода за рамки.

Результат: "Шедеврум" - 1, "Кандинский" - 1.

6. Страх

"Кандинский" действительно не приемлет полумер и изображает все эмоции ну очень сильными. Поэтому снова имеем страх ("Шедеврум") и ужас ("Кандинский").

Но по моему мнению, "Шедеврум" всё же немного недожал. Чуть изогнуть брови и добавить напряжения вокруг рта - и испуг на лице был бы явным, а так это больше похоже на отвисшую челюсть. С другой стороны, "Кандинскому" простили недоработку с недоумением, и тут простим. Авансом.

"Кандинский" для убедительности оставил подпись, объясняющую, что это он такое нарисовал. Модель, используемая Сбером, уже не в первый раз проявляет признаки желания научиться писать. Причём пояснительные подписи на рисунках она ставит не всегда, а только в неоднозначных случаях - как будто бы не уверена, что человек её правильно поймёт, и поэтому пытается объясниться словами. Здесь, например, явно видна попытка написать FEAR - страх.

Результат: "Шедеврум" - 1, "Кандинский" - 1.

7. Скука

Вы как думаете: это мальчик в заброшенном доме с чугунным мячом или заключённый в камере-одиночке с гирей на ноге? В любом случае развлечений там не очень много, поэтому с натяжкой балл засчитан.

"Bodrrbdor" "Кандинского" - это снова попытка поговорить, производное-мутант от boredom - скука. В общем, сценка соответствует, хоть части тела и поплыли.

Результат: "Шедеврум" - 1, "Кандинский" - 1.

8. Удивление

Убедительно. Эмоция убедительная, а не прорисовка. Персонаж "Шедеврума" выглядит так, будто увидел что-то экстраординарное, но очень маленькое. Например, подкованную блоху или корабль пришельцев в своей пепельнице.

Девочка у "Кандинского", допустим, поднялась на чердак, а там та-ако-о-е! Теперь мне интересно, какое. Похоже, оно рвёт в клочья старый диван.

Результат: "Шедеврум" - 1, "Кандинский" - 1.

9. Восторг

Deellill - это delight. Мог бы и не подписывать, и так видно. А вот на картинке "Шедеврума" не видно совершенно. Может, это такой аристократический холодный восторг, который выражается через слегка приподнятую бровь, но это уж слишком тонко. За снобизм балл от меня не получишь.

Результат: "Шедеврум" - 0, "Кандинский" - 1.

10. Обида

У "Шедеврума" снова вышло убедительно, возникло даже желание утешить, разобраться как следует и наказать кого попало.

"Кандинский" нарисовал команду по американскому футболу. Два раза нарисовал, у него была вторая попытка. Можно подумать, что эта команда чем-то обидела "Кандинского", но это маловероятно. Скроее всего, дело здесь - а также в других случаях, когда нейросети выдают неожиданные интерпретации запросов - совсем в другом. Объясню чуть позже в одном из следующих постов, с примерами, подтверждающими мою версию.

Результат: "Шедеврум" - 1, "Кандинский" - 0.

Общий результат: "Шедеврум" - 9, "Кандинский" - 8.

Результат по итогам 13 раундов: "Шедеврум" - 107, "Кандинский" - 94.

Резюме?.. Если дать нейросети возможность общения с человеком, включающую сканирование лица, она вполне способна верно определять настроение своего визави, будучи даже на том раннем этапе развития, на котором находятся сейчас модели Яндекса и Сбера.

А ещё SberAI пытается с вами говорить, когда вы его об этом не просили.

Страшно? Да ладно вам.