Найти в Дзене
Кирилл Устинов

Kandinsky vs Шедеврум

Минувшие полгода я тестировал новейшие отечественные нейросетевые генераторы изображений от Сбербанка (Kandinsky) и Яндекса (Шедеврум). За это время я сгенерировал более 2000 самых разных изображений. Постепенно мне открывались разные уровни осознания происходящего, о которых и пойдёт речь.

Сначала шёл активный поиск применения новых систем. Далее уже началось сравнение обоих генераторов. А потом пришло понимание принципов генерации. Об этом всём по порядку.

Применение.

Итак, появление таких систем предсказывали ещё 10 лет назад. И вот будущее наступило. И, как это бывает абсолютно со всем новым, не сразу становится очевидно, что с этим нужно делать (точнее как грамотнее всего распорядится новыми возможностями).

Вот некоторые обнаруженные мною применения (с расчётом на их развитие в дальнейшем):

  • Визуализация снов и воспоминаний. Вы просыпаетесь утром и начинаете детально описывать увиденное окружающим людям. Знакомо? Так вот, что если вам теперь требуется всего лишь сделать небольшое текстовое описание для генератора, который буквально выдаст вам картинку, которую вы только что видели во сне?..
  • Изображения для стихов, песен, афоризмов и т.п. Все мы держали в руках музыкальный альбом какой-нибудь группы, книгу с иллюстрированной обложкой, читали стихи классиков в конце концов.. Чужая иллюстрация, как правило, создаёт некий стереотип в вашем сознании. А зачастую таковая просто отсутствует. Теперь же мы можем за секунду получить изображение для ЛЮБОЙ песни, стихотворения, анекдота и многого другого! Более того, подметил, что генератор многое видит совершенно иначе, чем казалось ранее: контент с негативной энергией справедливо выдаёт в тёмных тонах, и наоборот.
  • Портреты знакомых. Здесь речь идёт не о фотографиях наших знакомых, которые, как правило, у нас уже есть. Однако если забить в генератор описание человека, которого ты знаешь — его род деятельности, привычки, возраст и др., — то получаются очень интересные и неожиданные визуализации.
  • Воплощение и черпание новых идей, до которых сам не догадался. Простой пример. Захотелось мне создать интернет-сайт городского округа. Но никак не пойму, как он должен выглядеть. Забиваю в генератор — и получаю наиболее соответствующий дизайн, к которому теперь могу стремиться. Методика применима к абсолютно любым вещам, проектам, разработкам, над которыми мы начинаем созидательную работу.
  • Постановки себя в разные сцены. Это возможность обыграть себя в необходимом виде, стиле, профессии, ситуации... Например, я увидел себя пилотом самолёта, ТОП-менеджером, космонавтом и даже сделал не одну статую самого себя.
  • Просто получение красивых изображений за секунды вместо трудоёмкой работы над ними. Это самое очевидное применение. И всё-такие его можно вынести в отдельный пункт. Далеко не каждый владеет Фотошопом. А ещё меньше людей могут просто нарисовать необходимое на бумаге. А тут нейросеть всё рисует сама!

Список можно продолжать долго. Степень свободы здесь не ограничена, а потребности в графической визуализации имеет абсолютно любая индустрия.

Kandinsky vs Шедеврум.

Обе системы непрерывно развиваются. Регулярно меняется не только функционал, но и качество генерации. Поэтому нет смысла останавливаться на деталях. Рассмотрим лишь принципиальную разницу.

Kandinsky — этакий всеядный бот в Telegram, готовый практически на всё. Ограничения минимальны, чуть хуже качество. Зато пиши что хочешь — и получай сравнительно быстро картинку в мессенджер.

-2

С Шедеврумом дело обстоит иначе:

  • Во-первых, это не просто генератор, а целая соцсеть. Можно вообще не заморачиваться и генерировать на основе запросов, которые придумал кто-то другой. Это значительно упрощает процесс создания качественной графики, потому что достучаться до нужных струн генератора бесконечно долгим подбором слов бывает утомительно.
  • Во-вторых, результаты сильно опережают качеством (хотя и сильно не дотягивают до Midjorney), как в содержательном, так и в техническом смысле. А после того, как Сбер летом выкатил обновление со своим упором в вырвиглазность, пришлось про него вообще забыть (хотя изначально система вызывала больший интерес).

Принципиальная разница в генераторах такова. Яндекс занимается откровенным "коллажированием": гуглит готовый контент и из него формирует достаточно неплохой результат. Сбер же пытается создавать графику как бы с нуля — её куски даже нагуглить практически невозможно. Разумеется, всех раздражает цензура и бесконечные ограничения, но русские люди не прекращают попыток их обходить :)

2 коровы в купе поезда пьют чай за столиком (Шедеврум)
2 коровы в купе поезда пьют чай за столиком (Шедеврум)

Как это работает?

Сразу отмечу, что никаких статей на эту тему не читал. Я просто увидел то, как работает система со стороны пользователя. И именно это мне видится истиной.

В основе всего лежит не так давно появившаяся в Adobe Photoshop (естественно, они не первооткрыватели) функция распознавания объектов на фото. Искусственный разум теперь легко различает на картинке автомобиль, человека, облако и всё тому подобное. И, соответственно, способен это из картинки вырезать.

Итак, мы задаём генератору длинный набор ключевых слов. Например, «пейзаж, ясный день, солнце, деревья, море, на берегу стоит лодка, реалистично, резкость».

  1. Первое, что делает нейросеть — разбивает ключевые слова на главные и второстепенные (детали). В нашем случае главные «пейзаж, море, лодка», а второстепенные «ясный день, солнце, деревья, реалистично, резкость». Да, какие-то слова генератор просто «глотает»: например, лодка внезапно может оказаться не на берегу.
  2. Далее генератор гуглит главные слова и соединяет их в одно целое изображение. Теперь у нас есть совершенно случайный морской пейзаж с лодкой.
  3. А дальше начинается доводка деталей. По одному генератор прорабатывает каждое второстепенное слово, вырезая и вставляя соответствующий объект на полученное из главных слов изображение. Появляется «солнце, деревья». Именно этим обуславливаются мелкие недочёты на итоговом изображении в виде 10-ти пальцев рук, смазанных контуров и т.п.
  4. В последнюю очередь картинка обрабатывается по несодержательным ключевым словам, в нашем случае «реалистично, резкость». Возможно, их генератор изначально сортирует в некую третью группу.
Власий Добролюб пишет заявку в Добродел (Kandinsky)
Власий Добролюб пишет заявку в Добродел (Kandinsky)

Повторюсь, алгоритм — моё видение работы системы. Неоднократно замечено, что т.н. обучаемость нейросети в настоящий момент заключается в следующем: сеть немного запоминает соответствие определённых картинок определённым запросам и выдаёт похожие, а также генерирует их немного быстрее, чем неизвестные наборы ключевых слов. Однако совершенно точно, что она не может иметь в своей памяти весь массив накопленной человечеством графики, поэтому использует сторонние ресурсы, а со временем забывает и лишнее.

Генерация изображений — очень увлекательное занятие. Пожалуй, два главных закона в этом деле можно сформулировать так:

  • сгенерировать можно абсолютно всё, поэтому лучше всего подумать, на что именно лучше всего потратить своё ограниченное время
  • фотография — это отражение человеческой души, поэтому, вероятнее всего, вы увидите в своей ленте именно то, чем наполнены внутри

Будущее уже здесь! Сгенерируйте его сами!