Сегодня я ненадолго оставлю в стороне глупые конкурсы среди искусственных интеллектов и постараюсь упорядочить в голове и на экране всё, что мне пока удалось выяснить для себя о двух российских графических нейросетях - "Шедевруме" от Яндекса и "Кандинском" от Сбера.
Я ни разу не программист, поэтому в глубинных различиях между ними на уровне кода ковыряться не буду, да и не могу. Мне просто интересно уяснить с точки зрения простого пользователя, в чём отличие одного ИИ от второго. С точки зрения такого пользователя, который пришёл к нейросетям развлечься, поискать вдохновения или просто потыкать в кнопочки и подивиться, до чего техника дошла.
Важное уточнение на берегу: здесь я говорю о том "Кандинском", который живёт в телеграм-боте. Для некоторых типов отличий это имеет значение. Пользоваться нейросетью можно и другими способами, но это тема для отдельных постов (которые всенепременно последуют, не сомневайтесь).
Впереди много букв, так что крепитесь. В качестве меры поддержки буду вставлять там и сям разнообразные случайные и неслучайные картинки от героев рассказа.
Итак, десять пунктов, по которым различаются Shedevrum beta 0.1.5 и Kandinsky 2.1.
1. Вариативность и стиль изображений
Первое, чего нельзя не заметить, пользуясь графическими нейросетями - разница в количестве вариантов изображения, генерируемых по каждому запросу.
"Шедеврум" пошёл по стопам Midjourney и предлагает предварительно четыре варианта наброска картинки на выбор, а затем делает окончательный рендер, или отрисовку, выбранного человеком варианта. Обычно наброски различаются как минимум композицией и техникой - это могут быть два псевдофото и два цифровых рисунка, например. Часто варианты выглядят очень по-разному; иногда, если нейросеть не находит точного соответствия запросу или не вполне его понимает, она предлагает от одного до четырёх случайных сюжетов (потому что надо же клиенту показать хоть какой-то результат).
Если заказчика ничто не устраивает, запрос можно отправить повторно. В этом случае почти всегда "Шедеврум" предложит четыре новых варианта. Правда, до бесконечности так продолжаться не может: в какой-то момент не то фантазия, не то терпение, не то запасы референсов нейросети иссякают, и она начинает генерировать всё менее удачные и релевантные картинки. Возможно, ситуация будет меняться по мере увеличения базы данных "Шедеврума". А она и так впечатляет: не будем забывать, что это Яндекс - поисковый монстр, который знает всё.
У "Кандинского" нет преимущества в виде собственного поисковика. Может, поэтому на каждый запрос он выдаёт только один (1) результат. Без вариантов. Ешь что дают. Повторно запрос отправить, конечно, можно, только результаты будут похожи на первый, как родные братья: стиль, палитра, композиция останутся практически без изменений. Сдвинуть "Кандинского" с выбранной им дороги не получится.
Я повторяюсь, но "Шедеврум" по умолчанию предлагает намного больший диапазон стилей и красок, чем "Кандинский". Этот, если в запросе не будет нужных уточнений, с большой долей вероятности выдаст вам имитацию мрачной цифровой живописи в приглушённых сизо-бурых тонах с большим количеством непроглядных теней. Можете считать это его стилем, почерком мастера. Выглядит это так, как будто нейросеть обучалась преимущественно на работах одного художника (и это точно не Василий Кандинский).
Фотографии "Кандинский" имитирует очень неохотно, даже если попросите. Генетическая память, передавшаяся от службы безопасности банка? Ну там, подделка документов преследуется, и всё такое... XD
2. Соответствие запросу
Ещё одно преимущество, которое дают родственные связи с поисковиком - способность точнее понимать пользовательский запрос. Как выяснилось в ходе устроенного тут мной творческого конкурса, "Кандинский" элементарно не имеет представления о некоторых вполне обычных предметах материального мира. Примерно как человек, который никогда в жизни не видел слона, но попал на важный экзамен по слоноведению, где ему нужно описать слона, и теперь он изо всх сил пытается включить воображение и представить себе, как вообще может выглядеть слон. Результат будет, понятно, неожиданным.
"Шедеврум" не просто узнаёт больше главных объектов в запросе - ещё он, как правило, учитывает больше второстепенных деталей, которые "Кандинский" часто то ли приносит в жертву композиции, то ли попросту игнорирует. Здесь раз на раз не приходится, но в среднем по больнице результаты "Шедеврума" больше соответствуют описанию пользователя, если оно было сформулировано достаточно конкретно.
3. Скорость генерации
Пока "Шедеврум" находится в стадии гусеницы, то есть бета-версии, логично допустить, что он работает не на полной вычислительной мощности. Количество пользователей растёт с каждым днём, и пропорционально увеличивается время генерации изображения. Будним утром или глубокой ночью, когда нагрузка на сеть минимальна, первые наброски могут быть готовы менее чем за минуту. Но в пиковые часы иногда приходится ждать до 5-6 минут.
Зато буквально на днях Яндекс что-то там подкрутил, и теперь окончательный рендер выбранного варианта проходит быстро и эффективно. Раньше с этим тоже возникали проблемы: приходилось долго ждать, и при этом высокое качество результата никто не гарантировал.
"Кандинский" генерирует сразу окончательное изображение в высоком разрешении - как правило, секунд за двадцать. Телеграм-бот предупреждает на всякий случай, что делать, если он окажется перегружен, но со мной такого ни разу не случалось. Правда, пару раз бот просто слетал, полностью "забывая" запрос и меня. Приходилось возвращаться в главное меню и начинать общение сначала, но в целом особых трудностей это не создавало.
4. Размер файла
Нужно отдать должное программистам Сбера: судя по всему, в "Кандинском" используются более эффективные методы сжатия, чем в "Шедевруме". При размерах итоговых картинок 768x768 пикселов файлы редко выходят за границы 100 Кб и никогда - за 200 Кб, при этом сохраняется высокая чёткость изображения.
Картинки "Шедеврума" меньше, но тяжелее: в среднем от 100 до 200 Кб при линейных размерах 698х698 пикселов. Однажды он выдал мне результат аж на 309 Кб! Не бог весть что в наш век терабайтных дисков, но факт налицо: эффективно упаковывать биты "Кандинский" умеет лучше.
И дело тут, думается мне, не только в том, что "Кандинский" обычно использует ограниченную цветовую палитру. Я не специалист, так что поправьте меня, если знаете ответ.
5. Модификаторы
Модификаторы - это такие специальные слова, которые добавляются к запросу и описывают конкретный стиль и имитацию техники, в которой будет сгенерировано изображение. Например, "оп-арт", "в стиле Пикассо" или "фотореализм".
У меня есть целый отдельный пост про работу модификаторов в телеграм-боте "Кандинского". Если коротко (спойлер!) - они там выведены в отдельные кнопки, но толку от этого мало.
Другие инструменты с использованием "Кандинского", такие как сайты rudalle и fusionbrain, имеют немного другие наборы модификаторов, работающие эффективнее, но об этом, как уже было сказано, позже и подробнее.
У "Шедеврума" кнопка пока всего одна, и при нажатии на неё выпадает список возможных (но не всех возможных) слов-модификаторов, в которые можно ткнуть пальцем, после чего они добавятся к вашему описанию картинки.
В обоих случаях никто не ограничивает ваше воображение. Можно придумывать собственные модификаторы и смотреть, сработает или нет. И пока что добавление их к тексту запроса показало лучшие результаты, чем жмяканье на кнопочки.
6. Альтернативные способы ввода запроса
В случае с "Шедеврумом" пока всё просто: их нет.
У "Кандинского", помимо традиционного текстового описания картинки, есть возможность загрузить собственное изображение или даже два. Они будут жестоко обработаны без лишних вопросов. Больше всего контроля над результатом даёт способ "Смешивание картинки и текста", меньше всего - "Вариации картинки". Собственно, это тоже тема для отдельной публикации, так что пока я здесь и остановлюсь.
7. Альтернативные каналы использования
Про "Кандинского" уже было сказано в самом начале: он работает через телеграм-бот, на сайтах rudalle и fusionbrain, а также через приложение от Сбера для умного дома "Салют".
"Шедеврумом" пока что можно официально пользоваться только в мобильном приложении. Яндекс забронировал для нейросети адрес shedevrum.ai, но по состоянию на прямо сейчас там только предлагается скачать приложение. Возможно, позже появится веб-интерфейс и возможность работать с "Шедеврумом" с компьютера.
Правда, не заставили себя ждать предприимчивые люди, создавшие сайты-посредники и сайты-агрегаторы сразу с несколькими рисующими нейросетями, включая "Шедеврум" и "Кандинский". Только вот у меня нет полной уверенности, что Сбер и Яндекс отнесутся к этому с пониманием. Почему - объясняю в пункте 10.
И ещё одно, пока уж я об этом. На днях у меня в Телеграме нарисовался некий бот, предлагающий подписаться сразу на три графических нейросети и один мод за умеренную плату в размере 590 рублей, за которые было щедро обещано аж 50 картинок!
Пикантность ситуации в том, что предложенные сервисы - в их числе и Kandinsky 2.0 (даже не 2.1!) - совершенно бесплатны для всех желающих. Поэтому - граждане, будьте бдительны!
8. Публичность
Из пункта 7 логически вытекает следующее различие между сервисами: если всё, что вам генерирует "Кандинский", по умолчанию приватно и видно только вам, то в "Шедевруме" вы становитесь частью сообщества вроде недоразвитой соцсети, и все ваши изображения автоматически публикуются в общей ленте. При желании вы можете их удалить, но скрыть из ленты, оставив только у себя, не можете.
Там же зачем-то есть функция раздачи лайков, которые большинство пользователей простодушно принимают на свой счёт, забывая, что на самом деле все эти лайки заработаны программистами Яндекса и теми художниками и фотографами, на чьих работах обучается нейросеть. Возможно, лайки нужны для определения самых удачных генераций и дальнейшего развития "Шедеврума" в направлении "чего хочет народ".
9. Языки
По утверждению Сбера, "Кандинский" понимает 101 язык. Явный список языков не приводится (или где-то приводится, но хорошо спрятан), есть только непрямое указание на то, что для перевода используются все доступные онлайн-переводчики, включая Google Translate.
Меня, друзья мои, терзают смутные сомненья...
Вот один и тот же запрос "множество цветных карандашей, падающих с неба", переведённый на семь языков преимущественно при помощи того же Google Translate, и его результаты.
Нет, я не спорю, какие-то языки он действительно понимает. Но 101? Хм...
Во всяком случае, среди них точно нет нидерландского, корейского и казахского, а это далеко не самые редкие языки мира. Есть время и желание - попытайте "Кандинского" сами.
Яндекс скромно признаёт, что "Шедеврум" говорит пока только на русском и английском. Ну что ж, нам и хватит.
10. Ограничения и авторские права
Сюрпри-и-из! Ко всем развлекательным и несерьёзным вещам всегда прилагаются серьёзные юридические документы, и "Шедеврум" с "Кандинским" - не исключение.
У "Кандинского" мне удалось найти только публичную лицензию - обобщённый документ, который можно применить к любому объекту авторского права. Я не юрист, но в силу моих скромных способностей постараюсь верно передать главные мысли этого шестистраничного опуса:
- Вы можете забирать картинки от "Кандинского" и пользоваться ими совершенно бесплатно.
- При этом вы обязаны указывать источник, то есть нейросеть Kandinsky.
- Вы можете вносить изменения в картинки, но в этом случае должны сохранить оригинал и, опять же, указать источник/авторство с упоминанием того, что вы внесли изменения.
- Вы также должны быть морально готовы удалить любое упоминание об авторах, буде они этого захотят (самый суровый пункт).
- Если вы решите распространять картинки, то должны делать это на тех же условиях, на которых они были предоставлены вам, то есть безвозмездно, то есть даром.
Вот, кажется, и всё про "Кандинского". Если где-то и существуют другие документы, мне они пока не попадались.
Яндекс в этом отношении намного жёстче. Поскольку приложение построено по принципу паблика, в котором все могут видеть ваши упражнения, условия использования сервиса "Шедеврум" (почему-то только на английском языке) предполагают кучу ограничений, в том числе:
1. Для доступа к полному функционалу сервиса вы должны быть старше 18 лет и зарегистрированы в Яндексе.
2. Текстовое описание картинки не может включать в себя слова и выражения из целого (неоднозначного) списка категорий запрещённых слов и выражений. Например, вам не удастся попросить "Шедеврум" сгенерировать интерьер детской комнаты, потому что слово "детский" входит в этот список, зато генерировать неодетых женщин вам никто не запрещает. Правда, если вы сильно увлечётесь, могут и забанить.
3. Яндекс оставляет за собой право удалить из приложения любые картинки, а также забанить вас (см. выше).
4. Все ваши запросы становятся собственностью Яндекса, и он получает право использовать их где и когда угодно.
5. Вы обязаны указывать авторство нейросети при любой публикации сгенерированной картинки, и
6. Несмотря на то что картинки создаёт робот-бессребренник, и они выдаются пользователям совершенно бесплатно, использовать их в коммерческих целях Яндекс не разрешает.
7. Начиная пользоваться "Шедеврумом", вы автоматически клянётесь не предпринимать никаких действий, направленных на его незаконное использование, обход или разглашение механизмов защиты, а также на коммерческое использование самого сервиса. Привет ботам и агрегаторам.
Ещё один забавный пункт: Яндекс официально не гарантирует, что результат вас удовлетворит. Satisfaction not guaranteed!
Ну вот вроде бы и всё, парам-парам-пам. Спасибо, если дочитали до конца. Торжественно обещаю в следующий раз вернуться к лёгкому жанру, в котором букв меньше, а картинок больше.
Satisfaction guaranteed!