Попробовал нейросети Kandinsky и Шедеврум — ничего не получилось. Как сделать круто

7 апреля 20237 апр 2023

3316

3 мин

Начнем с Шедеврума от Яндекса, как выше упоминалось, эта нейросеть для создания изображений по текстовому описанию сейчас находится в стадии бета-тестирования и доступна в виде приложений для iOS и Android. Рекомендую, как минимум, пока не тратить на нее время, а сразу переходить к Kandinsky. Впрочем, несколько замечаний все-таки оставлю. В Шедеврум слишком много ограничений — Яндекс, судя по всему, перестраховывается, поэтому вы не сможете создать изображения с реальными людьми. Также есть очень много ограничений на вполне безобидные сцены. Из-за этого желание пользоваться нейросетью отпадает — пусть пока её потренируют другие, менее привередливые пользователи. Также

Оглавление

Как составить правильный промт для получения нужного результата
Что еще важно знать

Сбер обновил свою нейросетку для генерации изображений по текстовому описанию Kandinsky до версии 2.1, а Яндекс выпустил бета-версию приложения Шедеврум. Бегло попробовал и остался недоволен, а потом во всем разобрался и получил вполне достойный результат. Расскажу, как от этих нейросетей получить желаемые изображения.
Начнем с Шедеврума от Яндекса, как выше упоминалось, эта нейросеть для создания изображений по текстовому описанию сейчас находится в стадии бета-тестирования и доступна в виде приложений для iOS и Android. Рекомендую, как минимум, пока не тратить на нее время, а сразу переходить к Kandinsky. Впрочем, несколько замечаний все-таки оставлю.

В Шедеврум слишком много ограничений — Яндекс, судя по всему, перестраховывается, поэтому вы не сможете создать изображения с реальными людьми. Также есть очень много ограничений на вполне безобидные сцены. Из-за этого желание пользоваться нейросетью отпадает — пусть пока её потренируют другие, менее привередливые пользователи. Также качество изображений оставляет желать лучшего — смотри сравнения генерации по одному и тому же промту в Kandinsky и Шедеврум.

Шедеврум

Ах-да, на всякий случай стоит упомянуть, что здесь и далее промт — это текстовой запрос к нейросетям, по которому генерируется изображение.

Kandinsky
Тем не менее стоит отметить отличную реализацию Шедеврум в форме приложения. Оно работает очень стабильно и у него приятный интерфейс. Разработчики буквально сделали некое подобие социальной сети — все создаваемые изображения публикуются в общую ленту, там пользователи их могут оценить лайками и просмотреть используемые промты.
Kandinsky от Сбера доступен в вебе и в виде бота для Telegram. В вебе возможностей побольше, но поскольку я занимаюсь созданием изображений по фану, «кручу» его на мобиле в телеге.
Первые попытки взаимодействия с Kandinsky оставляли желать лучшего. Потом я решил опробовать привычные промты для Midjourney и Stable Diffusion. Результат порадовал.

Kandinsky

Как составить правильный промт для получения нужного результата

Абстрактные запросы могут срабатывать, но зачастую результат получается непредсказуемым. Пример ниже: «Дядя едет на динозавре по млечному пути». Генерация в таком формате довольно быстро надоедает и хочется получать наиболее точные и предсказуемые результаты. Как составить для этого промт?

Нейросети любят конкретику. Чем точнее будет ваш промт, тем более предсказуемым получится результат. Я использую для составления запросов довольно распространенную и стандартную схему:

Описание основного объекта
Описание локации и сцены
Параметры освещения и стиль визуализации
Технические параметры

Листайте вправо, чтобы увидеть больше изображений

Kandinsky

Вариации по промту: skull nousr robot, armored, stealth, character design, highly detailed, intricate details, digital 3d, hard surface, real-time, vfx, trending on artstation, sharp focus, uhd, hdr.

Например, нам нужно получить изображение девушки с темными волосами на фоне Парижа, а стиль должен быть на уровне профессиональной съемки. Описываем всю это сцену на английском языке по предложенной выше схеме, получится: «Portrait of a brunette girl with sunglasses in the background of Paris, dynamic pose, Cinematic, Moody Lighting, Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography». Давайте разберем эту билеберду на схему:

Описание основного объекта, локации и сцены: Portrait of a brunette girl with sunglasses in the background of Paris
Параметры освещения и стиль визуализации: dynamic pose, Cinematic, Moody Lighting
Технические параметры: Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography

Для сравнения тот же промт в Шедеврум:

Для создания промта на английском я иногда использую переводчик DeepL — просто ввожу описание сцены на русском, а затем копирую перевод и добавляю технические параметры. Можно поэкспериментировать с промтами на русском, но на английском у меня получаются наиболее желаемые результаты.

Также в генерации изображения можно воспользоваться уже готовыми промтами других пользователей нейросетей. Так можно поэкспериментировать, заменяя их параметры на свои — результаты получаются интересными.

Что еще важно знать

Быстрее всего Kandinsky и Шедеврум генерируют изображения утром и ночью. Очевидно, сказывается наплыв пользователей и ощущается нагрузка на сервера. Рекомендую для активных экспериментов использовать временные промежутки с 8:00 до 11:00 и с 0:00 до 03:00 — у меня в это время изображения создаются с минимальными задержками. Что касается Kandinsky, в вебе он генерирует картинки быстрее, чем в Telegram-боте.

Нейронные сети (Neural Networks)

80,9 тыс интересуются