Сбер обновил свою нейросетку для генерации изображений по текстовому описанию Kandinsky до версии 2.1, а Яндекс выпустил бета-версию приложения Шедеврум. Бегло попробовал и остался недоволен, а потом во всем разобрался и получил вполне достойный результат. Расскажу, как от этих нейросетей получить желаемые изображения.
Начнем с Шедеврума от Яндекса, как выше упоминалось, эта нейросеть для создания изображений по текстовому описанию сейчас находится в стадии бета-тестирования и доступна в виде приложений для iOS и Android. Рекомендую, как минимум, пока не тратить на нее время, а сразу переходить к Kandinsky. Впрочем, несколько замечаний все-таки оставлю.
В Шедеврум слишком много ограничений — Яндекс, судя по всему, перестраховывается, поэтому вы не сможете создать изображения с реальными людьми. Также есть очень много ограничений на вполне безобидные сцены. Из-за этого желание пользоваться нейросетью отпадает — пусть пока её потренируют другие, менее привередливые пользователи. Также качество изображений оставляет желать лучшего — смотри сравнения генерации по одному и тому же промту в Kandinsky и Шедеврум.
Шедеврум
Ах-да, на всякий случай стоит упомянуть, что здесь и далее промт — это текстовой запрос к нейросетям, по которому генерируется изображение.
Kandinsky
Тем не менее стоит отметить отличную реализацию Шедеврум в форме приложения. Оно работает очень стабильно и у него приятный интерфейс. Разработчики буквально сделали некое подобие социальной сети — все создаваемые изображения публикуются в общую ленту, там пользователи их могут оценить лайками и просмотреть используемые промты.
Kandinsky от Сбера доступен в вебе и в виде бота для Telegram. В вебе возможностей побольше, но поскольку я занимаюсь созданием изображений по фану, «кручу» его на мобиле в телеге.
Первые попытки взаимодействия с Kandinsky оставляли желать лучшего. Потом я решил опробовать привычные промты для Midjourney и Stable Diffusion. Результат порадовал.
Kandinsky
Как составить правильный промт для получения нужного результата
Абстрактные запросы могут срабатывать, но зачастую результат получается непредсказуемым. Пример ниже: «Дядя едет на динозавре по млечному пути». Генерация в таком формате довольно быстро надоедает и хочется получать наиболее точные и предсказуемые результаты. Как составить для этого промт?
Нейросети любят конкретику. Чем точнее будет ваш промт, тем более предсказуемым получится результат. Я использую для составления запросов довольно распространенную и стандартную схему:
- Описание основного объекта
- Описание локации и сцены
- Параметры освещения и стиль визуализации
- Технические параметры
Kandinsky
Вариации по промту: skull nousr robot, armored, stealth, character design, highly detailed, intricate details, digital 3d, hard surface, real-time, vfx, trending on artstation, sharp focus, uhd, hdr.
Например, нам нужно получить изображение девушки с темными волосами на фоне Парижа, а стиль должен быть на уровне профессиональной съемки. Описываем всю это сцену на английском языке по предложенной выше схеме, получится: «Portrait of a brunette girl with sunglasses in the background of Paris, dynamic pose, Cinematic, Moody Lighting, Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography». Давайте разберем эту билеберду на схему:
- Описание основного объекта, локации и сцены: Portrait of a brunette girl with sunglasses in the background of Paris
- Параметры освещения и стиль визуализации: dynamic pose, Cinematic, Moody Lighting
- Технические параметры: Shot on 50mm lens, Depth of Field, Shutter Speed 1/1000, F/22, Super-Resolution, super detailed, photography
Для сравнения тот же промт в Шедеврум:
Для создания промта на английском я иногда использую переводчик DeepL — просто ввожу описание сцены на русском, а затем копирую перевод и добавляю технические параметры. Можно поэкспериментировать с промтами на русском, но на английском у меня получаются наиболее желаемые результаты.
Также в генерации изображения можно воспользоваться уже готовыми промтами других пользователей нейросетей. Так можно поэкспериментировать, заменяя их параметры на свои — результаты получаются интересными.
Что еще важно знать
Быстрее всего Kandinsky и Шедеврум генерируют изображения утром и ночью. Очевидно, сказывается наплыв пользователей и ощущается нагрузка на сервера. Рекомендую для активных экспериментов использовать временные промежутки с 8:00 до 11:00 и с 0:00 до 03:00 — у меня в это время изображения создаются с минимальными задержками. Что касается Kandinsky, в вебе он генерирует картинки быстрее, чем в Telegram-боте.