Stable Diffusion — интересная нейросеть для генерации изображений, которая работает прямо на компьютере. Но бывают случаи, когда запустить её локально нет возможности. Кто-то ещё не обзавёлся достаточно мощной видеокартой (Stable Diffusion использует при работе видеокарту и для нормального функционирования нужна современная модель с большим количеством памяти), кому-то лень возиться со скачиванием и установкой, а кто-то большую часть времени работает с телефона. В таких случаях можно попробовать онлайн-версию нейросети. Мы протестировали несколько сайтов, на которых можно бесплатно поработать со Stable Diffusion, и вот что из этого получилось.
stablediffusionweb.com
Этот онлайн-сервис работает со свежей моделью Stable Diffusion XL, которая вышла в июле 2023 года. Как пишут её создатели, Stable Diffusion XL натренирована на изображениях большего размера, чем более старые SD 1.5 и SD 2.1 — а значит, способна генерировать картинки с лучшей детализацией и почти разборчивым текстом.
Сайт stablediffusionweb.com выглядит довольно минималистично. Есть два поля для ввода запроса. В поле Prompt вписываем то, что хотим видеть на картинке (например, портрет человека, пейзаж или пиццу), в Negative Prompt — то, чего на ней быть не должно (обычно это картинки с плохой композицией, двойные головы, отсутствующие конечности и руки с множеством пальцев, которые так любят рисовать нейросети).
Есть выпадающий список со стилями, их тут очень много. При желании можно сгенерировать штук пятьдесят картинок с одним и тем же запросом, но в разных стилях. Среди них есть художественные направления (поп-арт, кубизм, импрессионизм), игровая стилистика (картинки в стиле Майнкрафта, Cyberpunk 2077 или Марио), имитация 3D, комиксов, акварели или пиксель-арта.
Сложных настроек или скриптов здесь нет. Нет и возможности загрузить своё изображение для работы с img2img или исправить уже сгенерированное с помощью inpaint. Также в бесплатной версии заблокированы настройки размера картинок (можно создавать только квадратные изображения размером 768х768 пикселей) и настройка производительности (судя по всему, влияет на количество шагов генерации).
Традиционно, начинаем тест нейросети с еды. Вводим запрос «food photography photo of a burger with cheese, maximum detail, foreground focus» (фуд-фото, фотография бургера с сыром, максимум деталей, фокус на переднем плане) и делаем несколько вариантов с этим запросом, но с разными стилями. Генерация одного изображения занимает примерно три минуты, при этом создаётся всего одна картинка.
Качество на удивление хорошее и сравнимо с Midjourney четвёртой версии: в картинках можно заподозрить работу нейросети, но грубых ошибок нет. А вот стиль влияет на результат не так сильно, как хотелось бы: у акварельного гамбургера (2) есть несколько акварельных пятен на фоне, но сам он не выглядит нарисованным. А у бургеров в стилях пиксельарт (3) и майнкрафт (4) есть лишь несколько кубических деталей.
Теперь посмотрим, как получаются люди. Генерируем дедушку с чашкой кофе в стиле плёночных фото (стиль analog_film), в стиле по умолчанию и в стиле Cyberpunk 2077 (стиль game-cyberpunk game). Не слишком фотореалистично, пальцев маловато, но в целом неплохо. А вот стили в основном повлияли на цвет — у киберпанковского деда нет никаких кибер-имплантов, зато вместо красного костюма из запроса он переоделся в бирюзовый.
Ещё один полезный инструмент на этом сайте — каталог картинок с описаниями. Открывается он кнопкой Prompt Database внизу страницы. Если никак не удаётся получить нужную картинку или вы никогда не имели дела с нейросетью, можно открыть этот каталог и по одному-двум ключевым словам найти сгенерированные другими пользователями картинки.
huggingface.co
На сайте huggingface.co можно найти демо-версию более старой модели Stable Diffusion 2.1 и попробовать её в работе. Сразу видно, что не стоило называть интерфейс stablediffusionweb.com минималистичным — истинный минимализм ждал нас на huggingface.co.
Поля для описания Prompt и Negative Prompt, одинокий ползунок Guidance Scale в разделе продвинутых настроек и больше ничего — ни выбора стилей, ни соотношения сторон.
Проверим, как работает и что может онлайн-версия Stable Diffusion 2.1. Для разнообразия начнём с пейзажа и попросим нейросеть нарисовать его акварелью (prompt: watercolor painting, beautiful landscape, early morning, sun rising over the river and mountains). Нейросеть работает быстро — секунд за 15-20 она создала сразу четыре картинки. Получилось неплохо, действительно похоже на акварельные наброски на бумаге. Размер получившихся картинок — 768х768 пикселей.
С людьми нейросеть справляется гораздо хуже. По запросу «man eating sushi in a restaurant, portrait photo, realistic» плохо почти всё: реализма нет, суши выглядят очень странно, вместо рук знаменитые нейросетевые культяпки, а вместо палочек для еды — щепки.
Теперь проведем тест на котиках. По запросу «photo of the red cat» Stable Diffusion 2.1 нагенерировал очень странных котов, у которых всё плохо и с реалистичностью,и с композицией.
К сожалению, Stable Diffusion 2.1 подтвердил свою славу худшей модели Stable Diffusion. И в онлайн-версии, и на компьютере она выдаёт довольно посредственные (если не сказать хуже) результаты. Для сравнения, вот так справилась с этими же запросами Stable Diffusion XL с сайта stablediffusionweb.com — симпатично, в меру реалистично, есть работа с ГРИП и даже все пальцы на месте:
clipdrop.co
На этот сайт мы возлагали большие надежды. Именно на clipdrop.co создатели нейросети Stable Diffusion отправляют всех, кто хочет попробовать демо-версию свежей Stable Diffusion XL 1.0. К сожалению, попробовать её в работе на этом сайте так и не удалось: при попытке что-либо сгенерировать вылезало окошко с предложением оплатить PRO-аккаунт (хотя в тарифах предусмотрена и ограниченная бесплатная версия). Был это глюк или какие-то ограничения от создателей сайта, понять не удалось. Возможно, позже всё снова заработает и без платного аккаунта.
Но помимо генерации картинок, на сайте есть ещё парочка интересных инструментов на основе нейросети в Stable Diffusion. Это Uncrop (аналог Generative Expand от Adobe и Zoom Out в Midjourney) и Stable Doodle, позволяющий превратить набросок в полноценное изображение.
С помощью Uncrop удалось расширить картинку с киберпанковским дедушкой. С минуту ожидания, и нейросеть создала две приличных картинки и почему-то два чёрных квадрата. Возможно, на сервере действительно какие-то неполадки или слишком много пользователей. Стиль и цветовая гамма выдержаны, рукава у пиджака обзавелись пуговицами, всё хорошо.
Попробовать в деле Stable Doodle тоже не удалось. Поначалу всё шло неплохо — удалось сделать довольно неплохой набросок собаки, хоть модель и пыталась убежать. А вот превратить его в нейросетевую картинку уже не получилось — при нажатии на кнопку Generate вылезло окошко с предложением проапгрейдить аккаунт.