35,7 тыс подписчиков

Stable Diffusion онлайн — что умеет нейросеть

5 минут

2 прочтения

31 октября 2023

Stable Diffusion — интересная нейросеть для генерации изображений, которая работает прямо на компьютере. Но бывают случаи, когда запустить её локально нет возможности. Кто-то ещё не обзавёлся достаточно мощной видеокартой (Stable Diffusion использует при работе видеокарту и для нормального функционирования нужна современная модель с большим количеством памяти), кому-то лень возиться со скачиванием и установкой, а кто-то большую часть времени работает с телефона. В таких случаях можно попробовать онлайн-версию нейросети. Мы протестировали несколько сайтов, на которых можно бесплатно поработать со Stable Diffusion, и вот что из этого получилось.

stablediffusionweb.com

Этот онлайн-сервис работает со свежей моделью Stable Diffusion XL, которая вышла в июле 2023 года. Как пишут её создатели, Stable Diffusion XL натренирована на изображениях большего размера, чем более старые SD 1.5 и SD 2.1 — а значит, способна генерировать картинки с лучшей детализацией и почти разборчивым текстом.

Сайт stablediffusionweb.com выглядит довольно минималистично. Есть два поля для ввода запроса. В поле Prompt вписываем то, что хотим видеть на картинке (например, портрет человека, пейзаж или пиццу), в Negative Prompt — то, чего на ней быть не должно (обычно это картинки с плохой композицией, двойные головы, отсутствующие конечности и руки с множеством пальцев, которые так любят рисовать нейросети).

Есть выпадающий список со стилями, их тут очень много. При желании можно сгенерировать штук пятьдесят картинок с одним и тем же запросом, но в разных стилях. Среди них есть художественные направления (поп-арт, кубизм, импрессионизм), игровая стилистика (картинки в стиле Майнкрафта, Cyberpunk 2077 или Марио), имитация 3D, комиксов, акварели или пиксель-арта.

Сложных настроек или скриптов здесь нет. Нет и возможности загрузить своё изображение для работы с img2img или исправить уже сгенерированное с помощью inpaint. Также в бесплатной версии заблокированы настройки размера картинок (можно создавать только квадратные изображения размером 768х768 пикселей) и настройка производительности (судя по всему, влияет на количество шагов генерации).

Традиционно, начинаем тест нейросети с еды. Вводим запрос «food photography photo of a burger with cheese, maximum detail, foreground focus» (фуд-фото, фотография бургера с сыром, максимум деталей, фокус на переднем плане) и делаем несколько вариантов с этим запросом, но с разными стилями. Генерация одного изображения занимает примерно три минуты, при этом создаётся всего одна картинка.

Качество на удивление хорошее и сравнимо с Midjourney четвёртой версии: в картинках можно заподозрить работу нейросети, но грубых ошибок нет. А вот стиль влияет на результат не так сильно, как хотелось бы: у акварельного гамбургера (2) есть несколько акварельных пятен на фоне, но сам он не выглядит нарисованным. А у бургеров в стилях пиксельарт (3) и майнкрафт (4) есть лишь несколько кубических деталей.

Лучше всех вышел первый бургер, в стиле по умолчанию cinematic-default / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Теперь посмотрим, как получаются люди. Генерируем дедушку с чашкой кофе в стиле плёночных фото (стиль analog_film), в стиле по умолчанию и в стиле Cyberpunk 2077 (стиль game-cyberpunk game). Не слишком фотореалистично, пальцев маловато, но в целом неплохо. А вот стили в основном повлияли на цвет — у киберпанковского деда нет никаких кибер-имплантов, зато вместо красного костюма из запроса он переоделся в бирюзовый.

Больше всего стили повлияли на растительность на лице: у плёночного деда старомодные усы, у обычного — что-то среднее между небритостью и бородой, а у киберпанкового стильная бородка, словно он только что вышел из кибер-барбершопа / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Ещё один полезный инструмент на этом сайте — каталог картинок с описаниями. Открывается он кнопкой Prompt Database внизу страницы. Если никак не удаётся получить нужную картинку или вы никогда не имели дела с нейросетью, можно открыть этот каталог и по одному-двум ключевым словам найти сгенерированные другими пользователями картинки.

Под каждой картинкой есть поле с описанием — его можно копировать и использовать / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

huggingface.co

На сайте huggingface.co можно найти демо-версию более старой модели Stable Diffusion 2.1 и попробовать её в работе. Сразу видно, что не стоило называть интерфейс stablediffusionweb.com минималистичным — истинный минимализм ждал нас на huggingface.co.

Поля для описания Prompt и Negative Prompt, одинокий ползунок Guidance Scale в разделе продвинутых настроек и больше ничего — ни выбора стилей, ни соотношения сторон.

Интерфейс huggingface.co / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Проверим, как работает и что может онлайн-версия Stable Diffusion 2.1. Для разнообразия начнём с пейзажа и попросим нейросеть нарисовать его акварелью (prompt: watercolor painting, beautiful landscape, early morning, sun rising over the river and mountains). Нейросеть работает быстро — секунд за 15-20 она создала сразу четыре картинки. Получилось неплохо, действительно похоже на акварельные наброски на бумаге. Размер получившихся картинок — 768х768 пикселей.

На картинках видны потёки краски и даже текстура акварельной бумаги / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

С людьми нейросеть справляется гораздо хуже. По запросу «man eating sushi in a restaurant, portrait photo, realistic» плохо почти всё: реализма нет, суши выглядят очень странно, вместо рук знаменитые нейросетевые культяпки, а вместо палочек для еды — щепки.

Особенно жалко человека на второй картинке со сросшимися руками / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Теперь проведем тест на котиках. По запросу «photo of the red cat» Stable Diffusion 2.1 нагенерировал очень странных котов, у которых всё плохо и с реалистичностью,и с композицией.

Правый котик довольно живописен и неплохо бы смотрелся в качестве картины на стене. Но это точно не фотография / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

К сожалению, Stable Diffusion 2.1 подтвердил свою славу худшей модели Stable Diffusion. И в онлайн-версии, и на компьютере она выдаёт довольно посредственные (если не сказать хуже) результаты. Для сравнения, вот так справилась с этими же запросами Stable Diffusion XL с сайта stablediffusionweb.com — симпатично, в меру реалистично, есть работа с ГРИП и даже все пальцы на месте:

Красивые картинки в стиле Midjourney от Stable Diffusion XL / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

clipdrop.co

На этот сайт мы возлагали большие надежды. Именно на clipdrop.co создатели нейросети Stable Diffusion отправляют всех, кто хочет попробовать демо-версию свежей Stable Diffusion XL 1.0. К сожалению, попробовать её в работе на этом сайте так и не удалось: при попытке что-либо сгенерировать вылезало окошко с предложением оплатить PRO-аккаунт (хотя в тарифах предусмотрена и ограниченная бесплатная версия). Был это глюк или какие-то ограничения от создателей сайта, понять не удалось. Возможно, позже всё снова заработает и без платного аккаунта.

Красивый сайт, поработать на котором так и не вышло / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Но помимо генерации картинок, на сайте есть ещё парочка интересных инструментов на основе нейросети в Stable Diffusion. Это Uncrop (аналог Generative Expand от Adobe и Zoom Out в Midjourney) и Stable Doodle, позволяющий превратить набросок в полноценное изображение.

С помощью Uncrop удалось расширить картинку с киберпанковским дедушкой. С минуту ожидания, и нейросеть создала две приличных картинки и почему-то два чёрных квадрата. Возможно, на сервере действительно какие-то неполадки или слишком много пользователей. Стиль и цветовая гамма выдержаны, рукава у пиджака обзавелись пуговицами, всё хорошо.

На исходной картинке была вотермарка у в углу, и на расширенной версии она тоже появилась. Правда, нечитаемая / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Попробовать в деле Stable Doodle тоже не удалось. Поначалу всё шло неплохо — удалось сделать довольно неплохой набросок собаки, хоть модель и пыталась убежать. А вот превратить его в нейросетевую картинку уже не получилось — при нажатии на кнопку Generate вылезло окошко с предложением проапгрейдить аккаунт.

Видимо, портрет собаки придётся раскрашивать вручную / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт