Найти тему
Лайфхакер

Вышла новая нейросеть Stable Diffusion. Она генерирует картинки по описанию

Создавать изображения можно прямо в браузере. Чем сложнее запрос, тем лучше результат.

Разработчики нейросети Stable Diffusion, ранее доступной только в бета-версии, выложили проект в открытый доступ. Теперь пробовать сервис для преобразования текстовых запросов в изображения может любой желающий.

Проще всего протестировать Stable Diffusion на Hugging Face, но на сайте длинные очереди: один запрос обрабатывается примерно за 5 минут. Через платформу DreamStudio всё работает куда быстрее, но нужен аккаунт (авторизоваться можно через учётную запись Google или Discord).

Кроме того, в DreamStudio каждому пользователю даётся ограниченное число кредитов, которые можно тратить на генерацию. Чем больше картинок и выше разрешение, тем дороже выходит каждая итерация. Чтобы восстановить ранее сгенерированные картинки, тоже нужно тратить кредиты, так что долго развлекаться не получится.

Генерация в Stable Diffusion через DreamStudio / Лайфхакер📷
Генерация в Stable Diffusion через DreamStudio / Лайфхакер📷

Также проект выложили на GitHub. Пока что для работы требуется компьютер с видеокартой NVIDIA и 6,9 ГБ VRAM, в будущем планируется добавить поддержку видеочипов AMD, включая Apple M1/M2.

Насколько хорошо всё работает? Зависит от пользователя. Чем сложнее и точнее запросы, тем больше шансов на крутые результаты. Например, вот результаты по фразе «Дейенерис Таргариен в свадебном платье с драконом в стиле Альфонса Мухи»:

Иллюстрация: Лайфхакер, Stable Diffusion📷
Иллюстрация: Лайфхакер, Stable Diffusion📷

Это — «Волшебник Йода в киберпанк-городе».

Иллюстрация: Лайфхакер, Stable Diffusion📷
Иллюстрация: Лайфхакер, Stable Diffusion📷

А это — «Гарри Поттер ужасы». Пугать-то оно пугает, но совсем не так, как должно было.

Иллюстрация: Лайфхакер, Stable Diffusion📷
Иллюстрация: Лайфхакер, Stable Diffusion📷

Иными словами, думать вместо себя нейросеть не заставишь: для внятного результата надо самому продумать, что хочешь получить на выходе.

Stable Diffusion позволяет настраивать точность соответствия запросу, число шагов и прочие параметры. Максимально возможное разрешение — 1024 × 1024 пикселя, одновременно можно вывести до 9 картинок. Увеличивать разрешение нейросеть не умеет, для этого придётся полагаться на сторонние программы.

Если опробуете сервис, делитесь результатами в комментариях!

Читайте также 🧐