42 подписчика

Как работать с нейросетью Stable Diffusion.

15 сентября 202415 сен 2024

7 мин

Stable Diffusion — это одна из самых передовых нейросетей, предназначенная для создания изображений. Программа была разработана группой Stability AI и стала доступна для общего пользования в августе 2022 года. Stable Diffusion способна создавать высококачественные изображения на основе текстовых описаний, дополнять наброски и изменять изображения-образцы по своему усмотрению. Программа распространяется бесплатно, а открытый исходный код позволяет установить Stable Diffusion на собственный компьютер и использовать его вычислительные ресурсы. Однако есть и некоторые ограничения: не все устройства соответствуют системным требованиям, а для использования полной версии Stable Diffusion необходимо разбираться в процессе установки программы. Тем не менее, энтузиасты уже создали на основе этой нейросети различные сайты, приложения и боты. Stable Diffusion представляет собой инновационный инструмент, способный создавать впечатляющие изображения на основе текстовых описаний. Принцип работы этой

Оглавление

Как создать изображение в Stable Diffusion с помощью ClipDrop, Stability AI и других инструментов
Как составить запрос в Stable Diffusion
Несколько советов, которые помогут составить эффективный запрос

Stable Diffusion — это одна из самых передовых нейросетей, предназначенная для создания изображений.

Программа была разработана группой Stability AI и стала доступна для общего пользования в августе 2022 года. Stable Diffusion способна создавать высококачественные изображения на основе текстовых описаний, дополнять наброски и изменять изображения-образцы по своему усмотрению.

Программа распространяется бесплатно, а открытый исходный код позволяет установить Stable Diffusion на собственный компьютер и использовать его вычислительные ресурсы.

Однако есть и некоторые ограничения: не все устройства соответствуют системным требованиям, а для использования полной версии Stable Diffusion необходимо разбираться в процессе установки программы.

Тем не менее, энтузиасты уже создали на основе этой нейросети различные сайты, приложения и боты.

Stable Diffusion представляет собой инновационный инструмент, способный создавать впечатляющие изображения на основе текстовых описаний. Принцип работы этой нейросети заключается в обработке обширного массива данных, где каждое изображение ассоциируется с соответствующим описанием. В процессе обучения модель анализирует закономерности расположения пикселей и впоследствии генерирует изображение, основываясь на полученной информации.

Нейросети Dall-E 3 и Midjourney работают на серверах компаний, поэтому пользователь не может полностью контролировать процесс. Некоторые запросы не проходят из-за правил или законов, а у некоторых конкурентов нет таких функций. Например, в Stable Diffusion можно создать картинку по контуру или обучить модель на своих данных.

Stable Diffusion способен воспроизводить стили всех художников, начиная от мастеров эпохи Возрождения и заканчивая современными авторами концепт-артов для видеоигр. С помощью этой нейросети можно создавать изображения, объединяя стили таких художников, как Ван Гог и NFT-артист Beeple.

Однако этот подход вызывает этические вопросы, поскольку нейросеть обучалась на множестве произведений искусства без согласия их авторов. Это касается как работ известных художников, так и любительских изображений, найденных на сайтах Pinterest и DeviantArt.

Для решения этой проблемы был создан сайт Have I Been Trained, который позволяет проверить, использовались ли ваши работы для обучения Stable Diffusion или Midjourney.

Создавать ассеты для игр теперь стало ещё проще. Нейросеть можно интегрировать в игровой движок Unreal Engine, чтобы генерировать внутриигровые предметы по описанию и сразу помещать их в игровое пространство.

Следующий уровень интеграции — генерация локации в виртуальной реальности в реальном времени с помощью Stable Diffusion и других нейросетей.

Stable Diffusion можно использовать не только для создания отдельных картинок, но и для создания покадровой анимации и совмещения сгенерированных изображений в полноценные ролики.

Функция Outpainting позволяет бесконечно дорисовывать готовое изображение и генерировать фон вокруг готовой картинки.

Stable Diffusion можно использовать для создания набросков. Нейросеть сама дорисует детали и фон. Так родители превращают детские рисунки в фотореалистичные картины, а художники пользуются функцией, чтобы сократить время создания арта.

Есть и более сложный сценарий — отрисовывать отдельные детали изображения с помощью нейросети, а потом соединять их с помощью инструментов «Фотошопа». Для удобства Stable Diffusion уже интегрировали в программу.

Stable Diffusion придерживается принципов открытости: исходный код нейросети опубликован на «GitHub». При этом не обязательно уметь программировать, чтобы его запустить. Огромное сообщество энтузиастов придумало более простые способы.

Есть два основных способа пользоваться Stable Diffusion.

1. Через сайт или приложение. Не требует знания кода или доступа к вычислительным мощностям — генерация происходит на сторонних ресурсах. Минусы: онлайн-версии Stable Diffusion ограничены по функциям, разрешению картинок и качеству генерации. Часть возможностей платная.

2. Через программу с графическим интерфейсом. Гораздо меньше ограничений, результаты выходят намного качественнее. Интерфейсы различаются удобством использования и установки. Минусы: нужно обладать компьютером, который подходит под системные требования.

Как создать изображение в Stable Diffusion с
помощью ClipDrop, Stability AI и других инструментов

ClipDrop — это веб-сайт, который позволяет генерировать изображения с помощью Stable Diffusion XL. На сайте можно выбрать один из готовых стилей, таких как аниме, оригами, цифровой арт или комикс, или же создать свой уникальный стиль.

Google Colab — это официальный сервис Google, который позволяет запускать код на чужих вычислительных мощностях. Однако при каждом запуске необходимо ждать загрузки библиотек и моделей.

Сервис полностью бесплатный, но количество генераций ограничено периодом доступа к нейросети, который обычно составляет несколько часов. После истечения срока доступа можно загрузить модель заново.

HuggingFace — это платформа, на которой пользователи могут публиковать различные модели Stable Diffusion, которые можно использовать онлайн в один клик. Сервис бесплатный, а количество генераций не ограничено. Настройки обычно не могут быть изменены.

Mage.Space — это простой в использовании сервис, который позволяет генерировать изображения с помощью Stable Diffusion. Используется версия SDXL, поэтому генерирует хорошо. Сервис бесплатный и безлимитный, но имеет ограничение в 25 или 50 шагов генерации. После регистрации сгенерированные изображения сохраняются в галерее.

Как составить запрос в Stable Diffusion

Если вы уже использовали Midjourney, то можете применить те же навыки составления запросов к Stable Diffusion. Мы подробно описывали, как это сделать. Однако в Stable Diffusion нет команд с двумя тире, таких как «--beta» и «--s», и нельзя разделять части запроса двоеточиями «::», вместо этого используется запятая.

Что означают настройки в генераторах Stable Diffusion:

Steps — это количество шагов, которые нейросеть делает при генерации изображения. Чем больше шагов, тем лучше результат, но тем больше времени требуется для обработки запроса. По умолчанию установлено 50 шагов.

Classifier Free Guidance — это параметр, который влияет на то, как нейросеть интерпретирует запрос. Если поставить 3, то получится реалистичное изображение, но оно будет не таким ярким и контрастным.

Seed — это стартовый шум, который помогает нейросети создать картинку. По умолчанию он случайный, поэтому при одном и том же запросе получаются разные изображения. Но если использовать конкретное числовое значение сида, то при смене запроса картинка будет похожей. Всего существует около 16 миллиардов сидов.

Resolution — это размер изображения. Чем он больше, тем дольше будет генерация.

Чтобы составить запрос в Stable Diffusion, нужно продумать идею, определить объект, фон и стиль изображения. Также нужно указать дополнительные характеристики, например, освещение.

Несколько советов, которые помогут составить
эффективный запрос

Стандартный запрос состоит из объекта, фона, стиля и дополнительных описаний качества картинки, освещения и других характеристик. Например, cat on the home, night city, lighting, skyscraper.

Stable Diffusion придаёт больший вес первым словам, но может пропустить то, что вы указали в конце. Вы можете перемещать части своего запроса и получать кардинально разные результаты. Например, если вас не устраивает качество человеческого лица, перенесите его описание ближе к началу.
«Вес» каждого элемента запроса можно указать вручную: например, в DreamStudio его указывают после двоеточия со значением от 0 до 100. Получается вот так: red:50, green:50. В веб-интерфейсах для этого используют другую запись: (red:1.5) и (green:0.1).
Чем подробнее вы опишете свой запрос, тем лучше будет результат. Арты, неотличимые от созданных людьми, часто имеют около пяти-семи строк текста в запросе. Например, если хотите высокой детализации, добавляйте «highly intricate, ultra-detailed, 4k» и имена художников, рисующих в похожих стилях. Можно прописывать в запросе всё сразу.
Не бойтесь повторяться в запросах — так нейросеть попытается понять, к чему вы больше всего стремитесь. Например, если вы хотите передать мрачное настроение, то одновременно используйте слова «темно», «мрачно», «плохо освещено», «страшно», «хоррор».
С ходу придумывать запросы сложно, тем более так, чтобы результаты сразу получались качественными. Проще всего подсматривать запросы у других пользователей, чтобы искать вдохновение или нужные вам стилизации — для таких целей существуют сайты-промптеры. Совмещайте детали из разных запросов, удаляйте ненужное, добавляйте своё — так результаты будут получаться более разнообразными.
Пользуйтесь специализированными сервисами. Промптеры помогают составить идеальный запрос по выбранным критериям.
Чтобы нейросеть сгенерировала, то что вы имели в виду, порой приходится перебирать десять модификаций одного и того же запроса.

Stable Diffusion — мощная нейросеть, возможности которой сравнимы с Midjourney и Dall-E 3. В отличие от конкурентов, это бесплатный проект с открытым исходным кодом, поэтому возможностями алгоритма может пользоваться любой и даже разворачивать его на своём ПК.

Как работать с нейросетью Stable Diffusion.

Как создать изображение в Stable Diffusion с помощью ClipDrop, Stability AI и других инструментов

Как составить запрос в Stable Diffusion

Несколько советов, которые помогут составить эффективный запрос

Как создать изображение в Stable Diffusion с
помощью ClipDrop, Stability AI и других инструментов

Несколько советов, которые помогут составить
эффективный запрос