Нейросети довольно интересная тема в это время. С их помощью делается много интересных вещей, но сейчас решил рассказать про Нейросеть Stable Diffusion. и её "Модификацию" Waifu Diffusion. Которая делает милых вайфу
Краткий F.A.Q\инфо перед началом
- Какие требования нужны для работы?
Видеокарта от Nvidia минимум 1xxx поколения. Минимум 4GB Видеопамяти. - Возможно Создавать что-то помимо "Анимэ"
Да, всё зависит от установленных датасэтов, на основе которых Нейросеть генерирует изображение.
Примеры сгенерированных изображений
Собственно изображения, которые я генерировал на своём ПК.
Это результат с минимальными запросами и настройками генерации.
Установка необходимого Софта
Перед началом установки нам нужно поставить несколько программ,
Благо это делается легко и очень быстро.
Chocolatey
С его помощью быстро установим остальное ПО.
Для установки нам нужно в меню пуска найти и запустить Windows Power Shell от имени администратора.
В ином случае, при обычном запуске в дальнейшем возникнут ошибки при установке ПО через командную строку.
Команда для установки Chocolatey
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Далее нажимаем Enter и подтверждаем все действия, после чего перезапускаем командную строку.
Git
В командную строку пишем следующее" choco install git ", после чего подтверждаем все действия.
Перезапускаем Командную строку в конце установки.
Python
Вписываем " choco install python --version=3.10.6 ".
Дожидаемся полной установки, всё подтверждаем и перезапускаем.
Установка Нейронной сети Stable Diffusion
Переходим сюда - Stable Diffusion Git
- После чего нажимаем Code -> Download ZIP
- Архив распаковываем в удобное для вас место
3. Находим файл Webui-user из запускаем его.
В папке два файла. Нужно выбрать файл типа .Bat. не путать с файлом типа Shell script
На этом моменте идёт скачивание и установка нужных программ и репозиторий.
Не волнуйтесь если кажется что ничего не происходит.
Установка может занять 30 минут и более.
После установки окно будет выглядеть примерно так.
Всё, Нейросеть почти установлена.
Осталось скачать Пак с "Весами" на основе которых будут генерироваться изображения.
Переходим сюда Тык
Нажимаем mirror и скачиваем файл. После скачивания. Заходим в папку с нейронкой и находим папку models а в ней переходим в Stable - Diffusion Туда и закидываем скачанный файл.
После того как закинули файл в нужную папку, снова запускаем Webui-user.
Ждём пока прогрузится, после чего он выдаст несколько ошибок и появится надпись "Нажмите любую кнопку для продолжения..."
После этого запускаем Webui-user ещё раз.
Ждём, и наконец радуемся.
Вот так выглядит окно готовой к работе нейронки.
Заходим в веб интерфейс
Для этого нам нужно ввести в браузере адрес показанный в командной строке.
Первым делом, в левом правом углу есть Stable Diffusion checkpoint
Там выбрал wd-v1-2-full.ckpt и подождал загрузку.
Всё. можно пользоваться.
txt2img
Наш первый, и наверное главный раздел, где происходит вся радость.
раздел prompt - Там вписываем наш запрос. На английском, через запятую.
Negative prompt - То что мы не хотим видеть. Что нейросеть будет исключать
Если вам нужно выделить какую-то часть запроса. к примеру Red eyes - То выделяем такой запрос примерно так - (Red eyes). Чем больше, тем сильнее запрос.
И наоборот, если мы хотим его ослабить, то пишем так - [Red eyes]
Sampling Steps - по умолчанию стоит 20.
Чем больше, тем лучше будет итог.
Sampling method - раздел с алгоритмами генерации, можете попробовать все и посмотреть на результаты. Сам пользуюсь Euler a и DDIM.
Width\height - ширина\высота изображения в пикселях.
Restore faces - при этом параметре создаются более проработанные лица.
Higres.fix - рекомендуется включать, если генерируете изображение более большого качества.
Batch count - количество генерируемых картинок.
batch size - размер генерируемых картинок.
CFG Scale - настройка "креативности" нейросети.
Меньше значение - более вариативная генерация.
большее значение - генерация больше придерживается запроса.
Генерация нашей Вайфу
Для примера я решил выбрать Genshin impact, а именно Hu tao
запрос составил так.
раздел prompt - 1girl,Touhou , izayoi sakuya, portrait, blush,
раздел Negative prompt - ((out of frame))
И оставил стандартные настройки,
После удовлетворяющего результата, нашу картинку можно отправить в Img2Img,
Функционал почти тот-же что и у txt2img. но в отличии от него, нейросеть отталкивается от загруженного изображения.
Мои итоговые изображения
Да, их немного, и их генерация занимала уже не малое время.
Самое главное, научиться правильно писать запросы и ставить акценты.
Тогда могут выходить хорошие изображения.
Так-что, это своего рода, тоже искусство:D