Здравствуйте, друзья!
12 июня 2024 года компания StabilityAI наконец-то выпустила Stable Diffusion 3 Medium. Я не ожидал, что это произойдёт так скоро, и был настроен довольно скептически. Мне казалось, что информация, которая появлялась в интернете, не более чем попытки людей привлечь внимание. Но, к моему удивлению, это произошло.
Давайте попробуем установить Stable Diffusion 3 Medium на наш ПК и узнаем, какие новые и интересные функции появились в этой версии по сравнению с предыдущими.
Для обычного ознакомления не обязательно устанавливать Stable Diffusion 3 — его можно протестировать онлайн по ссылке ниже. Однако для тех, кому этого недостаточно, мы рассмотрим несколько способов установки локально.
Для начала нам нужно перейти на страницу StabilityAI на сайте Hugging face и создать новую или войти в существующую учетную запись и подписать лицензию некоммерческого использования. Без этого шага увы, но нам не дадут ничего скачать.
Подтверждение это простая процедура, когда мы вводим имя, адрес электронной почты и еще чего то там и ждём заветного письма на почту. Письмо прилетело, жмем на ссылку и все, можно начинать скачивать.
Если вы хотите использовать Stable Diffusion 3 Medium в коммерческих целях, будучи законопослушным гражданином :-) , вам необходимо связаться со StabilityAI и запросить лицензию на коммерческое использование модели. После получения подтверждения лицензии вы сможете с чувством выполненного долга идти и качать модель SD3 и текстовые кодировщики для него.
Переходим в раздел Files and versions и качаем файлы которые необходимы нам для работы SD3. На странице уже доступно несколько типов файлов и если у вас более или менее мощная видеокарта, выбор формата fp16 будет предпочтительным, так как он позволит достичь лучшего баланса между производительностью и точностью, хотя тут я не совсем уверен, огромной разницы в скорости или качестве между fp16 и fp8 я не увидел, но я торопился и тесты были очень непродолжительными.
В общем вам качать вот эти 4 файла по ссылкам ниже:
sd3_medium_incl_clips_t5xxlfp16.safetensors
clip_g.safetensors
clip_l.safetensors
t5xxl_fp16.safetensors
Файл sd3_medium_incl_clips_t5xxlfp16.safetensors — это файл параметров нейронной сети для модели Stable Diffusion 3 (SD3). Он содержит обученные веса и смещения модели SD3.
Файлы clip_g.safetensors, clip_l.safetensors, t5xxl_fp16.safetensors это текстовые кодировщики, которые преобразуют текст в числовые представления, позволяя нейросети понимать естественный язык.
Так. Мы все скачали и теперь самое время определиться какой интерфейс нам использовать для работы с SD3. И как оказалось, что выбор весьма невелик. На момент написания статьи модель SD3 возможно запустить в интерфейсе Stable SwarmUI и ComfyUI.
Если вы новичок и слово ComfyUI вам ни о чем не говорит или вселяет ужас, то тогда у вас один вариант, это установка SwarmUI со страницы разработчика. Также её возможно установить из оболочки Stability Matrix, но у меня по непонятной причине версия из Stability Matrix сыпала ошибками при установке. Вам же стоит попробовать её, поскольку процедура установки довольно простая и не нужно никаких дополнительных танцев с бубном. Если вы так же как и я столкнулись с проблемами при установке, то давайте рассмотрим другой вариант, точнее два.
Первый — установка через терминал. Для этого создаем папку, обзываем её Stable SwarmUI или еще как-то, как вам понравится. Открываем её и в адресной строке проводника пишем cmd. Открывается окно терминала в котором нам нужно указать команду которая пойдет на Git разработчика и скачает там для нас этот самый Stable Swarm.
git clone https://github.com/Stability-AI/StableSwarmUI.git
Вставили? Жмите Enter и ждите, но недолго. Файлы из репозитория скачиваются быстро. Как только все скачалось, ищете в папке файл launch-windows.bat и смело запускаете его, далее процедура чем то напоминает процесс установки игры или какой то программы. Ничего сложного и такого, на чем следует заострять внимание.
И второй способ, самый как мне кажется простой и ленивый. Идете по ссылке и скачиваете установочный файл для Windows.
Запускаете его. Скачиваются необходимые для работы библиотеки. Ну и, собственно, начнется непосредственно установка самого Stable Swarm.
Установщик дотошный и начнет от вас требовать выбрать язык интерфейса, потом предложит выбрать тему оформления, если вы выберете Custom. Далее поинтересуется, кто и где будет пользоваться, и если вы не планируете доступ по сети, то выбирайте первый вариант. Дальше можно особо не вникать, выбрать вариант с установкой ComfyUI (Local) и жать Next. На следующей странице у вас спросят какую модель и для какой версии скачивать. Я не выбрал ни одну, потому как мы собираемся пользовать свою собственную и будем её сами помещать куда надо. Это, кстати, сэкономит вам минимум 6 гигабайт места и сколько-то минут драгоценного времени.
Наша главная задача добраться вот до этого пункта, ниже:
Смело жмём Yes, I am sure, Install now и можно бежать за кофеем.
По завершении загрузки и установки нам нужно скопировать модели, которые мы качали в начале в папку Stable SwarmUI - Models, там ищем папку Stable Diffusion, и копируем в нее скачанный файлик sd3_medium_incl_clips_t5xxlfp16.safetensors.
Также поступаем с остальными тремя файлами. Ищем в папке Models папку Clips и копируем в неё оставшиеся три файла. Если вдруг этой папки нет, создаём её. Только не перепутайте, нам нужна именно Clips, не clip_vision.
С установкой и копированием закончили. Теперь можно запускать Stable SwarmUI. Интерфейс знакомый и похож на другие, думаю, если вы раньше "общались" с другими нейросетями, то здесь точно не запутаетесь.
Перед тем как начать что-то генерировать, можно настроить интерфейс, сменить язык на родной, если нужно, погулять по настройкам и включить/выключить нужное/ненужное.
С настройками закончили и можно уже генерировать, но не забудьте выбрать модель SD3. Сделать это можно в левом нижнем углу интерфейса. Нажимаем, выбираем нашу модель.
Для нормальный работы модели SD3 необходимо выставить вот эти значения.
Steps - 28 \ CFG Scale - 4.5 \ Variation Seed - -1 \ Variation Seed Strength - 0 \ Sampler - DPMPP- 2M \ Scheduler - sgm_uniform
С этим вариантом закончили. Всё надеюсь понятно и вам остается только генерировать и генерировать.
Stable Swarm я запускал впервые и как оказалось здесь есть возможность работы в ComfyUI. Находим вверху экрана вкладку Comfy Workflow. Чтобы начать работу, нам нужно загрузить рабочие пространства отсюда. Всего существует три варианта: базовый, мультипромпт и пространство с подключённым апскейлером. Давайте загрузим одно из рабочих пространств, жмём кнопку «Load» и в окне проводника выбираем понравившееся рабочее пространство.
Для того чтобы узреть силу SD3 нужно конечно же сначала загрузить модели и текстовые кодировщики. Для этого в разделе «Загрузка моделей» выбираем те модели, которые уже загрузили ранее.
В окне K-sampler выставляем все параметры так же как и при работе с самим Stable Swarm. Если вдруг забыли, то вот вам скриншот, ну или используйте свои собственные.
В поле «Input» нам нужно ввести чего мы там хотим нагенерировать. Тут же и негатив присутствует. Куда ж без него то. Если очень нужно выбираем рандомный сид или какой-то определенный (random/fixed).
Жмём «Queue Prompt» ну или по старинке Ctrl+Enter и ждём, пока загрузится модель и наш промпт пройдет через все круги ада узлы. Очень удобно в ComfyUI наблюдать за прогрессом генерации. В процессе использования быстро приходит понимание принципов работы и тогда Comfy уже не кажется чем то страшным, и даже наоборот, становится белым и пушистым полезным помощником.
Откровенно говоря, мне не очень понравилось, как работает ComfyUI в Stable Swarm. Вполне вероятно, что это проблема моей операционной системы или моего железа, но меня постоянно преследовали какие то заикания, зависания и спотыкания. Несколько раз у меня ни в какую не хотело загружаться рабочее пространство и помогала только перезагрузка сервера.
Возможно это удобный интерфейс но я привык к этой версии ComfyUI. Это обновляемая портативная версия, которая упростит работу с SD3M.
Если вам тоже не понравилось как ведет себя Swarm то вы можете скачать ComfyUI. Устанавливать долго ничего не нужно. Скачиваем архив по ссылке выше, распаковываем куда удобно и идем проверять обновления, а они будут, потому что ComfyUI обновили в преддверии выхода SD3. Сам процесс обновления быстрый и простой, идем в папку update и запускаем файл update_comfyui.bat, после процесса обновления самого ComfyUI запускаем файл update_comfyui_and_python_dependencies.bat и обновляем зависимости.
А еще давайте установим один очень нужный и полезный инструмент ComfyUI Manager. Он нам ещё пригодится. Переходим в папку ComfyUI - custom nodes - вызываем в этой директории терминал, командой "cmd" и прописываем или вставляем эту команду:
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
Готово.? Надеюсь что да.
После этого можем запускать ComfyUI, используя файлы в корневой директории, в зависимости от того, на каком оборудовании вы планируете с ним работать. Варианта 2: работа на видеокартах Nvidia или на процессоре.
Как и в случае со Stable Swarm, нам естественно нужно будет скопировать модель в папку Models-Checkpoint, а текстовые кодировщики — в папку Clip.
Так. Ну, вроде бы всё загрузили, скачали, установили, запустили. Осталось только загрузить рабочее пространство для SD3M, нажав на кнопку Load, так же, как мы с вами делали в Stable Swarm. Если вдруг вы столкнетесь с ошибкой, где один из узлов будет покрашен в красный цвет, как на скриншоте, то это как раз тот случай, для которого мы с вами и устанавливали менеджер узлов.
Чтобы быстро исправить ошибку и не лазать в джунглях интернета в поисках решения проблемы, жмём на Manager, выбираем Install Missing custom nodes и смотрим, чего не хватает для нормальной работы нашему пространству. Напротив каждого пункта будет кнопочка Install. Смело жмём на все присутствующие в этом окне, ждём окончания установки и перезагружаем интерфейс, хотя в некоторых случаях будет достаточно и кнопки Refresh.
Дальше всё по старой схеме, описанной для Swarm. Загружаем модели. Пишем запросы позитивный и негативный если нужно, выставляем необходимые настройки и жмем Queue Prompt. Радуемся результату или плачем в зависимости от того, чего вы ждали от SD3.
Вроде бы всё рассказал.
В заключение сказать пока особо нечего. Один день использования — это далеко не показатель. На первый взгляд, да, что-то новое, интересное.. Теперь мы можем генерировать текст на довольно приемлемом уровне. Изменилось качество генерируемых изображений, в лучшую сторону. Приятно удивляет скорость генерации изображений (по крайней мере в моём случае). Конечно и без косяков и болячек не обошлось. Но самое важное это то, что SD3 уже здесь и сейчас. Остальное вопрос времени и надеюсь, что люди по настоящему увлечённые, энтузиасты, со временем всё допилят, и будет нам радость и красивые картинки :-)
Прощаюсь с вами. Всего доброго вам и до новых встреч.
Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.