Для тех, кто пропустил, на канале уже есть полный гайд по установке и созданию своих первых изображений через визуальный интерфейс StableDiffusion.
Сегодня мы разберемся в основных понятиях, которые вы будете часто встречать при работе с нейросетями.
Дисклеймер: все изображения сгенерированы на коротких промптах, без негативных промптов, референсов и полировки. Они созданы лишь для того, чтобы показать разницу различных моделей, LoRa и дополнений.
Models (модели)
В основе всего лежат базовые модели. На данный момент Stability AI выпустили в открытый доступ модели v1.4, v1.5 и v2.0, v2.1. Это разносторонние модели, которые могут сгенерировать все что угодно. Достаточно лишь дать им побольше качественного промпта.
Но в этом и их недостаток. Если не уточнять каждую деталь, каждая новая генерация изображения может отличаться по стилю. Тогда на помощь приходят пользовательские модели или checkpoint.
В их основе лежат базовые модели, но натренированные на определенных данных, чтобы выполнять конкретные задачи. Здесь уже ограничением является только фантазия людей. Эти модели могут быть заточены как под классическую живопись, так и под аниме.
Также можно создавать и собственные модели. Например, можно объединить несколько понравившихся вам. Такой функционал доступен в установленном интерфейсе во вкладке Checkpoint Merger. Выбираете несколько моделей и задаете коэффициенты, с которыми эти модели будут объединены.
Что касается тренировки одной из базовой моделей под собственный стиль и изображения, эта тема слишком обширна. По ней я сделаю отдельную статью.
LoRa (Low-Rank Adaptation)
LoRa – это небольшие дополнения, которые добавляются поверх моделей. Они вносят изменения в определенные части изображения или их стиль. Можно считать их небольшим вариантом пользовательских моделей. За тем исключением, что их нельзя использовать в одиночку и нужно подобрать и подходящую для вас модель.
LoRa могут как вносить изменения в стиль изображения, так и помогать создавать определенных персонажей. Даже если вы не знаете, что хотите получить, посмотрите эти сайты и может что-то приглянется:
После того как мы подобрали интересующую нас LoRa и скачали, ее надо поместить в папку, где установлен StableDiffusion.
stable-diffusion-webui/models/Lora
Далее при генерации изображения нужно будет нажать на вот эту иконку и появится список установленных LoRa.
Активируем необходимую LoRa и задаем ей нужный коэффициент.
Вот результаты использования различных LoRa при одинаковой модели, промпте и сиде.
LoRa – это маленькие checkpoint'ы моделей. Они могут быть легко использованы, как для генерации определенных вещей, так и для полного изменения стиля. Огромным плюсом является их малый размер. Когда полноценная модель занимает от 2гб, LoRa в среднем занимает лишь 200мб.
Extensions (дополнения)
Напоследок разберем дополнения. Они предлагают различные дополнительные возможности. Часть помогает при генерации, часть влияет непосредственно на изображение. Сейчас разберемся с базовыми и самыми популярными из них.
Чтобы активировать дополнение, нужно нажать на графу Scripts и выбрать из выпадающего списка.
X/Y/Z plot
Полезная функция при генерации изображения. Создает график с заданными изменяющимися параметрами. Например, мы подобрали подходящий нам сид изображения. Теперь мы хотим подобрать оптимальное сочетание Sampling steps и CFG. Выставляем наши параметры по осям и задаем значения.
Теперь при генерации изображения нам выдаст подобный график. Ориентируясь по нему, выбираем нужные нам значения. Отключаем дополнения и генерируем с нашими параметрами.
Полный рабочий процесс для создания качественной иллюстрации я затрону в одной из следующих статей.
StylePile
StylePile слегка преобразует изображения, задавая им нужный стиль, настроение, тон. Также он может сделать его похожим на какого-то автора.
Это дополнение не является базовым и его нужно установить самостоятельно. Для этого переходим во вкладку Extensions, выбираем Install from URL и вставляем ссылку на дополнение (https://github.com/some9000/StylePile). После установки потребуется перезагрузить интерфейс.
Активируем дополнение в txt2img или img2img. Сразу у нас появляется много функций и вкладок. Их бояться не стоит. В меню Parameters мы настраиваем нужные нам пункты. Основное, с чем советую экспериментировать поначалу: Image type и Direction.
При создании иллюстрации после выбора определенного сида можно выставить параметры в режим Random и сгенерировать десяток изображений. Дальше выбрать нужное нам сочетание.
Остальные функции во вкладке Parameters довольно понятные и не требуют объяснения. А в остальных вкладках можно посмотреть примеры различных авторов, стилей, направлений и настроений.
О чем будет следующая статья?
Хотелось бы вам рассказать о еще двух важных дополнениях, которые улучшат вашу работу с иллюстрациями. Но гайды по каждому из них будут соразмерны с этой статьей.
Поэтому по ним выйдет отдельный материал. А после объяснения этих базовых вещей, будет пример полного рабочего процесса по созданию иллюстрации.