Найти в Дзене
proTechTalk

Изучение возможностей ИИ при генерации изображений на компьютере

Оглавление

В последние годы мало какая тема, связанная с искусственным интеллектом, привлекает столько внимания, как генераторы изображений. Эти мощные инструменты демонстрируют достижения моделей глубокого обучения в творческой и увлекательной форме. От причудливых, похожих на сон изображений, созданных в 2015 году с помощью Deep Dream от Google, до почти фотореалистичных творений таких генераторов, как Dall-E 2 от Open AI, Midjourney от Midjian и DreamStudio от Stable Diffusion, - мир искусства ИИ значительно расширился.

Еще более интересным является то, что теперь вы можете использовать возможности генераторов изображений прямо на своем компьютере, если он обладает достаточной вычислительной мощностью. В этой статье мы познакомим вас с генераторами изображений, использующими бесплатное программное обеспечение Stable Diffusion, разработанное исследовательской группой CompVis в LMU Munich в сотрудничестве с внешними партнерами и компанией Stability AI.

Как модели ИИ, так и обучающие данные, используемые в Stable Diffusion, находятся под относительно свободной лицензией. Фонд LAION (Large-Scale Artificial Intelligence Open Network) в 2022 году выпустил обширную базу данных, содержащую 5,85 млн. изображений и их описаний, которая послужила обучающими данными для Stable Diffusion. Эта база данных работает под лицензией Creative Commons, и хотя она не содержит самих изображений, в ней можно найти описания и ссылки на общедоступные материалы по изображениям в Интернете.

Стабильная диффузия на вашем компьютере

NMKD Stable Diffusion GUI предлагает пользователям Windows сравнительно простой старт, поскольку в качестве генератора образов предоставляет инсталлятор для всех компонентов Stable Diffusion.
NMKD Stable Diffusion GUI предлагает пользователям Windows сравнительно простой старт, поскольку в качестве генератора образов предоставляет инсталлятор для всех компонентов Stable Diffusion.

Как и Dall-E и Midjourney, Stable Diffusion имеет функцию перевода текста в изображение. Этот программный синтаксический анализатор, используя искусственный интеллект, генерирует новые изображения на основе текстовых описаний, стремясь привести их в соответствие с исходным текстом. Материал для генерации изображений Stable Diffusion берет из своих обучаемых моделей.

В этой статье мы познакомимся с двумя программами - NMKD Stable Diffusion GUI и Automatic 1111 for Stable Diffusion, разработанными для Windows. Каждая из них имеет свои уникальные достоинства и требования. В любом случае вам потребуется надежное аппаратное обеспечение, включая современную видеокарту (Nvidia или AMD) с объемом VRAM не менее 8 Гбайт и 16 Гбайт оперативной памяти. Такой набор аппаратных средств сродни хорошо оснащенному игровому ПК. Хотя эти инструменты можно использовать и на менее мощном ПК, будьте готовы к тому, что время обработки будет значительно больше.

NMKD: многообещающее начало

Обновление: Не отчаивайтесь, если поначалу NMKD не дает никаких результатов. Встроенная программа обновления загружает на компьютер новые, в основном исправленные версии.
Обновление: Не отчаивайтесь, если поначалу NMKD не дает никаких результатов. Встроенная программа обновления загружает на компьютер новые, в основном исправленные версии.

Команда, создавшая Stable Diffusion, выпустила исходный код своего программного обеспечения для создания изображений с помощью искусственного интеллекта в 2022 году, первоначально в виде бета-версии для избранной группы исследователей. Позднее они перешли на лицензию Open-RAIL, сделав Stable Diffusion доступным для всех заинтересованных сторон с августа 2022 года.

Установка Stable Diffusion может оказаться сложным процессом, особенно на системах Windows с 64-битной архитектурой. Однако бесплатный инструмент NMKD Stable Diffusion GUI значительно упростил эту задачу. Разработчик любезно просит внести добровольное пожертвование за скачивание. Доступны два инсталляционных пакета: с 3 ГБ модельных данных и без них (1 ГБ). В обоих случаях вы получите сильно сжатый 7z-архив, для извлечения которого требуется программа сжатия 7-Zip. NMKD Stable Diffusion GUI вместе с модельными данными распаковывается в папку, в результате чего размер папки на вашем носителе составит 7,6 ГБ.

Модели: Карты Nvidia занимают лидирующие позиции

Если у вас есть видеокарта Nvidia с объемом видеопамяти не менее 4 Гбайт и установлены последние драйверы Nvidia через Geforce Experience, то вы готовы к работе. Stable Diffusion, как и многие другие AI-приложения, оптимизирована под интерфейс Nvidia CUDA, который выполняет вычисления с плавающей точкой на шейдерных процессорах видеокарты.

После запуска программы StableDiffusionGui.EXE, находящейся в распакованном каталоге, вас встретит англоязычный графический интерфейс Stable Diffusion. В журнале программы, расположенном в нижней части главной страницы, будет указано, определилась ли ваша карта Nvidia для использования CUDA.

Стоит отметить, что с момента публикации этой статьи разработчик мог выпустить новые версии NMKD с различными улучшениями. Проверить наличие обновлений можно через строку меню в правом верхнем углу, обозначенную символом монитора со стрелкой, и выбрать пункт "Установить обновления".

Для карт AMD: Адаптация модели

Для пользователей видеокарт AMD (с объемом видеопамяти не менее 6 Гбайт) процесс запуска NMKD несколько сложнее. Это связано с необходимостью выполнения нескольких дополнительных шагов. Модель, поставляемая в комплекте с NMKD, не совместима с AMD из-за отсутствия интерфейса CUDA для видеокарт AMD. Хотя можно сконвертировать предоставленную модель для AMD, в наших тестах этот способ оказался ошибочным.

Более надежным вариантом является загрузка предварительно сконвертированной модели непосредственно от разработчика NMKD (размер 3,5 ГБ). Это опять же архивный файл в формате 7z, и содержащуюся в нем папку с именем "stable_diffusion_onnx" необходимо извлечь целиком в подкаталог "Models\Checkpoints" в папке программы NMKD, чтобы инструмент смог найти модель.

В программе нажмите на символ шестеренки в правом верхнем углу, перейдите на страницу настроек и в поле "Реализация генерации изображения" выберите " Stable Diffusion (ONNX - DirectML - For AMDGPUs)". Рядом с полем "Stable Diffusion Model" нажмите кнопку "Refresh List", в результате чего для выбора станет доступна запись "stable_diffusion_onnx". После настройки этих параметров вернитесь в главное окно генерации изображений.

Генерация изображений с помощью подсказок

NMKD имеет достаточно простой интерфейс с наглядным отображением функций и параметров. Для генерации изображений с помощью ИИ в первую очередь используется большое поле ввода в разделе "Prompt Settings", в котором описывается желаемое изображение как мотив для создания ИИ.

Чуть ниже расположено поле меньшего размера, в котором можно указать термины, которые не должны появляться в готовом изображении, что позволяет более точно настроить работу ИИ.

Встраивание текстовой инверсии - еще одна функция, позволяющая предоставить искусственному интеллекту примеры изображений, на основе которых он сможет получить желаемый результат.

Одним из важнейших факторов, существенно влияющих на время обработки, является ползунок " Generation Steps". Увеличение этого ползунка повышает уровень детализации генерируемого изображения.

Шкала "Prompt Guidance CFG Scale" определяет, насколько точно ИИ должен следовать описанию изображения. Чем точнее и детальнее описание, тем выше можно установить это значение.

Разрешение, находящееся в поле "Resolution", оказывает наиболее существенное влияние на время генерации изображения. Если видеокарта типа Nvidia Geforce RTX 4070 способна создать изображение размером 512x512 пикселей за несколько секунд, то более высокие разрешения могут потребовать от нескольких минут до нескольких часов терпения.

Улучшение описаний изображений: Советы по синтаксису

Экспериментируя с NMKD Stable Diffusion GUI или Automatic 1111, вы быстро поймете, что для достижения удовлетворительных результатов очень важно составлять точные и подробные описания изображений в подсказках. В идеале описание должно быть на английском языке, так как это позволяет Stable Diffusion получить доступ к более широкому набору данных.

Для более быстрого достижения результата можно задать определенный стиль описания изображения в подсказке. Например, для изображений, напоминающих фотографии, можно использовать такие термины, как "photorealistic". Можно даже ссылаться на конкретных художников или стили, чтобы направлять работу искусственного интеллекта. Например, если требуется создать изображение, напоминающее картину эпохи Возрождения, можно добавить в подсказку "'painting, in the style of Botticelli'".

Автоматический 1111: ИИ через браузер

Прозрачная установка: Automatic 1111 также доступен в виде инсталлятора для Windows в виде нескольких скриптов Python и Powershell, которые показывают, что они делают, в окне командной строки.
Прозрачная установка: Automatic 1111 также доступен в виде инсталлятора для Windows в виде нескольких скриптов Python и Powershell, которые показывают, что они делают, в окне командной строки.

У пользователей Windows есть еще один вариант взаимодействия со Stable Diffusion - Automatic 1111. Эта программа поставляется с удобным инсталлятором, который за один шаг устанавливает Python и все необходимые модули. Запуск EXE-файла сначала распаковывает установочные файлы в указанную папку. Только после этого можно приступить к собственно установке, дважды щелкнув на "A1111 (WebUI)", которая выполняется через скрипт в открытой командной строке. В процессе установки будет предложено принять решение о загрузке модели, что увеличивает время установки из-за значительного объема загрузки - 3,5 ГБ.

Однако необходимо отметить, что Automatic 1111 существенно отличается от NMKD. В ней реализован веб-интерфейс, доступный через браузер даже при работе на локальном компьютере. Преимущество такого подхода заключается в том, что управлять фронтендом для Stable Diffusion можно с других устройств в той же локальной сети, например с ноутбука или планшета, не вставая с дивана.

Другой подход: Автомат 1111 хочет работать через браузер. Для этого стартер запускает веб-сервер, входящий в комплект поставки, и открывает его адрес на локальном хосте.
Другой подход: Автомат 1111 хочет работать через браузер. Для этого стартер запускает веб-сервер, входящий в комплект поставки, и открывает его адрес на локальном хосте.

Когда вы откроете ссылку "A1111 (WebUI)", вам будут предложены опции, позволяющие настроить работу с программой. Если ваша видеокарта имеет менее 8 Гбайт видеопамяти, выбор опции "Low VRAM" позволяет снизить требования к памяти. На том же компьютере, где запущен "Автомат 1111", доступ к интерфейсу осуществляется через http://127.0.0.1:7860 в браузере. Если вы обращаетесь к нему с другого устройства в сети, используйте адрес http://[IP-адрес]:7860, заменив "[IP-адрес]" на IPv4-адрес компьютера, который можно узнать, выполнив команду "ipconfig" в командной строке Windows.

Для обеспечения бесперебойной работы необходимо также настроить брандмауэр Windows на разрешение входящего трафика на порт 7860. Настроить его можно в разделе "Брандмауэр и защита сети" > "Дополнительные параметры" > "Входящее правило" > "Новое правило".

Автоматическое правило 1111 изначально отдает предпочтение видеокартам Nvidia. Для пользователей AMD необходимо выполнить дополнительное действие. После закрытия всех экземпляров Automatic 1111 откройте новое окно командной строки и введите следующую команду:

  • git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stablediffusion-webui-directml && git submodule init && git submodule update

Далее с помощью текстового редактора измените пакетный файл "webuiuser.bat" в подкаталоге "stable-diffusion-webui-directml". В строку "set COMMANDLINE_ARGS=" добавьте следующее:

  • --opt-sub-quad-attention --lowvram --disable-nan-check --skip-torch-cuda-test

После внесения этих изменений выполнение команды "webui-user.bat" приведет к запуску веб-интерфейса и установке необходимых дополнительных модулей.

Множество опций для опытных пользователей: Если вам нужны дополнительные возможности для тонкой настройки, вы найдете их в Automatic 1111, например, чтобы повлиять на стиль изображения с помощью "Sampling method".
Множество опций для опытных пользователей: Если вам нужны дополнительные возможности для тонкой настройки, вы найдете их в Automatic 1111, например, чтобы повлиять на стиль изображения с помощью "Sampling method".

Стабильное распространение: Лицензионные соображения

Графические данные, генерируемые Stable Diffusion, имеют различные варианты использования благодаря лицензированию. Обучающие данные и вседозволенность ИИ позволяют использовать результаты не только в личных, но и в коммерческих целях в соответствии с лицензией "Creative ML Open RAIL-M".

Однако важно отметить, что эта лицензия не является традиционной свободной лицензией с открытым исходным кодом. Она сопровождается определенными ограничениями. Согласно тексту лицензии, запрещается использовать Stable Diffusion для нарушения местного законодательства. Кроме того, строго запрещено использовать Stable Diffusion для создания ложной информации с целью нанесения вреда другим людям, создания дискриминационного или оскорбительного контента, предоставления медицинских консультаций, оказания помощи правоохранительным органам путем составления профилей или предоставления юридических консультаций. Обязательно ознакомьтесь с конкретными условиями, изложенными в лицензии, и соблюдайте их.

Резюме

Генераторы изображений на основе искусственного интеллекта, такие как Stable Diffusion, открывают захватывающие возможности для художественного самовыражения и творчества. Благодаря наличию таких инструментов, как NMKD Stable Diffusion GUI и Automatic 1111 for Stable Diffusion, вы можете исследовать мир искусства ИИ прямо со своего компьютера. По мере развития искусственного интеллекта мы можем ожидать появления еще более удивительных творений в области искусства, создаваемого искусственным интеллектом. Так почему бы не отправиться в путешествие по творчеству искусственного интеллекта уже сегодня и не позволить своему творческому потенциалу расцвести с помощью Stable Diffusion?

Для тех кто увлекается генерацией изрбражений со Stable Diffusion, есть хорошая ность, карты Nvidia КЕЧ 4070 дешевеют:

GeForce RTX 4070 падает в цене в ответ на конкуренцию со стороны Radeon от AMD
TechTalk16 сентября 2023

PS: Дорогие читатели не забывайте ставить лайки если Вам понравилась статья, это помогает продвижению канала. Спасибо заранее!

⚡⚡⚡ Друзья! Если вам нравится то, что я делаю, и вы хотите, чтобы это продолжалось, приглашаю поддержать меня и внести свой посильный вклад. Вместе мы сила! Спасибо за вашу поддержку! ⚡⚡⚡

ЮMoney