Найти в Дзене
Вячеславный интернет

Flux - генерируем картинки. разбираемся в диффузионных моделях. Составляем промпты

Stable Diffusion, Flux, Midjourney, AdobeFirefly, DALL-E, YandexART - Генеративные модели нейросетей, способные создавать изображения по текстовому запросу (промпту), они обучены на огромных базах данных, благодаря чему, они могут понимать связь между словами и визуалами. В этой статье разберёмся с вами, как работают такие нейросети, как генерировать картинки и составлять правильный промпт на примере Flux AI. Вышеперечисленные популярные нейросети являются диффузионными, их основной принцип генерации следующий: они из первоначального гауссовского шума поэтапно восстанавливают картинку, ориентируясь на текстовый запрос. Читать Википедию Они на каждом шаге учатся предсказать какой будет этот случайный шум, пока не получат "изначальное" очищенное изображение. Stable Diffusion одна из самых популярных моделей, разработанная компанией Stability AI, и являющаяся открытой для модификаций (свободный исходный код), тем самым каждый разработчик может скачать и установить эту модель себе на компь
Оглавление

Stable Diffusion, Flux, Midjourney, AdobeFirefly, DALL-E, YandexART - Генеративные модели нейросетей, способные создавать изображения по текстовому запросу (промпту), они обучены на огромных базах данных, благодаря чему, они могут понимать связь между словами и визуалами. В этой статье разберёмся с вами, как работают такие нейросети, как генерировать картинки и составлять правильный промпт на примере Flux AI.

Немного теории

Вышеперечисленные популярные нейросети являются диффузионными, их основной принцип генерации следующий: они из первоначального гауссовского шума поэтапно восстанавливают картинку, ориентируясь на текстовый запрос.

картинка из Википедии
картинка из Википедии

Читать Википедию

Они на каждом шаге учатся предсказать какой будет этот случайный шум, пока не получат "изначальное" очищенное изображение.

Stable Diffusion одна из самых популярных моделей, разработанная компанией Stability AI, и являющаяся открытой для модификаций (свободный исходный код), тем самым каждый разработчик может скачать и установить эту модель себе на компьютер, обучить её, настроить всякие фильтры и параметры, и потом пользоваться сколько угодно, закрывая различные потребности. По этому сейчас появляется куча сервисов, как платных так и бесплатных, разработанных на базе этой модели.

Flux (Флакс) - новая модель, разработанная бывшими создателями Stable Diffusion - Black forest labs, которая использует гибридную архитектуру, сочетающую трансформеры и диффузионные методы. Пользователи на форумах утверждают, что Флакс генерирует картинки круче, чем Стейбл Диффьюжн, изображения получаются детализированнее, а так же, нейросеть лучше понимает какие-то более тонкие промпты.

Про остальные модели я частично уже писал в своём блоге, вот тут, к примеру, про ДАЛЛ-И.

Создание картинок во Flux

Я решил, что не буду совсем углубляться в установку и настройку специальных программ и нейросетей на компьютер, так что расскажу про онлайн-сервисы, в которых можно быстро сгенерировать картинку по запросу, используя разные модели Flux.

ComfyUI
ComfyUI
-4

А то это затянется надолго, вы устанете читать, и скорее всего пропустите эту занудную часть, перейдя сразу к более удобным и доступным вариантам.

Вот тут вы можете посмотреть на пример моего занудства: https://dzen.ru/a/aASCW5in8E2cjDgO

И так, самый доступный и удобный вариант "пощупать" Flux это сайт сообщества гиков huggingface.co, где пользователи выкладывают свои надстроенные ИИ-проекты, и их можно запускать прям в Web-версии.

FLUX.1 [Schnell] - a Hugging Face Space by black-forest-labs

Тут сами ребята из Black forest labs выложили модель Flux, которая базовая, начальная, первая... в общем, типо для разработчиков, и на ней можно безлимитно генерировать картинки.

Окно где вводится промпт
Окно где вводится промпт
Окно с дополнительными настройками генерации
Окно с дополнительными настройками генерации

Зарубежные нейросети лучше понимают промпты на английском языке, так что приучите себя на постоянной основе пользоваться Гугл переводчиком или крутым нейросетевым переводчиком DeepL, он у меня открыт постоянно))

DeepL Translate: The world's most accurate translator
-7

И вот я быстренько перевёл свой промпт:

Красная кошка сидит на крыше дома, луна, неоновый свет, HD качество, суперреализм

На английский:

Red cat sitting on the roof of a house, moon, neon light, HD quality, super realism

Так хочется создать картинку именно с красной кошкой, но у англосаксов "красный" и "рыжий" это одно прилагательное... печаль. Может использовать оттенок кримзон?

Копируем текст промпта в соответствующее поле:

-8

Увеличиваем количество шагов генерации для того, чтобы повысить качество детализации изображения:

-9

Задаём нужное разрешение и соотношение сторон:

-10

Получаем:

-11

Вроде норм, с учётом того, что промпт крайне скудный. Перегенерируем.

-12

Уже лучше.

Давайте рассмотрим ещё онлайн-сервисы, где можно использовать более крутую модель Flux Pro. Но там есть лимиты и подписка, опять же вам никто не запрещает зарегистрировать несколько аккаунтов, бабки лучше потратить на Midjourney, ну эт моё предвзятое мнение.

Какие модели Flux существуют на данный момент:

  • FLUX.1 [schnell] - самая быстрая модель предназначена для локальной разработки и личного использования.
  • FLUX.1 [pro] - предыдущий лучший FLUX с дополнительной скорость, предлагает современную производительность генерации изображений с первоклассным следованием подсказкам, визуальным качеством, детализацией изображения и разнообразием вывода.
  • FLUX1.1 [pro] - Лучшее из FLUX, предлагающее современную производительность создания изображений на молниеносных скоростях с первоклассным отслеживанием подсказок, визуальным качеством, детализацией изображения и разнообразием вывода.
  • FLUX.1 Kontext [pro] - Унифицированная модель, обеспечивающая локальное редактирование, генеративные модификации и генерацию текста в изображение с качеством FLUX.1. Обрабатывает текстовые и графические входные данные для точного регионального редактирования или полной трансформации сцены на прорывных скоростях, являясь пионером итеративных рабочих процессов, которые поддерживают согласованность персонажей на протяжении нескольких этапов редактирования.
  • FLUX.1 Kontext [max] - премиум-модель обеспечивает максимальную производительность во всех аспектах — значительно улучшенное быстрое соблюдение и генерация типографики в сочетании с превосходной согласованностью при редактировании без ущерба для скорости.

Онлайн-сервисы с Flux

www.freepik.com

-13
-14

krea.ai

-15

Leonardo.AI

AI Image Generator - Create Art, Images & Video | Leonardo AI
-16

replicate.com

-17
The FLUX family of models - API for FLUX Models

fal.ai

-18

Подробнее про эти сервисы я расскажу в следующих статьях.

Как составлять промпт для Flux

Запрос для генерации картинок в диффузионных моделях нужно составлять определённым образом.

Давайте сразу разберём на примере (я взял из интернета).

Стилизованный портрет человека крупным планом в очках Gucci, в ретро-стиле с контрастным халфтоновым эффектом, с жирной красной типографикой "Slava", минималистичные элементы дизайна по композиции, цветовая гамма в оттенках серого, мягкое освещение, текстурированная отделка, высокое разрешение.

Объект

Сначала указываем ОБЪЕКТ, который должен находиться в центре изображения или внимания. Искусственный интеллект должен понять, что изобразить в первую очередь.

Стиль и детали

Нужно использовать стилевые характеристики, чтобы задать "целевое впечатление", ну или типо того.

Атмосфера

Указываем цветовую гамму и настроение, подкрепляем заданный стиль.

Технический аспект

Упоминание высокого разрешения позволяет алгоритму уделить внимание мелким деталям при генерации изображения. Тут можно прописать характеристики линзы объектива, фокусное расстояние или степень размытия Боке.

Структура

Промпт должен быть выстроен логично: от общего к частному.

Также, вы можете попросить любую нейросеть (Дипсик или ЖПТ), чтобы она объяснила и помогла составить промпт для диффузионной модели Flux

-19
-20

Теперь переведём промпт на английский язык.

-21
Stylised close-up portrait of a man wearing Gucci glasses, retro style with contrasting halftone effect, with bold red ‘Slava’ typography, minimalistic design elements by composition, colour scheme in shades of grey, soft lighting, textured finish, high resolution.

Зайдём в любой AI-сервис и создадим несколько картинок.

https://www.freepik.com/

-22
-23

Сделал несколько генераций

-24

Вот это неплохой результат, при том, что модель выбрана не топовая.

-25

Попробую зайти на Леонардо

-26

И выбрать Flux.1 Kontext, но она вроде тоже не Pro.

Хм... нет, она платная.

Ну, тыкаю на Dev

-27

Получается такое:

-28

Ну, принцип вы поняли. Позже найду, самый доступный по бабкам, вариант, протестирую и опубликую статью.

Спасибо, что дочитали до конца.

Подпишись, поставь лайк и поделись с друзьями!

Жмякни на колокольчик