3817 подписчиков

Flux - генерируем картинки. разбираемся в диффузионных моделях. Составляем промпты

13 июня 202513 июн 2025

1862

6 мин

Stable Diffusion, Flux, Midjourney, AdobeFirefly, DALL-E, YandexART - Генеративные модели нейросетей, способные создавать изображения по текстовому запросу (промпту), они обучены на огромных базах данных, благодаря чему, они могут понимать связь между словами и визуалами. В этой статье разберёмся с вами, как работают такие нейросети, как генерировать картинки и составлять правильный промпт на примере Flux AI. Вышеперечисленные популярные нейросети являются диффузионными, их основной принцип генерации следующий: они из первоначального гауссовского шума поэтапно восстанавливают картинку, ориентируясь на текстовый запрос. Читать Википедию Они на каждом шаге учатся предсказать какой будет этот случайный шум, пока не получат "изначальное" очищенное изображение. Stable Diffusion одна из самых популярных моделей, разработанная компанией Stability AI, и являющаяся открытой для модификаций (свободный исходный код), тем самым каждый разработчик может скачать и установить эту модель себе на компь

Оглавление

Немного теории
Создание картинок во Flux
Какие модели Flux существуют на данный момент:

Немного теории

Вышеперечисленные популярные нейросети являются диффузионными, их основной принцип генерации следующий: они из первоначального гауссовского шума поэтапно восстанавливают картинку, ориентируясь на текстовый запрос.

Читать Википедию

Они на каждом шаге учатся предсказать какой будет этот случайный шум, пока не получат "изначальное" очищенное изображение.

Stable Diffusion одна из самых популярных моделей, разработанная компанией Stability AI, и являющаяся открытой для модификаций (свободный исходный код), тем самым каждый разработчик может скачать и установить эту модель себе на компьютер, обучить её, настроить всякие фильтры и параметры, и потом пользоваться сколько угодно, закрывая различные потребности. По этому сейчас появляется куча сервисов, как платных так и бесплатных, разработанных на базе этой модели.

Flux (Флакс) - новая модель, разработанная бывшими создателями Stable Diffusion - Black forest labs, которая использует гибридную архитектуру, сочетающую трансформеры и диффузионные методы. Пользователи на форумах утверждают, что Флакс генерирует картинки круче, чем Стейбл Диффьюжн, изображения получаются детализированнее, а так же, нейросеть лучше понимает какие-то более тонкие промпты.

Про остальные модели я частично уже писал в своём блоге, вот тут, к примеру, про ДАЛЛ-И.

Как создавать картинки в DALLE 3 бесплатно через BING

Вячеславный интернет20 апреля 2025

Создание картинок во Flux

Я решил, что не буду совсем углубляться в установку и настройку специальных программ и нейросетей на компьютер, так что расскажу про онлайн-сервисы, в которых можно быстро сгенерировать картинку по запросу, используя разные модели Flux.

А то это затянется надолго, вы устанете читать, и скорее всего пропустите эту занудную часть, перейдя сразу к более удобным и доступным вариантам.

Вот тут вы можете посмотреть на пример моего занудства: https://dzen.ru/a/aASCW5in8E2cjDgO

Установка Whisper на ПК. Нейросеть транскрибирует видео и аудио в текст.

Вячеславный интернет20 апреля 2025

И так, самый доступный и удобный вариант "пощупать" Flux это сайт сообщества гиков huggingface.co, где пользователи выкладывают свои надстроенные ИИ-проекты, и их можно запускать прям в Web-версии.

huggingface.co

FLUX.1 [Schnell] - a Hugging Face Space by black-forest-labs

Тут сами ребята из Black forest labs выложили модель Flux, которая базовая, начальная, первая... в общем, типо для разработчиков, и на ней можно безлимитно генерировать картинки.

Окно с дополнительными настройками генерации

Зарубежные нейросети лучше понимают промпты на английском языке, так что приучите себя на постоянной основе пользоваться Гугл переводчиком или крутым нейросетевым переводчиком DeepL, он у меня открыт постоянно))

deepl.com

DeepL Translate: The world's most accurate translator

И вот я быстренько перевёл свой промпт:

Красная кошка сидит на крыше дома, луна, неоновый свет, HD качество, суперреализм

На английский:

Red cat sitting on the roof of a house, moon, neon light, HD quality, super realism

Так хочется создать картинку именно с красной кошкой, но у англосаксов "красный" и "рыжий" это одно прилагательное... печаль. Может использовать оттенок кримзон?

Копируем текст промпта в соответствующее поле:

Увеличиваем количество шагов генерации для того, чтобы повысить качество детализации изображения:

Задаём нужное разрешение и соотношение сторон:

Получаем:

Вроде норм, с учётом того, что промпт крайне скудный. Перегенерируем.

Уже лучше.

Давайте рассмотрим ещё онлайн-сервисы, где можно использовать более крутую модель Flux Pro. Но там есть лимиты и подписка, опять же вам никто не запрещает зарегистрировать несколько аккаунтов, бабки лучше потратить на Midjourney, ну эт моё предвзятое мнение.

Какие модели Flux существуют на данный момент:

FLUX.1 [schnell] - самая быстрая модель предназначена для локальной разработки и личного использования.
FLUX.1 [pro] - предыдущий лучший FLUX с дополнительной скорость, предлагает современную производительность генерации изображений с первоклассным следованием подсказкам, визуальным качеством, детализацией изображения и разнообразием вывода.
FLUX1.1 [pro] - Лучшее из FLUX, предлагающее современную производительность создания изображений на молниеносных скоростях с первоклассным отслеживанием подсказок, визуальным качеством, детализацией изображения и разнообразием вывода.
FLUX.1 Kontext [pro] - Унифицированная модель, обеспечивающая локальное редактирование, генеративные модификации и генерацию текста в изображение с качеством FLUX.1. Обрабатывает текстовые и графические входные данные для точного регионального редактирования или полной трансформации сцены на прорывных скоростях, являясь пионером итеративных рабочих процессов, которые поддерживают согласованность персонажей на протяжении нескольких этапов редактирования.
FLUX.1 Kontext [max] - премиум-модель обеспечивает максимальную производительность во всех аспектах — значительно улучшенное быстрое соблюдение и генерация типографики в сочетании с превосходной согласованностью при редактировании без ущерба для скорости.

Онлайн-сервисы с Flux

www.freepik.com

krea.ai

Leonardo.AI

leonardo.ai

AI Image Generator - Create Art, Images & Video | Leonardo AI

replicate.com

replicate.com

The FLUX family of models - API for FLUX Models

fal.ai

Подробнее про эти сервисы я расскажу в следующих статьях.

Как составлять промпт для Flux

Запрос для генерации картинок в диффузионных моделях нужно составлять определённым образом.

Давайте сразу разберём на примере (я взял из интернета).

Стилизованный портрет человека крупным планом в очках Gucci, в ретро-стиле с контрастным халфтоновым эффектом, с жирной красной типографикой "Slava", минималистичные элементы дизайна по композиции, цветовая гамма в оттенках серого, мягкое освещение, текстурированная отделка, высокое разрешение.

Объект

Сначала указываем ОБЪЕКТ, который должен находиться в центре изображения или внимания. Искусственный интеллект должен понять, что изобразить в первую очередь.

Стиль и детали

Нужно использовать стилевые характеристики, чтобы задать "целевое впечатление", ну или типо того.

Атмосфера

Указываем цветовую гамму и настроение, подкрепляем заданный стиль.

Технический аспект

Упоминание высокого разрешения позволяет алгоритму уделить внимание мелким деталям при генерации изображения. Тут можно прописать характеристики линзы объектива, фокусное расстояние или степень размытия Боке.

Структура

Промпт должен быть выстроен логично: от общего к частному.

Также, вы можете попросить любую нейросеть (Дипсик или ЖПТ), чтобы она объяснила и помогла составить промпт для диффузионной модели Flux

Теперь переведём промпт на английский язык.

Stylised close-up portrait of a man wearing Gucci glasses, retro style with contrasting halftone effect, with bold red ‘Slava’ typography, minimalistic design elements by composition, colour scheme in shades of grey, soft lighting, textured finish, high resolution.

Зайдём в любой AI-сервис и создадим несколько картинок.

https://www.freepik.com/