Найти тему

FLUX. Новый конкурент Stable Diffusion 3.

Здравствуйте, друзья!

Лето – традиционно время отпусков, но в мире искусственного интеллекта страсти не утихают. В начале августа команда Black Forest Labs бросила вызов лидерам отрасли нейросетевых моделей, представив свою модель Flux.

Flux — это ещё один перспективный игрок на рынке генеративных нейросетей. Который предлагает свои уникальные возможности, но, к сожалению, сохраняет некоторые небольшие проблемы, которые были характерны для её предшественников.

Flux можно рассматривать скорее как небольшой но уверенный шаг вперёд в развитии, чем как революцию в этой области. Давайте подробнее рассмотрим её особенности и выясним, подойдёт ли она нам.

Как я уже упоминал, модель Flux — это значительный шаг вперёд в области создания изображений. Это перспективная модель, однако не стоит ожидать от неё чего-то невероятного.

Она отлично работает с комплексными и обширными запросами, почти не ошибается в понимании промптов и не сокращает их. Создаётся впечатление, что модель стремится учесть все детали и не упустить ничего важного. В большинстве случаев результат выглядит хорошо, но иногда можно заметить некоторые недостатки, характерные для моделей SDXL.

Generate an image of a magical forest, with glowing mushrooms growing around the trees. In the foreground there should be a little elf sitting on a mushroom and playing a flute. An ancient castle can be seen in the distance. The atmosphere should be dreamy and mysterious, with soft pastel colors. Pay attention to details: the texture of tree bark, the shine of leaves, the transparency of insect wings. Don't forget about the fog enveloping the forest
Generate an image of a magical forest, with glowing mushrooms growing around the trees. In the foreground there should be a little elf sitting on a mushroom and playing a flute. An ancient castle can be seen in the distance. The atmosphere should be dreamy and mysterious, with soft pastel colors. Pay attention to details: the texture of tree bark, the shine of leaves, the transparency of insect wings. Don't forget about the fog enveloping the forest

Она, вроде бы, правильно распознаёт цвета и их описания и старается точно «раскрашивать» нужные объекты. Можно было бы сказать, что теперь мы можем без опасений (привет SDXL) раскрашивать наши объекты, но это тоже не совсем так. В двух-трёх случаях из пяти вы можете столкнуться с некорректной раскраской объектов. Да, ошибок стало меньше, но к сожалению они не исчезли совсем.

Flux отлично распознаёт ключевые слова и понимает, где именно в запросе находятся нужные объекты. Это отличает её от конкурентов, хотя и здесь иногда она тоже может ошибаться.

Модель неплохо генерирует текст, длинные тексты с разнообразными шрифтами и стилями написания и практически без ошибок, чем не могут похвастаться конкуренты. Она также хорошо создаёт логотипы с текстом: текст скорее всего будет именно таким, каким вы его описали.

Модель хорошо взаимодействует с разными стилями, правда чтобы генерировать изображения с применением стилей нужно модифицировать стандартное рабочее пространство добавив узел отвечающий за подключение стилей в генерацию.

Flux — это модель, позволяющая создавать безопасный контент (safe for work, или sfw). Здесь вы не найдёте ничего непристойного. В лучшем случае это будут изображения людей в нижнем белье или купальниках. Возможно, кому-то удастся после нескольких попыток и правильно сформулированного запроса получить желаемый уровень откровенности на изображении.

Улучшилась ситуация с конечностями. Руки и пальцы в большинстве случаев выглядят так, как нужно. С позами ситуация тоже стала лучше, хотя иногда встречаются пугающие варианты.

Думаю, достаточно перечислений. Лучше вы сами всё попробуете и увидите.

Для полноты картины, вот небольшая часть изображений, которые я сгенерировал. Вы можете посмотреть их и, возможно, сделать дополнительные выводы относительно этой модели.

Если по работе модели у вас возникнут дополнительные вопросы, то можно поискать ответы на сайте разработчиков. И давайте наконец перейдём к самому важному: где можно скачать модели, какие модели следует загружать и что делать с ними дальше.

Всего было представлено 3 модели.

FLUX.1 [pro] флагманская модель, которая предлагает передовые возможности для создания изображений, обеспечивая высокое качество визуальных эффектов, детализированность изображений и разнообразие результатов. Протестировать работу модели можно через API или через платформы партнеров Replicate и fal.ai.

FLUX.1 [dev] модель с открытыми весами, созданная для некоммерческого использования. Она была разработана на основе FLUX.1 [pro] и обеспечивает схожее качество и точное выполнение запросов, при этом будучи более эффективной по сравнению с обычными моделями такого же размера. Весы модели FLUX.1 [dev] доступны на платформе Hugging Face и с ними также можно ознакомиться напрямую через Replicate или fal.ai.

FLUX.1 [schnell] самая быстрая модель, предназначенная для локальной разработки и личного использования. Она доступна для всех под лицензией Apache 2.0. Как и FLUX.1 [dev], модель FLUX.1 [schnell] имеет открытые веса, которые можно найти на платформе Hugging Face, а код для выполнения вычислений доступен на GitHub. Модель также можно использовать через платформы Replicate и fal.ai.

Вы можете ознакомиться с FLUX.1 [pro], перейдя по ссылкам на медиа платформы партнёров. Однако, там как и везде, присутствуют ограничения и требуется подписка.

-9

Какой сервис выбрать и стоит ли это делать — решать вам. Я же расскажу вам, как начать пользоваться этой моделью на своём ПК без необходимости регистрации и подписки.

Из трёх представленных моделей, для локального использования нам доступны только FLUX.1 [dev] и FLUX.1 [schnell].

Модели большие, весят порядка 23 гигабайт и думаю стоит сразу сказать, что FLUX.1 [dev] при использовании модели текстового энкодера t5xxl_fp8_e4m3fn на моей конфигурации с 32 гигабайтами оперативной памяти и видеокартой 3080 с 10 гигабайтами видеопамяти, генерация изображения занимает около 80 секунд.

-10

При использовании FLUX.1 [schnell] и текстового энкодера t5xxl_fp8_e4m3fn время генерации составляет около 18 секунд.

Чтобы вам было проще выбрать модель для скачивания, вот несколько примеров работы этих двух моделей. Но я считаю, что вам стоит попробовать обе модели и на практике понять, какая из них больше подходит для ваших задач.

Если вы решили пользоваться FLUX.1 [dev] моделью, то переходите по ссылке и скачиваете файл flux1-dev.safetensors.

-12

Если ваш выбор пал на FLUX.1 [schnell], быструю модель которая способна генерировать изображение за 4 шага, то вам нужно скачать модель flux1-schnell.safetensors со страницы на Hugging Face по этой ссылке.

-13

Кроме того, нужно загрузить текстовые энкодеры, так же как мы делали это при установке моделей Stable Diffusion 3. Для этого перейдите по этой ссылке и скачайте все три файла если намерены попробовать и FLUX.1 [dev] и FLUX.1 [schnell]. Если нет, то качайте только clip_l.safetensors и файл энкодер который подойдет для вашего пк.

clip_l.safetensors
t5xxl_fp16.safetensors - только если у вас больше 32 гб оперативной памяти
t5xxl_fp8_e4m3fn.safetensors
-14

И последний файл который нужно скачать, diffusion_pytorch_model.safetensors, он расположен в директории VAE обоих моделей, как FLUX.1 [dev] так и в FLUX.1 [schnell]. Либо файл ae.safetensors который лежит тут же. Я не заметил разницы в генерациях при использовании обоих файлов.

-15

Существуют более компактные версии моделей FLUX.1 [dev] и FLUX.1 [schnell], которые весят всего около 12 гигабайт. В этом видео товарищ Kijai утверждает, что эти версии работают быстрее и лучше. Я не могу согласиться с этим утверждением. Да, мы освобождаем 12 гигабайт на диске, но качество изображения, которое мы получаем, на мой взгляд ощутимо хуже. При этом время затраченное на генерацию изображения одинаково, независимо от того, какую модель мы используем.

В любом случае, это всего лишь моё субъективное мнение и восприятие. Решение остаётся за вами. Я лишь привёл несколько примеров изображений.

Ну а пока файлы загружаются, у вас есть время, чтобы протереть пыль с вашего ComfyUI. Если вы ещё не установили этот удобный инструмент, сейчас самое время это сделать.

upd: появился второй вариант использования модели FLUX, это форк Stable Diffusion - Forge 2.0.

Как установить, скачать и т.д вы можете почитать здесь. Все достаточно просто и не вижу смысла описывать повторно в этой статье.

Важно! Чтобы избежать всевозможных ошибок, обновите ваш ComfyUI перейдя в директорию Update и запустив файл update_comfyui.bat

Далее необходимо разложить все скачанные файлы по своим местам.

Файлы модели flux1-dev.safetensors (альтернативная модель flux1-dev-fp8.safetensors) для FLUX.1 [dev] или если вы вдруг решили пользоваться FLUX.1 [schnell] то этот файл flux1-schnell.safetensors (альтернативная модель flux1-schnell-fp8.safetensors) необходимо положить по пути ...\ComfyUI\models\unet\

Clip файлы clip_l.safetensors, t5xxl_fp8_e4m3fn (или t5xxl_fp16.safetensors) кладете по пути ...\ComfyUI\models\clip\

Файл diffusion_pytorch_model.safetensors (или ae.safetensors) из папки VAE который мы скачивали последним должен лежать по пути ...\ComfyUI\models\vae\

Подготовка завершена, осталось только запустить ComfyUI и загрузить нужное рабочее пространство, скачать которое можно перейдя на мой бусти. Чтобы загрузить пространство в ComfyUI, изображение из архива достаточно перетащить в пустое пространство ComfyUI.

Для FLUX.1 [dev] оптимальное количество шагов 30, планировщики normal, simple, beta, сэмплеры euler или ddim.

Для FLUX.1 [schnell] оптимальное количество шагов 4, планировщики normal, simple, beta, сэмплеры euler или ddim.

Первый запуск и генерация изображения могут занять некоторое время, пока будут загружаться модели. После того как загрузка завершится, ваше изображение будет сгенерировано. У меня загрузка моделей занимает примерно 5 минут, но это время может отличаться в зависимости от мощности вашего оборудования. Не волнуйтесь и не спешите нажимать все кнопки подряд.

-17

В рабочем пространстве для этой модели на самом деле минимум настроек, но если по какой-то причине они не были применены при переносе изображения, то вот основные параметры:

unet_name - указываете выбранную модель, weight_dtype оставляем default для более быстрых генераций или выбираем файл весов fp8_e4m3fn для более качественных и долгих генераций
unet_name - указываете выбранную модель, weight_dtype оставляем default для более быстрых генераций или выбираем файл весов fp8_e4m3fn для более качественных и долгих генераций
для корректной работы модели ничего не меняем либо выбираем модели как на скриншоте
для корректной работы модели ничего не меняем либо выбираем модели как на скриншоте
выставляете нужное вам разрешение но наилучшее качество изображения достигается при 1024Х1024, при нехватке памяти попробуйте понижать разрешение вплоть до 786Х786 но не забывайте чем меньше разрешение тем хуже детализация изображения
выставляете нужное вам разрешение но наилучшее качество изображения достигается при 1024Х1024, при нехватке памяти попробуйте понижать разрешение вплоть до 786Х786 но не забывайте чем меньше разрешение тем хуже детализация изображения
по умолчанию сэмплер euler но как мне показалось ddim делает изображение более четким
по умолчанию сэмплер euler но как мне показалось ddim делает изображение более четким
планировщики выбираем на свой вкус из normal, simple, beta, количество шагов от 4 для модели schnell и от 20 до 50 для модели dev, denoise можно изменять исходя из ваших целей
планировщики выбираем на свой вкус из normal, simple, beta, количество шагов от 4 для модели schnell и от 20 до 50 для модели dev, denoise можно изменять исходя из ваших целей

В рабочих пространствах всё настроено правильно и работает без сбоев. Если у вас возникла ошибка и изображения не генерируются, то, вероятно, вы где-то допустили ошибку. Возможно, вы неправильно установили необходимое расширение или разместили файлы моделей в неверном месте, или упустили что-то ещё.

В интернете есть информация о том, что некоторые пользователи сталкиваются с проблемой, когда вместо генерации изображений на экране появляется чёрный экран. И как говорят причина этой ошибки это модифицированный пакетный bat-файл запуска. Насколько это соответствует действительности сказать не могу.

Также есть сообщения о проблемах с установкой расширений в менеджере. В этом случае возможно поможет переустановка самого менеджера.

К сожалению, дать конкретные советы по решению этих проблем не могу, т.к я не столкнулся с проблемами при запуске.

В завершение хочу сказать, что модель мне очень понравилась. Из простых запросов получаются атмосферные и интересные результаты, а если постараться и составить сложный запрос, то можно получить почти идеальный результат. Особенно порадовала работа с конечностями и позами. Больше не нужно тратить много времени на поиск подходящего варианта.

Генерация текста и его стилизация — это просто великолепно. Однако, как это часто бывает, даже в лучшем есть свои недостатки. В случае с FLUX главным является время генерации. Если у вас небольшой объем оперативной памяти, в нашем случае меньше 32гб и нет мощной видеокарты от Nvidia, такой как 4080 или 4090 с большим объёмом памяти, то лучшее, что вы сможете использовать — это модель FLUX.1 [schnell], которая генерирует изображения уже не так впечатляюще, как её старшая версия, или же использовать FLUX.1 [dev], и получать 30 генераций в час.

Но, возможно, ситуация изменится к лучшему. Я всё же оптимист!

-23

Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.