175 подписчиков

Теория по FLUX.1: Как выбрать версию? BNBF4, GGUF или FP8

2 сентября 20242 сен 2024

882

3 мин

Приветствую! С выходом FLUX действительно появилось множество версий: полные, сжатые, объединенные и квантованные. Признаюсь - до этой модели я не вникал в процесс построения нейросетей.

Попытаюсь рассказать о всех версиях и разобраться какая нужна конкретно вам. Модели Flux предлагают несколько вариантов работы, и выбор подходящей зависит от ваших потребностей в производительности и точности. Давайте рассмотрим основные аспекты. Schnell — это упрощенная версия, которая требует меньше шагов для выполнения задач.

Dev — полная модель, которая обеспечивает более детализированные результаты.

Существуют и гибридные варианты, где сочетаются особенности обеих моделей, что позволяет добиться результатов Dev с меньшим количеством шагов. Квантование позволяет уменьшить размер моделей, что особенно важно при ограниченном объеме видеопамяти (VRAM). Однако некоторые методы квантования могут работать медленнее, но при этом они обеспечивают более высокую точность. Это может быть полезно, если вы рабо

Dev — полная модель, которая обеспечивает более детализированные результаты.

Оглавление

Обзор моделей и методов квантования в Flux
Schnell и Dev: В чем разница?
Методы квантования: Что учесть?

Приветствую!

С выходом FLUX действительно появилось множество версий: полные, сжатые, объединенные и квантованные. Признаюсь - до этой модели я не вникал в процесс построения нейросетей.
Попытаюсь рассказать о всех версиях и разобраться какая нужна конкретно вам.

Обзор моделей и методов квантования в Flux

Модели Flux предлагают несколько вариантов работы, и выбор подходящей зависит от ваших потребностей в производительности и точности. Давайте рассмотрим основные аспекты.

Schnell и Dev: В чем разница?

Schnell — это упрощенная версия, которая требует меньше шагов для выполнения задач.
Dev — полная модель, которая обеспечивает более детализированные результаты.
Существуют и гибридные варианты, где сочетаются особенности обеих моделей, что позволяет добиться результатов Dev с меньшим количеством шагов.

Методы квантования: Что учесть?

Квантование позволяет уменьшить размер моделей, что особенно важно при ограниченном объеме видеопамяти (VRAM). Однако некоторые методы квантования могут работать медленнее, но при этом они обеспечивают более высокую точность. Это может быть полезно, если вы работаете с ограниченным VRAM, но не хотите терять качество.

Поддерживаемые контрольные точки Flux

На данный момент поддерживаются следующие контрольные точки:

flux1-dev-bnb-nf4-v2.safetensors — оптимизированная для GPU с 6-12Гб контрольная точка для Flux-dev с моделью в формате NF4. Включает в себя:
T5xxl in fp8e4m3fn
CLIP-L in fp16
VAE in bf16

Рекомендуется использовать эту версию. Она поддерживает "Distilled CFG Guidance" с настройками по умолчанию на уровне 3,5. Важно: не используйте отрицательные подсказки при работе с этой моделью.

flux1-dev-fp8.safetensors — Полная контрольная точка для Flux-dev с моделью в формате FP8.

flux1-dev-fp16.safetensors — Полная версия идеального FLUX. Это эталон, к чему стремятся остальные точки. Запускается на мощных компьютерах.

Важно: не загружайте эту fp8 и fp16 с опцией NF4! В этом случае происходит двойное квантование: сначала в fp16, затем обратно в NF4. Это замедляет процесс и снижает качество изображений.

Производительность и точность

NF4 работает быстрее, чем FP8 на устройствах с 6, 8 или 12 ГБ VRAM. Прирост скорости может составлять от 1,3x до 4x в зависимости от версии PyTorch и CUDA.
Веса NF4 примерно в два раза меньше, чем у FP8. NF4 также может превосходить FP8 по точности и динамическому диапазону в большинстве тестов.
FP8 просто конвертирует каждый тензор в формат FP8, в то время как NF4 использует сложное сочетание тензоров с форматами float32, float16, uint8 и int4, что позволяет достичь максимальной точности при меньшем размере.

Когда использовать NF4 или FP8?

Если ваше устройство поддерживает CUDA версии 11.7 или новее (например, RTX 3000/4000 серии), используйте NF4 для максимальной скорости и эффективности. Если же ваше устройство оснащено графическим процессором серии GTX 10XX/20XX, оно может не поддерживать NF4 — в этом случае лучше использовать flux1-dev-fp8.safetensors.

Точность и скорость в разных форматах

Точность: fp16 > Q8 > Q4.
Точность NF4 находится между Q4_1 и Q4_0 и может быть лучше или хуже, в зависимости от специфических задач.
Скорость (если не выгружать данные): fp16 ≈ NF4 > fp8 >> Q8 > Q4_0 >> Q4_1 > Q4K_S > другие.
Скорость (при выгрузке данных): NF4 > Q4_0 > Q4_1 ≈ fp8 > Q4K_S > Q8_0 > Q8_1 > другие ≈ fp16.

Что касается технологии GGUF для нейросети FLUX.1

GGUF (GPT-Generated Unified Format) - это формат файлов, разработанный для эффективного хранения и загрузки моделей машинного обучения, особенно языковых моделей. Он пришел на смену формату GGML.

Основные особенности GGUF:

Улучшенная совместимость и гибкость по сравнению с GGML.
Поддержка метаданных, что позволяет хранить дополнительную информацию о модели.
Более эффективное использование памяти.

Плюсы GGUF:

Уменьшение размера файлов моделей.
Ускорение загрузки моделей.
Улучшенная поддержка различных типов моделей.
Возможность хранения дополнительной информации о модели.

Минусы GGUF:

Относительно новый формат, может быть менее поддерживаемым некоторыми инструментами.
Требует обновления существующего программного обеспечения для поддержки нового формата.

Про LoRA

Flux изначально не распознает многие специфические концепции и стили. В таких случаях на помощь приходит LoRA, предлагая большую гибкость и возможность использовать обученные контрольные точки для решения сложных задач.
Но пока обучение неполноценное и его сделали единицы.

Спасибо, что дочитали до конца! 🙏

Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:

dzen.ru

Neuro-сеть | Дзен

Так же заходите в мою группу в VK и на канал Телеграм.

Так же оказываю услуги по созданию контента с нейросетями, обращайтесь сюда:

avito.ru

AI-художник. промпт-инженер в Москве | Услуги | Авито

Вам может понравится:

Сборка лучших промптов для ChatGPT

Neuro-сеть1 сентября 2024

StableDiffusion отдыхает: ставим нейросеть FLUX на ПК

Neuro-сеть12 августа 2024

FLUX стал быстрее: модели GGUF для ComfUI и Forge

Neuro-сеть24 августа 2024

#Prompts Новая рубрика с промптами и генерациям по ним. Модель: Flux Q4_1, 30 шагов, Сэмплеры Dpm++2m и Sgm_uniform Делитесь своими результатами по промпту в комментариях! Prompt: A futuristic cityscape built on the back of a colossal, migrating turtle, its shell adorned with shimmering skyscrapers and neon lights, traversing a vast, shimmering ocean beneath a sky filled with shooting stars…

Neuro-сеть28 августа 2024

Запускаем нейросеть StableDiffusion даже на самом слабом ПК! Гайд

Neuro-сеть8 февраля 2024