Приветствую!
С выходом FLUX действительно появилось множество версий: полные, сжатые, объединенные и квантованные. Признаюсь - до этой модели я не вникал в процесс построения нейросетей.
Попытаюсь рассказать о всех версиях и разобраться какая нужна конкретно вам.
Обзор моделей и методов квантования в Flux
Модели Flux предлагают несколько вариантов работы, и выбор подходящей зависит от ваших потребностей в производительности и точности. Давайте рассмотрим основные аспекты.
Schnell и Dev: В чем разница?
Schnell — это упрощенная версия, которая требует меньше шагов для выполнения задач.
Dev — полная модель, которая обеспечивает более детализированные результаты.
Существуют и гибридные варианты, где сочетаются особенности обеих моделей, что позволяет добиться результатов Dev с меньшим количеством шагов.
Методы квантования: Что учесть?
Квантование позволяет уменьшить размер моделей, что особенно важно при ограниченном объеме видеопамяти (VRAM). Однако некоторые методы квантования могут работать медленнее, но при этом они обеспечивают более высокую точность. Это может быть полезно, если вы работаете с ограниченным VRAM, но не хотите терять качество.
Поддерживаемые контрольные точки Flux
На данный момент поддерживаются следующие контрольные точки:
flux1-dev-bnb-nf4-v2.safetensors — оптимизированная для GPU с 6-12Гб контрольная точка для Flux-dev с моделью в формате NF4. Включает в себя:
T5xxl in fp8e4m3fn
CLIP-L in fp16
VAE in bf16
Рекомендуется использовать эту версию. Она поддерживает "Distilled CFG Guidance" с настройками по умолчанию на уровне 3,5. Важно: не используйте отрицательные подсказки при работе с этой моделью.
flux1-dev-fp8.safetensors — Полная контрольная точка для Flux-dev с моделью в формате FP8.
flux1-dev-fp16.safetensors — Полная версия идеального FLUX. Это эталон, к чему стремятся остальные точки. Запускается на мощных компьютерах.
- Важно: не загружайте эту fp8 и fp16 с опцией NF4! В этом случае происходит двойное квантование: сначала в fp16, затем обратно в NF4. Это замедляет процесс и снижает качество изображений.
Производительность и точность
- NF4 работает быстрее, чем FP8 на устройствах с 6, 8 или 12 ГБ VRAM. Прирост скорости может составлять от 1,3x до 4x в зависимости от версии PyTorch и CUDA.
- Веса NF4 примерно в два раза меньше, чем у FP8. NF4 также может превосходить FP8 по точности и динамическому диапазону в большинстве тестов.
- FP8 просто конвертирует каждый тензор в формат FP8, в то время как NF4 использует сложное сочетание тензоров с форматами float32, float16, uint8 и int4, что позволяет достичь максимальной точности при меньшем размере.
Когда использовать NF4 или FP8?
Если ваше устройство поддерживает CUDA версии 11.7 или новее (например, RTX 3000/4000 серии), используйте NF4 для максимальной скорости и эффективности. Если же ваше устройство оснащено графическим процессором серии GTX 10XX/20XX, оно может не поддерживать NF4 — в этом случае лучше использовать flux1-dev-fp8.safetensors.
Точность и скорость в разных форматах
- Точность: fp16 > Q8 > Q4.
- Точность NF4 находится между Q4_1 и Q4_0 и может быть лучше или хуже, в зависимости от специфических задач.
- Скорость (если не выгружать данные): fp16 ≈ NF4 > fp8 >> Q8 > Q4_0 >> Q4_1 > Q4K_S > другие.
- Скорость (при выгрузке данных): NF4 > Q4_0 > Q4_1 ≈ fp8 > Q4K_S > Q8_0 > Q8_1 > другие ≈ fp16.
Что касается технологии GGUF для нейросети FLUX.1
GGUF (GPT-Generated Unified Format) - это формат файлов, разработанный для эффективного хранения и загрузки моделей машинного обучения, особенно языковых моделей. Он пришел на смену формату GGML.
Основные особенности GGUF:
- Улучшенная совместимость и гибкость по сравнению с GGML.
- Поддержка метаданных, что позволяет хранить дополнительную информацию о модели.
- Более эффективное использование памяти.
Плюсы GGUF:
- Уменьшение размера файлов моделей.
- Ускорение загрузки моделей.
- Улучшенная поддержка различных типов моделей.
- Возможность хранения дополнительной информации о модели.
Минусы GGUF:
- Относительно новый формат, может быть менее поддерживаемым некоторыми инструментами.
- Требует обновления существующего программного обеспечения для поддержки нового формата.
Про LoRA
Flux изначально не распознает многие специфические концепции и стили. В таких случаях на помощь приходит LoRA, предлагая большую гибкость и возможность использовать обученные контрольные точки для решения сложных задач.
Но пока обучение неполноценное и его сделали единицы.
Спасибо, что дочитали до конца! 🙏
Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:
Так же заходите в мою группу в VK и на канал Телеграм.
Так же оказываю услуги по созданию контента с нейросетями, обращайтесь сюда: