Найти в Дзене
Neurogen

FLUX.2-dev-NVFP4

Black Forest Labs выпустили новые кванты своей флагманской модели FLUX.2 [dev] в формате NVFP4 Проблема оригинальной модели была в серьезных требованиях, для полной загрузки нужно было около 90гб vram, и генерировала она очень медленно даже на rtx 5090 Структура формата примерно такая: 1 бит знака + 2 бита экспоненты + 1 бит мантиссы (E2M1), диапазон значений примерно от -6 до +6 Каждые 16 значений имеют свой FP8 (E4M3) масштабный коэффициент. FP32 масштабирование на уровне всего тензора Использует E4M3 вместо E8M0 для дробных масштабных коэффициентов, средняя квадратичная ошибка (MSE): 0.08 против 0.72 у E8M0 🔘Доступные версии flux2-dev-nvfp4.safetensors - Полная NVFP4 квантизация - Максимальное сжатие - Оптимально для систем с ограниченной VRAM flux2-dev-nvfp4-mixed.safetensors - Гибридная версия: NVFP4 + BF16 - Небольшой набор критичных весов в BF16 - Баланс между качеством и размером 🔘Системные требования Минимальные требования (NVFP4) - GPU: 8GB VRAM (RTX 3060 12GB, RTX

FLUX.2-dev-NVFP4

Black Forest Labs выпустили новые кванты своей флагманской модели FLUX.2 [dev] в формате NVFP4

Проблема оригинальной модели была в серьезных требованиях, для полной загрузки нужно было около 90гб vram, и генерировала она очень медленно даже на rtx 5090

Структура формата примерно такая: 1 бит знака + 2 бита экспоненты + 1 бит мантиссы (E2M1), диапазон значений примерно от -6 до +6

Каждые 16 значений имеют свой FP8 (E4M3) масштабный коэффициент. FP32 масштабирование на уровне всего тензора

Использует E4M3 вместо E8M0 для дробных масштабных коэффициентов, средняя квадратичная ошибка (MSE): 0.08 против 0.72 у E8M0

🔘Доступные версии

flux2-dev-nvfp4.safetensors

- Полная NVFP4 квантизация

- Максимальное сжатие

- Оптимально для систем с ограниченной VRAM

flux2-dev-nvfp4-mixed.safetensors

- Гибридная версия: NVFP4 + BF16

- Небольшой набор критичных весов в BF16

- Баланс между качеством и размером

🔘Системные требования

Минимальные требования (NVFP4)

- GPU: 8GB VRAM (RTX 3060 12GB, RTX 4060 Ti и выше)

- RAM: 18-32GB системной памяти

- Время генерации: 285-490 секунд на 1024x1024 (8GB VRAM)

Рекомендуемые требования

- GPU: 16-24GB VRAM (RTX 4090, RTX 5080 и выше)

- RAM: 32-64GB

- Поддержка: NVIDIA GPU с архитектурой Blackwell (оптимально)

🔘Оптимизация для низкой VRAM

Используйте group_offloading для GPU с 8GB VRAM и квантизованные версии GGUF

🔘Производительность и качество

Тесты на DeepSeek-R1-0528 показывают минимальную деградацию:

MMLU-PRO: 85% (FP8) - 84% (NVFP4)

GPQA Diamond: 81% - 80%

Math-500: 98% - 98% (без потерь!)

AIME 2024: 89% - 91% (+2% улучшение!)

Энергоэффективность

- 50x лучшая энергоэффективность против H100

- 0.2 Дж/токен против 10 Дж/токен

- Значительное снижение эксплуатационных расходов

FLUX.2-dev-NVFP4 на Hugging Face

FLUX.2 [dev] (оригинал BF16)

Официальный блог bfl

NVIDIA: Introducing NVFP4

GitHub репозиторий FLUX2

-2