426 подписчиков

FLUX.2-dev-NVFP4

13 января13 янв

1 мин

Black Forest Labs выпустили новые кванты своей флагманской модели FLUX.2 [dev] в формате NVFP4 Проблема оригинальной модели была в серьезных требованиях, для полной загрузки нужно было около 90гб vram, и генерировала она очень медленно даже на rtx 5090 Структура формата примерно такая: 1 бит знака + 2 бита экспоненты + 1 бит мантиссы (E2M1), диапазон значений примерно от -6 до +6 Каждые 16 значений имеют свой FP8 (E4M3) масштабный коэффициент. FP32 масштабирование на уровне всего тензора Использует E4M3 вместо E8M0 для дробных масштабных коэффициентов, средняя квадратичная ошибка (MSE): 0.08 против 0.72 у E8M0 🔘Доступные версии flux2-dev-nvfp4.safetensors - Полная NVFP4 квантизация - Максимальное сжатие - Оптимально для систем с ограниченной VRAM flux2-dev-nvfp4-mixed.safetensors - Гибридная версия: NVFP4 + BF16 - Небольшой набор критичных весов в BF16 - Баланс между качеством и размером 🔘Системные требования Минимальные требования (NVFP4) - GPU: 8GB VRAM (RTX 3060 12GB, RTX

FLUX.2-dev-NVFP4

Black Forest Labs выпустили новые кванты своей флагманской модели FLUX.2 [dev] в формате NVFP4

Проблема оригинальной модели была в серьезных требованиях, для полной загрузки нужно было около 90гб vram, и генерировала она очень медленно даже на rtx 5090

Структура формата примерно такая: 1 бит знака + 2 бита экспоненты + 1 бит мантиссы (E2M1), диапазон значений примерно от -6 до +6

Каждые 16 значений имеют свой FP8 (E4M3) масштабный коэффициент. FP32 масштабирование на уровне всего тензора

Использует E4M3 вместо E8M0 для дробных масштабных коэффициентов, средняя квадратичная ошибка (MSE): 0.08 против 0.72 у E8M0

🔘Доступные версии

flux2-dev-nvfp4.safetensors

- Полная NVFP4 квантизация

- Максимальное сжатие

- Оптимально для систем с ограниченной VRAM

flux2-dev-nvfp4-mixed.safetensors

- Гибридная версия: NVFP4 + BF16

- Небольшой набор критичных весов в BF16

- Баланс между качеством и размером