90 подписчиков

Chroma: ещё одна модель полученная на основе Flux Schnell с дружелюбной лицензией Apache 2

5 мая 20255 мая 2025

1 мин

Chroma: ещё одна модель полученная на основе Flux Schnell с дружелюбной лицензией Apache 2. Предыдущий заход рассматривали от Flex. * Имеет 8.9B параметров вместо 12B. * Натренирована на 5 млн картинок, выбранных из 20 млн датасета где были аниме, фурри, арты, и фотки. * Нет цензуры, проработана анатомия * Постоянно обновляется — примеры я сгенерил на основе чекпоинта вышедшего сегодня. Для работы нужен VAE и текстовый энкодер от базового Flux, а чекпоинт с самой Chroma положить в diffusion-models. Comfy воркфлоу прилагается. Нужно ещё будет поставить кастомные ноды Chroma. При запуске с fp16 энкодером потребляет ~19 ГБ VRAM. На дефолтных настройках при разрешении 832х1488 генерит со скоростью 1,52 сек/ит и на 45 шагов уходит 1 мин 8 сек на 4090. Если поставить 20 шагов, будет уже 29 сек. Что всё равно довольно долго: во Flux Lite на 24 шага 1024х1024 уходит в среднем 13-14 сек, и можно оптимизировать до ~8 сек. Запуск в fp16 против fast fp16 разницы не показал. Не говоря о том, чт

Chroma: ещё одна модель полученная на основе Flux Schnell с дружелюбной лицензией Apache 2. Предыдущий заход рассматривали от Flex.

* Имеет 8.9B параметров вместо 12B.

* Натренирована на 5 млн картинок, выбранных из 20 млн датасета где были аниме, фурри, арты, и фотки.

* Нет цензуры, проработана анатомия

* Постоянно обновляется — примеры я сгенерил на основе чекпоинта вышедшего сегодня.

Для работы нужен VAE и текстовый энкодер от базового Flux, а чекпоинт с самой Chroma положить в diffusion-models. Comfy воркфлоу прилагается. Нужно ещё будет поставить кастомные ноды Chroma.

При запуске с fp16 энкодером потребляет ~19 ГБ VRAM. На дефолтных настройках при разрешении 832х1488 генерит со скоростью 1,52 сек/ит и на 45 шагов уходит 1 мин 8 сек на 4090. Если поставить 20 шагов, будет уже 29 сек. Что всё равно довольно долго: во Flux Lite на 24 шага 1024х1024 уходит в среднем 13-14 сек, и можно оптимизировать до ~8 сек. Запуск в fp16 против fast fp16 разницы не показал. Не говоря о том, что у оригинального Шнеля при разрешении 832х1488 на 20 шагов тратится ~20 секунд на 4090, а он заточен сносные результаты выдавать с 4 шагов.

Промту следует хорошо, и можно получить интересные результаты, если ваша цель арт / креатив и вариативность. В реализм модели тяжело, всё время тянет в артовость, и может навлечь очень сильные шумы-артефакты. Причём как с коротким промтом, так и развёрнутым Гроком.

Но фокус этой модели не на том, чтобы тягаться с базовым флюксом и другими моделями в качестве. Кто сказал Pony?

Хаггинг

Реддит

————————————————————

🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Цифровой дизайн

143,9 тыс интересуются