Найти в Дзене
Neurogen

HunyuanImage-2.1 open source генерации изображений 2K

HunyuanImage-2.1 open source генерации изображений 2K Основные особенности: 🔘Генерация кинематографичных изображений 2048×2048 🔘Нативная поддержка китайского и английского языков 🔘32× компрессия VAE - создание 2K изображений за время генерации 1K у конкурентов Двухэтапная архитектура 1️⃣ Базовая модель (17B параметров): - Двойной текстовый энкодер (MLLM + многоязычный ByT5) - Одно- и двухпотоковый диффузионный трансформер - RLHF оптимизация для эстетики 2️⃣ Refiner модель: - Улучшение качества и четкости - Минимизация артефактов Новые технологии 🔘PromptEnhancer: Автоматическое улучшение промптов с поддержкой 6 категорий и 24 критериев оценки 🔘Meanflow дистилляция: снижение шагов генерации с 50 до 8, тенсент первые кто нормально внедрили эту технологию 🔘Структурированные описания: Многоуровневая семантическая информация с OCR агентом и IP RAG Бенчмарки 🔘SSAE оценка: Лучший результат среди open-source моделей (0.8888), близко к GPT-Image 🔘GSB оценка: +2.89% против Q

HunyuanImage-2.1 open source генерации изображений 2K

Основные особенности:

🔘Генерация кинематографичных изображений 2048×2048

🔘Нативная поддержка китайского и английского языков

🔘32× компрессия VAE - создание 2K изображений за время генерации 1K у конкурентов

Двухэтапная архитектура

1️⃣ Базовая модель (17B параметров):

- Двойной текстовый энкодер (MLLM + многоязычный ByT5)

- Одно- и двухпотоковый диффузионный трансформер

- RLHF оптимизация для эстетики

2️⃣ Refiner модель:

- Улучшение качества и четкости

- Минимизация артефактов

Новые технологии

🔘PromptEnhancer: Автоматическое улучшение промптов с поддержкой 6 категорий и 24 критериев оценки

🔘Meanflow дистилляция: снижение шагов генерации с 50 до 8, тенсент первые кто нормально внедрили эту технологию

🔘Структурированные описания: Многоуровневая семантическая информация с OCR агентом и IP RAG

Бенчмарки

🔘SSAE оценка: Лучший результат среди open-source моделей (0.8888), близко к GPT-Image

🔘GSB оценка: +2.89% против Qwen-Image, -1.36% против Seedream3.0 (коммерческая)

Системные требования

- NVIDIA GPU с поддержкой CUDA

- Минимум 59GB GPU памяти для генерации 2048×2048

- Linux OS

Поддерживаемые форматы

Соотношения сторон: 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3

GitHub репозиторий | Demo страница | HF

-2
-3
-4
-5