426 подписчиков

HunyuanImage-2.1 open source генерации изображений 2K

9 сентября 20259 сен 2025

1 мин

HunyuanImage-2.1 open source генерации изображений 2K Основные особенности: 🔘Генерация кинематографичных изображений 2048×2048 🔘Нативная поддержка китайского и английского языков 🔘32× компрессия VAE - создание 2K изображений за время генерации 1K у конкурентов Двухэтапная архитектура 1️⃣ Базовая модель (17B параметров): - Двойной текстовый энкодер (MLLM + многоязычный ByT5) - Одно- и двухпотоковый диффузионный трансформер - RLHF оптимизация для эстетики 2️⃣ Refiner модель: - Улучшение качества и четкости - Минимизация артефактов Новые технологии 🔘PromptEnhancer: Автоматическое улучшение промптов с поддержкой 6 категорий и 24 критериев оценки 🔘Meanflow дистилляция: снижение шагов генерации с 50 до 8, тенсент первые кто нормально внедрили эту технологию 🔘Структурированные описания: Многоуровневая семантическая информация с OCR агентом и IP RAG Бенчмарки 🔘SSAE оценка: Лучший результат среди open-source моделей (0.8888), близко к GPT-Image 🔘GSB оценка: +2.89% против Q

Основные особенности:

🔘Генерация кинематографичных изображений 2048×2048

🔘Нативная поддержка китайского и английского языков

🔘32× компрессия VAE - создание 2K изображений за время генерации 1K у конкурентов

Двухэтапная архитектура

1️⃣ Базовая модель (17B параметров):

- Двойной текстовый энкодер (MLLM + многоязычный ByT5)

- Одно- и двухпотоковый диффузионный трансформер

- RLHF оптимизация для эстетики

2️⃣ Refiner модель: