Приветствую!
Qwen-Image — новая модель для генерации и редактирования изображений по текстовым промптам.
Архитектура — MMDiT, объём — 20B параметров. Хорошо следует промптам, особенно коротким и конкретным.
Что умеет
- Генерация изображений по тексту.
- Редактирование:
перенос стиля;
вставка и удаление объектов;
улучшение деталей;
замена/редактирование текста;
изменение поз. - Анализ изображений:
обнаружение объектов;
семантическая сегментация;
получение карты глубины (Depth) и краёв (Canny). - Генерация новой точки обзора.
- Апскейл.
Особенности
- Лучшая работа с промптами, где текста мало и он крупный/конкретный.
- Сложные и перегруженные промпты могут вызывать артефакты.
- Поддерживаются только английский и китайский.
- Полное использование VRAM, избыток данных выгружается в ОЗУ.
Сравнение с другими графическими моделями
VRAM / ОЗУ и производительность
- fp8 — ≈20.4 GB VRAM, на RTX 4090 (24 GB) загружает ~86 % памяти, время генерации:
первый запуск ~94 с;
повторный ~71 с. - bf16 — ≈41 GB VRAM, ~96 % на 24 GB с частичным оффлоадом, время:
первый запуск ~295 с;
повторный ~131 с. - Минимум для полной модели — 24 GB VRAM.
Оптимизированные варианты:
4-бит квантование (AutoGPTQ) — ~8 GB VRAM, но ниже скорость.
DFloat11 (lossless, без потери качества) — можно запустить на 16 GB VRAM с CPU-offload.
- Излишки данных активно выгружаются в ОЗУ, так что при больших изображениях нужна и высокая ёмкость системной памяти.
Технические детали
Модели:
- fp8 — ~20 GB
Редактирование изображений с Qwen Image
Запуск
Советы
- Для больших сцен с высоким разрешением используйте оффлоад в ОЗУ, но убедитесь, что у вас достаточно оперативной памяти.
- Короткие промпты работают стабильнее, длинные лучше разбивать на несколько шагов.
Cпасибо, что дочитали до конца! 🙏
Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:
Так же заходите в мою группу в VK и на канал Телеграм.