176 подписчиков

Qwen-Image: генерация и редактирование изображений от Alibaba

10 августа 202510 авг 2025

1 мин

Приветствую! Qwen-Image — новая модель для генерации и редактирования изображений по текстовым промптам.

Архитектура — MMDiT, объём — 20B параметров. Хорошо следует промптам, особенно коротким и конкретным. Оптимизированные варианты:

4-бит квантование (AutoGPTQ) — ~8 GB VRAM, но ниже скорость.

DFloat11 (lossless, без потери качества) — можно запустить на 16 GB VRAM с CPU-offload. Модели: Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал: Так же заходите в мою группу в VK и на канал Телеграм.

Приветствую! Qwen-Image — новая модель для генерации и редактирования изображений по текстовым промптам.

4-бит квантование (AutoGPTQ) — ~8 GB VRAM, но ниже скорость.

Оглавление

Что умеет
Особенности
VRAM / ОЗУ и производительность

Приветствую!

Qwen-Image — новая модель для генерации и редактирования изображений по текстовым промптам.

Архитектура — MMDiT, объём — 20B параметров. Хорошо следует промптам, особенно коротким и конкретным.

Что умеет

Генерация изображений по тексту.
Редактирование:
перенос стиля;
вставка и удаление объектов;
улучшение деталей;
замена/редактирование текста;
изменение поз.
Анализ изображений:
обнаружение объектов;
семантическая сегментация;
получение карты глубины (Depth) и краёв (Canny).
Генерация новой точки обзора.
Апскейл.

Особенности

Лучшая работа с промптами, где текста мало и он крупный/конкретный.
Сложные и перегруженные промпты могут вызывать артефакты.
Поддерживаются только английский и китайский.
Полное использование VRAM, избыток данных выгружается в ОЗУ.

VRAM / ОЗУ и производительность

fp8 — ≈20.4 GB VRAM, на RTX 4090 (24 GB) загружает ~86 % памяти, время генерации:
первый запуск ~94 с;
повторный ~71 с.
bf16 — ≈41 GB VRAM, ~96 % на 24 GB с частичным оффлоадом, время:
первый запуск ~295 с;
повторный ~131 с.
Минимум для полной модели — 24 GB VRAM.

Оптимизированные варианты:
4-бит квантование (AutoGPTQ) — ~8 GB VRAM, но ниже скорость.
DFloat11 (lossless, без потери качества) — можно запустить на 16 GB VRAM с CPU-offload.

GGUF-версии:
1. city96

2. calcuis
Излишки данных активно выгружаются в ОЗУ, так что при больших изображениях нужна и высокая ёмкость системной памяти.

Технические детали

Модели:

fp8 — ~20 GB
bf16 — ~41 GB

Текстовый энкодер: Qwen 2.5 VL 7B (fp8 или fp16).

Запуск

Демо: HuggingFace Spaces и chat.qwen.ai
Workflow для ComfyUI: CivitAI
Обучение LoRA: FlyMyAi
Интеграция в Krea

Советы

Для слабых GPU (≤16 GB VRAM) пробуйте GGUF или DFloat11.
Для больших сцен с высоким разрешением используйте оффлоад в ОЗУ, но убедитесь, что у вас достаточно оперативной памяти.
Короткие промпты работают стабильнее, длинные лучше разбивать на несколько шагов.

Cпасибо, что дочитали до конца! 🙏

Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:

dzen.ru

Neuro-сеть | Дзен

Так же заходите в мою группу в VK и на канал Телеграм.

Вам может понравится:

Полный гайд по Tongyi Wan2.1 в ComfyUI. Пошаговое руководство

Neuro-сеть12 марта 2025