Найти в Дзене
Neuro-сеть

Qwen-Image: генерация и редактирование изображений от Alibaba

Оглавление

Приветствую!

Qwen-Image — новая модель для генерации и редактирования изображений по текстовым промптам.

Архитектура —
MMDiT, объём — 20B параметров. Хорошо следует промптам, особенно коротким и конкретным.

Что умеет

  1. Генерация изображений по тексту.
  2. Редактирование:
    перенос стиля;
    вставка и удаление объектов;
    улучшение деталей;
    замена/редактирование текста;
    изменение поз.
  3. Анализ изображений:
    обнаружение объектов;
    семантическая сегментация;
    получение карты глубины (Depth) и краёв (Canny).
  4. Генерация новой точки обзора.
  5. Апскейл.

Особенности

  • Лучшая работа с промптами, где текста мало и он крупный/конкретный.
  • Сложные и перегруженные промпты могут вызывать артефакты.
  • Поддерживаются только английский и китайский.
  • Полное использование VRAM, избыток данных выгружается в ОЗУ.
Сравнение с другими графическими моделями
Сравнение с другими графическими моделями

VRAM / ОЗУ и производительность

  • fp8 — ≈20.4 GB VRAM, на RTX 4090 (24 GB) загружает ~86 % памяти, время генерации:
    первый запуск ~94 с;
    повторный ~71 с.
  • bf16 — ≈41 GB VRAM, ~96 % на 24 GB с частичным оффлоадом, время:
    первый запуск ~295 с;
    повторный ~131 с.
  • Минимум для полной модели — 24 GB VRAM.

Оптимизированные варианты:
4-бит квантование (AutoGPTQ) — ~8 GB VRAM, но ниже скорость.
DFloat11 (lossless, без потери качества) — можно запустить на 16 GB VRAM с CPU-offload.

  • GGUF-версии:
    1.
    city96

    2.
    calcuis
  • Излишки данных активно выгружаются в ОЗУ, так что при больших изображениях нужна и высокая ёмкость системной памяти.

Технические детали

Модели:

  • fp8 — ~20 GB
  • bf16 — ~41 GB

    Текстовый энкодер:
    Qwen 2.5 VL 7B (fp8 или fp16).
Редактирование изображений с Qwen Image
Редактирование изображений с Qwen Image

Запуск

Советы

  • Для слабых GPU (≤16 GB VRAM) пробуйте GGUF или DFloat11.
  • Для больших сцен с высоким разрешением используйте оффлоад в ОЗУ, но убедитесь, что у вас достаточно оперативной памяти.
  • Короткие промпты работают стабильнее, длинные лучше разбивать на несколько шагов.

Cпасибо, что дочитали до конца! 🙏

Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:

Neuro-сеть | Дзен

Так же заходите в мою группу в VK и на канал Телеграм.

Вам может понравится: