Найти в Дзене
Social Mebia Systems

Alibaba Qwen Image: «AI Photoshop» из Китая

19 августа Alibaba представила Qwen‑Image, универсальную модель генерации и редактирования изображений, которая сразу взлетела на первое место на HuggingFace. Её позиционируют как «новое поколение Photoshop», но основанное не на кистях и слоях, а на семантических подсказках (prompt’ах).

🎯 Что решает Qwen‑Image

  • Главные проблемы индустрии:
  • слабая работа с текстом в картинке (особенно многословные подписи, китайские иероглифы);
  • трудности в редактировании: замена объектов ломает фон, смена позы разрушает ткань или черты лица.

Новая архитектура и прогрессивное обучение, совмещающее семантику и визуальные детали. Десятки миллиардов пар «текст+картинка» → отфильтрованы через 7‑ступенчатый pipeline (от базового разрешения до эстетической «чистки»).

Три подхода к автогенерации текстовых картинок («чистое рендеринг», «комбинированное», «сложное»). Курс‑обучение: сначала простые изображения, затем сложные; постепенно добавление текста, улучшение качества.

Архитектура:

  • Qwen2.5‑VL = условный семантический энкодер;
  • VAE = «один энкодер + два декодера», закладывает задел и под видео;
  • MMDiT = multimodal diffusion transformer с новой позиционной кодировкой MSROPE для лучшей стыковки текста и изображения.

Двойное кодирование:

  • семантические признаки (понимание: что менять);
  • визуальные признаки (сохранение: что оставить).

📊 Результаты

  • На тестах Qwen‑Image превзошёл конкурентов в:
  • сложном текстовом рендеринге (английский + китайский, многострочные надписи);
  • точном редактировании (сохранение фона, идентичности героя).
  • Примеры:
  • «Горящий айсберг»: Qwen аккуратнее отрисовал лед, но сцена у GPT‑5 выглядела более целостной.
GPT‑5
GPT‑5
Qwen
Qwen
  • «Кот с табличкой»: Qwen мягко поднял кота в воздух, GPT‑5 же «улетел» в космос.
GPT‑5
GPT‑5
Qwen Image
Qwen Image
  • Маск на Марсе: GPT‑5 и Gemini отказались менять исходник (на нём был флаг США) → Qwen‑Image справился, «перенеся Маска на поверхность Марса» (правда, случайно состарив героя).
Оригинал фото:
Оригинал фото:
Qwen‑Image
Qwen‑Image

📐 Сравнение с Photoshop

  • Photoshop = пиксели, слои, точный контроль.
  • Qwen‑Image = семантика, вероятностное «представление».
  • В PS: кисть, лассо, маска, работа точечная.
  • В Qwen‑Image: «пусть она встанет и положит руку на талию» — генерится новая поза с деталями ткани и лица.
  • Философия:
  • PS = максимально точный инструмент в руках профессионала.
  • Qwen‑Image = быстрое воплощение идей для креаторов, маркетологов, пользователей без дизайнового опыта.

🌐 Значение

  • Снижает входной порог в графический дизайн (prompt вместо владения инструментарием).
  • Может стать «AI‑слоем для всех», встроенным внутрь Photoshop/Figma и других редакторов.
  • Демонстрирует, что Китай уже играет на уровне GPT‑5/Gemini не только в тексте, но и в визуале.

📌 Вывод

Qwen‑Image — это не замена Photoshop, а новая парадигма работы с изображением:

  • Photoshop остаётся незаменимым для прецизионных задач (брендинг, типографика, контроль пикселя).
  • Qwen‑Image тащит, когда нужна оперативность и креативность: маркетинговые макеты, концепт‑арт, «пересобрать сцену» по одной фразе.

Иными словами, это «Photoshop на языке естественных подсказок», и очень похоже, что именно эта связка станет будущим стандартом.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/