Будущее генерации не за красивыми картинками, а за PSD-файлами? Современные генеративные модели похожи на талантливых импульсивных художников. Они могут создать шедевр, но стоит попросить их немного подвинуть один объект и точечно изменить яркость другого – они психанут, перерисуют всю картинку заново, попутно поменяв какие-то детали. Проблема в том, что для нейросети объект и фон – это единое целое, поэтому любое вмешательство вызывает непредсказуемые изменения контента. Индустрия пытается лечить это костылями, вырезая объекты масками и заполняя дыры. Чтобы избавиться от костылей, Alibaba предложила архитектуру Qwen-Image-Layered, которая меняет сам принцип создания изображения. Вместо того чтобы рисовать плоский холст и потом пытаться его разрезать, модель изначально генерирует несколько слоёв, обучившись на реальных PSD-файлах. Это позволяет ей нативно понимать прозрачность и структуру сцены, отделяя текст, персонажей и фон еще на этапе генерации картинки. Фактически, нейросеть пере