Добавить в корзинуПозвонить
Найти в Дзене

L2P Z-Image: любопытный пиксельный родственник Z-Image, о котором стоит знать чуть больше.

Здравствуйте, друзья. В последние месяцы вокруг генеративных моделей всё происходит по одному и тому же сценарию: выходит что-то новое, вокруг этого сразу собирается плотный туман из громких заголовков, обещаний и чужих пересказов, и становится непонятно, что из этого действительно стоит внимания, а что просто очередная волна шума. С L2P Z-Image история, на мой взгляд, как раз из тех, где лучше не спешить с выводами и спокойно посмотреть, что это вообще за модель, откуда она взялась и зачем вам может быть нужна. Сразу скажу главное: L2P Z-Image - это совсем не «Z-Image 2.0» и не какая-то волшебная замена Turbo. Правильнее воспринимать её как отдельную ветку внутри семейства Z-Image, причём ветку в первую очередь любопытную в инженерном плане. То есть интерес к ней появляется не потому, что нам снова пообещали «ещё больше деталей, ещё меньше шагов и ещё быстрее на любой карте», а потому, что здесь попробовали иначе решить саму задачу генерации. Простыми словами, авторы метода L2P (Laten
Оглавление

Здравствуйте, друзья.

В последние месяцы вокруг генеративных моделей всё происходит по одному и тому же сценарию: выходит что-то новое, вокруг этого сразу собирается плотный туман из громких заголовков, обещаний и чужих пересказов, и становится непонятно, что из этого действительно стоит внимания, а что просто очередная волна шума. С L2P Z-Image история, на мой взгляд, как раз из тех, где лучше не спешить с выводами и спокойно посмотреть, что это вообще за модель, откуда она взялась и зачем вам может быть нужна.

Сразу скажу главное: L2P Z-Image - это совсем не «Z-Image 2.0» и не какая-то волшебная замена Turbo. Правильнее воспринимать её как отдельную ветку внутри семейства Z-Image, причём ветку в первую очередь любопытную в инженерном плане. То есть интерес к ней появляется не потому, что нам снова пообещали «ещё больше деталей, ещё меньше шагов и ещё быстрее на любой карте», а потому, что здесь попробовали иначе решить саму задачу генерации.

Простыми словами, авторы метода L2P (Latent-to-Pixel) берут уже обученную латентную модель, убирают из привычной схемы VAE, меняют внутреннее представление изображения и дообучают только часть сети. Идея в том, чтобы не растить новую дорогую пиксельную модель с нуля, а просто перенести уже накопленные знания в пиксельное пространство. То есть модель остаётся родственницей обычного Z-Image, но внутри работает уже по другой логике.

Откуда всё это взялось

Чтобы понимать, зачем вообще понадобилась L2P-ветка, сначала нужно вспомнить, что такое сам Z-Image. Официальный Tongyi-MAI/Z-Image на Hugging Face - это базовая foundation model всего семейства, тот самый фундамент, на который дальше накладываются вариации, включая Turbo. В модель-карте его описывают довольно ожидаемо: акцент на качестве, широкий набор стилей, нормальное следование промпту и возможность использовать модель как основу для более прикладных решений.

Если захотите посмотреть первоисточник, вот официальная страница базовой модели: Z-Image

А дальше уже появляется L2P. В проекте от NJU-PCALab и Tencent Youtu Lab авторы предлагают не начинать новую пиксельную модель с полного нуля, а перенести в пиксели уже обученную латентную архитектуру. На практике это выглядит так: VAE убирают, картинку представляют через крупные патчи, а дообучают только часть слоёв, не трогая модель целиком.

И вот отсюда как раз и рождается L2P Z-Image. Не новая «сверхмодель», а Z-Image, пропущенная через другую инженерную схему.

Где здесь Base, где Turbo, а где вообще L2P

Мне кажется, путаница вокруг L2P начинается ровно в тот момент, когда её пытаются вписать в привычную линейку «это старая, это новая, а это теперь вообще самая лучшая». На деле всё иначе.

Z-Image Base - это фундамент. Та самая базовая латентная модель, которая нужна, если вам интересна платформа как основа: для дообучения, кастомных пайплайнов, внутренних экспериментов, сервисов и прочей «инженерной кухни».

Z-Image Turbo - это уже не про фундамент, а про практику. Эту версию делали с прицелом на более понятный и прикладной запуск, и именно поэтому вокруг неё уже выросло заметно больше workflow, гайдов, сборок и пользовательских сценариев. Если вам нужно не исследовать, а просто получать стабильную генерацию, Turbo сегодня намного ближе к ощущению «рабочего инструмента» на каждый день.

L2P Z-Image пока стоит немного в стороне. Она интересна не как очередной «апгрейд сверху», а как попытка по-другому решить саму схему генерации - без VAE и с пиксельным представлением. Поэтому честнее говорить не «L2P лучше Turbo», а скорее так: Turbo - это зрелый рабочий вариант, а L2P - архитектурная ветка для тех, кому интересно, что будет, если убрать из цепочки привычный VAE и посмотреть, как модель поведёт себя без него.

Что именно заявляют авторы

Вот здесь я бы особенно рекомендовал не полагаться на чужие пересказы, потому что в них очень быстро рождаются мифы. В официальном описании L2P авторы формулируют задачу довольно сдержанно: они хотят перенести знания исходной латентной модели в пиксельное пространство, выйти на качество, которое остаётся близким к исходной LDM, и убрать зависимость от VAE, чтобы на больших разрешениях модель вела себя по-другому с точки зрения потребления памяти и вычислений.

То есть акцент здесь не на том, что «мы сделали новую королеву генерации», а на том, что мы попробовали сохранить сильные стороны уже обученной модели, но перестроить сам способ её работы. По результатам у авторов выходит картина, в которой пиксельная версия на базе Z-Image показывает близкий уровень на DPG-Bench и около 93% качества исходной модели на GenEval. Отдельно они подчёркивают, что «один шаг инференса в 4K оказывается на 97.67% быстрее, чем у исходной латентной модели с VAE»

И вот здесь важно не приписывать того, чего нет. Нет обещаний типа «одна секунда на картинку», нет универсальной истории про «любой GPU теперь потянет 4K без боли». Речь идёт о сравнении архитектур и о том, как меняется сама структура затрат. А ваши реальные результаты уже все равно будут зависеть от вашего железа, числа шагов, сборки ComfyUI и того workflow, который вы используете.

Что о L2P думают вне официального описания

Если посмотреть обсуждения на Reddit и на смежных площадках, то там, как обычно, больше всего интереса вызывает сама формулировка: Z-Image в pixel-space, без VAE. И это правда звучит интригующе, потому что все уже давно привыкли к латентным моделям и к их типичным ограничениям.

Но дальше разговор довольно быстро приземляется. Кто-то пишет, что ожидал большего, кто-то сравнивает первые результаты с Turbo и не видит причины немедленно всё бросать и переезжать на L2P. И это, на самом деле, нормальная реакция. Когда вокруг модели есть интересная инженерная идея, это ещё не означает, что она автоматически становится лучшим выбором для каждого рабочего сценария.

Похожая история и с визуальным впечатлением. В обзорах L2P‑вариант часто описывают как модель с более насыщенными цветами и чуть более характерным стилем, но иногда с более мягкой проработкой мелких деталей по сравнению с обычным Z-Image. То есть перед нами не универсальный «апгрейд всего», а модель со своим фирменным и иногда интересным почерком.

И мне кажется, именно так её и стоит подавать: не как замену Turbo, а как интересную параллельную ветку, которую любопытно пощупать, протестировать, если вам важна архитектура, характер картинки и high-res эксперименты.

Где скачать саму L2P-модель

Теперь к насущному.

Если вам нужна именно страница скачивания L2P на Hugging Face, то вот она:

L2P на Hugging Face - https://huggingface.co/zhen-nan/L2P
Страница файлов - https://huggingface.co/zhen-nan/L2P/tree/main

Если же вам удобнее брать уже готовую кастомную fine-tune модель, то есть страница на Civitai:

Z-Image L2P INT8 на Civitai - https://civitai.com/models/2645227/z-image-l2pz-image-l2p-int8

На странице Civitai автор поясняет, как запускать представленные модели в ComfyUI: какая ветка нужна, какой PR подтянуть и куда класть саму модель. Честно говоря, если вы захотите тестировать именно эту сборку, проще всего ориентироваться как раз на страницу автора модели: там и workflow и привязка к нужной ветке ComfyUI, и вся минимальная практическая база.

Как запустить L2P Z-Image в ComfyUI

Вот здесь заканчивается романтика новых моделей и начинается обычная техническая рутина. Ничего сложного, но нужно сделать всё по порядку - иначе что-нибудь не подхватится и вам придётся разбираться почему.

На текущий момент L2P запускается только через ComfyUI. В других интерфейсах поддержки пока нет. Дальнейшие шаги предполагают, что ComfyUI у вас уже установлен в portable-варианте для Windows.

Шаг 1. Переключите ComfyUI на нужную ветку

Это самый важный шаг, который легко пропустить. L2P требует специальной ветки ComfyUI - PR 14055. Без неё нужные ноды просто не появятся в интерфейсе и модель не загрузится.

Откройте папку ComfyUI_windows_portable\ComfyUI в проводнике. Кликните по адресной строке вверху окна - там где написан путь к папке - введите cmd и нажмите Enter. Откроется чёрное окно терминала уже внутри нужной директории.

Введите первую команду и нажмите Enter:

git fetch origin pull/14055/head:pr-14055

Подождите пока выполнится - она подтягивает нужную ветку из официального репозитория ComfyUI. Затем введите вторую:

git checkout pr-14055

Эта команда переключает ваш ComfyUI на эту ветку. Терминал должен написать что-то вроде Switched to branch 'pr-14055' - значит всё прошло нормально.

Теперь закройте этот терминал и откройте новый - уже из папки ComfyUI_windows_portable (на уровень выше). Так же: кликните по адресной строке проводника, введите cmd, нажмите Enter. В этом новом терминале обновите зависимости:

.\python_embeded\python.exe -m pip install -r .\ComfyUI\requirements.txt

Дождитесь завершения - это может занять пару минут.

Шаг 2. Скачайте файл модели

Откройте в браузере страницу файлов модели на Hugging Face:

huggingface.co/zhen-nan/L2P/tree/main

Там один файл — model-1k-merge.safetensors весом 19.6 GB. Справа от названия файла есть иконка со стрелкой вниз — нажмите на неё, начнётся загрузка.

Если предпочитаете версию полегче, на Civitai есть bf16-сборка весом 18.23 GB:

civitai.com/models/2645227/z-image-l2pz-image-l2p-int8

Шаг 3. Положите модель в нужную папку

Когда файл скачался, переместите его через проводник в нужную папку. Куда именно - зависит от версии.

Если взяли обычную bf16-версию:

ComfyUI_windows_portable\ComfyUI\models\checkpoints\

Если взяли INT8-версию с Civitai:

ComfyUI_windows_portable\ComfyUI\models\diffusion_models\

Шаг 4. Установите ComfyUI-INT8-Fast - только для INT8-версии

Если вы взяли обычную bf16-версию - этот шаг пропускайте.

Для INT8-версии нужен дополнительный custom node. Откройте папку ComfyUI_windows_portable\ComfyUI\custom_nodes в проводнике, кликните по адресной строке, введите cmd, нажмите Enter. Выполните:

git clone https://github.com/BobJohnson24/ComfyUI-INT8-Fast.git

Дождитесь завершения, затем зайдите в папку и установите зависимости:

cd ComfyUI-INT8-Fast
..\..\python_embeded\python.exe -m pip install -r requirements.txt

Шаг 5. Загрузите workflow и запустите

Не используйте стандартный workflow от Z-Image Turbo - он рассчитан на схему с VAE, а L2P работает без него.

Правильный workflow лежит на странице модели на Civitai. Откройте страницу, найдите вкладку Workflow вверху под названием модели и нажмите на неё. Вы увидите изображение с встроенным графом. Нажмите правой кнопкой на изображение, сохраните его на диск.

Запустите ComfyUI из папки ComfyUI_windows_portable:

run_nvidia_gpu.bat

Когда интерфейс откроется в браузере - просто перетащите сохранённое изображение прямо в окно ComfyUI. Граф загрузится автоматически, никаких JSON-файлов вручную открывать не нужно. Убедитесь что модель подхватилась, введите тестовый промпт и запускайте.

Альтернативный вариант: ноды ggf-ltp-zimage

Если хотите более гибкого контроля над пайплайном, есть отдельный набор кастомных нод специально под L2P Z-Image - ggf-ltp-zimage. Для этого варианта помимо самой модели нужен токенизатор. Разберём всё по порядку.

Репозиторий: github.com/gjnave/ggf-ltp-zimage

Установка нод

Откройте папку ComfyUI_windows_portable\ComfyUI\custom_nodes в проводнике, откройте терминал (адресная строка → cmd → Enter) и выполните:

git clone https://github.com/gjnave/ggf-ltp-zimage.git

Затем зайдите в папку и установите зависимости:

cd ggf-ltp-zimage
..\..\python_embeded\python.exe -m pip install -r requirements.txt

После этого перезапустите ComfyUI. В интерфейсе появятся два новых нода: L2P Z-Image Pipeline Loader и L2P Z-Image Generate.

Текстовый энкодер для модели используем именно Qwen3_4B, не 9B

Откройте в браузере:
huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/text_encoders

Скачайте файл qwen_3_4b.safetensors и положите его сюда:

ComfyUI_windows_portable\ComfyUI\models\text_encoders\qwen_3_4b.safetensors

Если папки text_encoders нет - создайте её вручную через проводник.

Токенизатор Z-Image-Turbo

Откройте в браузере:
huggingface.co/Tongyi-MAI/Z-Image-Turbo/tree/main/tokenizer

Скачайте четыре файла - для каждого нажмите на иконку загрузки рядом с ним:

  • merges.txt
  • tokenizer.json
  • tokenizer_config.json
  • vocab.json

Создайте в проводнике вложенную папку и положите все четыре файла внутрь:

ComfyUI_windows_portable\ComfyUI\models\text_encoders\Z-Image-Turbo-tokenizer\tokenizer\

Проверьте структуру папок

Перед запуском убедитесь, что у вас всё выглядит именно так - нод ищет файлы по точным путям и именам:

ComfyUI_windows_portable\ComfyUI\
├── models\
│ ├── checkpoints\
│ │ └── model-1k-merge.safetensors
│ └── text_encoders\
│ ├── qwen_3_4b.safetensors
│ └── Z-Image-Turbo-tokenizer\
│ └── tokenizer\
│ ├── merges.txt
│ ├── tokenizer.json
│ ├── tokenizer_config.json
│ └── vocab.json
└── custom_nodes\
└── ggf-ltp-zimage\

Workflow для этого варианта

Готовый workflow лежит прямо внутри скачанного репозитория по пути:

ComfyUI_windows_portable\ComfyUI\custom_nodes\ggf-ltp-zimage\workflows\ggf_l2p_zimage_6b_no_vae.json

Запустите ComfyUI через run_nvidia_gpu.bat, нажмите кнопку Load в интерфейсе, найдите этот JSON-файл и загрузите его. Граф соберётся автоматически с нужными нодами и правильными путями к файлам. Вводите промпт и запускайте первую генерацию.

Что нужно для обычного Z-Image и Turbo, чтобы не путаться

Здесь полезно отдельно проговорить разницу, потому что именно на этом месте чаще всего начинается каша.

Если вы запускаете обычный Z-Image или Z-Image Turbo, схема значительно привычнее. Официальные примеры и гайды по семейству Z-Image обычно опираются на три основных файла: diffusion model, текстовый энкодер qwen_3_4b.safetensors и VAE ae.safetensors. Раскладывается это по стандартным папкам: models/diffusion_models, models/text_encoders и models/vae.

То есть в обычной ветке всё живёт по знакомой схеме: модель, qwen‑энкодер, VAE, workflow - и вы поехали. L2P ломает эту привычную логику, и именно поэтому к ней нужен отдельный подход, отдельная совместимая ветка ComfyUI и отдельный workflow.

Стоит ли вообще тратить время

На мой взгляд, здесь всё упирается не в «лучше/хуже», а в ваш сценарий.

Если вам нужен понятный, стабильный рабочий инструмент для повседневной генерации, особенно в районе 1K–2K, плюс вся привычная инфраструктура в виде lora, workflow, гайдов и кастомных моделей, то Z-Image Turbo сейчас выглядит заметно практичнее. У него банально более взрослая экосистема.

Если же вам интереснее не просто результат, а сам подход — как меняется характер изображения без VAE, как ведёт себя пиксельная схема, где начинаются плюсы, а где компромиссы — тогда L2P вполне заслуживает отдельного вечера экспериментов.

В завершение можете посмотреть и понять характер модели, важны не только цифры, но и живые сцены. Ниже немного примеров.
Я намеренно не стал выкладывать "отполированные" изображения, чтобы вы понимали, что на самом деле ждать от этой модели. Все изображения это результат одной единственной генерации по каждому промпту.

1. Многоязычный постер

Prompt:

A modern flat poster design, large Russian title at the top: “ФЕСТИВАЛЬ СВЕТА”, English subtitle “LIGHT FESTIVAL 2026” under it, small Chinese text “光之节日” at the bottom, clean minimal layout, pastel colors, white background, high resolution.
-2

2. Киберпанк‑улица с вывесками

Prompt:

A rainy cyberpunk street at night, neon shop signs in Russian, English and Chinese, wet asphalt, colorful reflections, people with umbrellas, cinematic lighting, high detail, 4k.
-3

3. Фотореалистичный портрет

Prompt:

A realistic portrait of a young woman, natural window light from the side, 50mm lens look, detailed skin, soft shadows, neutral background, shallow depth of field, 4k.
-4

4. Аниме‑стиль

Prompt:

Anime style close-up of a girl looking at the sky, sunset background, warm colors, big expressive eyes, clean line art, soft gradients, cel shading, high resolution.
-5

5. Масляная живопись

Prompt:

An oil painting of a stormy sea with a sailing ship, dramatic sky, thick visible brush strokes, textured canvas look, rich color contrast between warm light and cold waves, museum quality.
-6

6. Импрессионизм

Prompt:

Impressionist painting of a city park in spring, soft blobs of color, loose brush strokes, people walking, sunlight through the trees, pastel tones, painterly look.
-7

7. 3D‑рендер / CGI

Prompt:

A 3D render style image of a futuristic spaceship parked in a hangar, realistic metal materials, reflections, global illumination, volumetric light beams, detailed machinery, 4k.
-8

8. Low‑poly графика

Prompt:

Low-poly illustration of a small island with a lighthouse, simple geometric shapes, flat colors, isometric view, clean outlines, pastel palette.
-9

9. Фэнтези‑пейзаж

Prompt:

Epic fantasy landscape, floating islands in the sky, waterfalls falling into clouds, distant castles on cliffs, warm sunset light, dramatic clouds, cinematic wide shot, high detail.
-10

10. Графический дизайн без текста

Prompt:

Abstract geometric poster, bold red, black and white shapes, strong contrast, balanced composition, no text, modern graphic design style, high resolution.
-11

11. Изометрический городской пейзаж

Prompt:

Isometric illustration of a small modern city block, colorful houses, trees, cars on the road, clean low-detail geometry, flat colors, sunny day, high resolution.
-12

12. Пиксель‑арт

Prompt:

Pixel art scene of a night city street, 32x32 style enlarged, tiny glowing windows, a few characters walking, neon sign, gnHvvTh2DDA color palette, retro game look.
-13

13. Комикс‑панель (чёрно‑белая)

Prompt:

Black and white comic panel, dynamic scene of a hero jumping between rooftops, strong ink lines, high contrast shadows, no screentone, graphic novel style.
-14

14. Комикс‑страница с несколькими панелями

Prompt:

Comic page layout with four panels, each panel showing a different moment in a short action scene, clean gutters between panels, colored comic book style, consistent character design across all panels.
-15

15. Лайн‑арт без цвета

Prompt:

Clean line art drawing of a fantasy warrior in armor, no colors, only black lines on white background, consistent line weight, detailed armor ornaments, manga-style line quality.
-16

16. Детская книжная иллюстрация

Prompt:

Cute children’s book illustration of a little fox and a bear having a picnic on a meadow, soft rounded shapes, bright but gentle colors, simple friendly faces, storybook style, no text.
-17

17. Мультфильм в духе Disney/Pixar

Prompt:

Cartoon style image of a family standing in front of their house, big expressive eyes, clean shading, bright colors, soft outlines, Pixar/Disney-inspired look (no trademarks).
-18

18. Тёмный хоррор‑арт

Prompt:

Dark horror illustration of an abandoned corridor with flickering lights, subtle shadows hinting at a creature at the end, gritty textures, desaturated colors, cinematic horror atmosphere.
-19

19. Сюрреализм

Prompt:

Surreal artwork of a giant floating eye above a desert, people walking on staircases that lead to nowhere, impossible architecture, muted warm colors, painterly style.
-20

20. Набор векторных иконок

Prompt:

A set of 12 flat vector-style icons on a white background, simple shapes, consistent line weight and color palette, icons for phone, camera, cloud, settings, message, music, clean minimal style.
-21

21. Архитектурный скетч

Prompt:

Architectural sketch of a modern house, black pencil lines on white paper, perspective view, visible construction lines, minimal shading, blueprint/sketchbook feel.
-22

22. Реалистическое food‑фото

Prompt:

A realistic food photo of a ramen bowl on a wooden table, steam rising, detailed noodles, egg, pork slices, green onions, natural restaurant lighting, shallow depth of field, 4k.
-23

23. Макро‑фото

Prompt:

Macro photograph of a dew drop on a leaf, detailed water reflections, soft blurred background (bokeh), natural morning light, high detail.
-24

24. Современный небоскрёб

Prompt:

A realistic photograph of a modern glass skyscraper from a low angle, strong perspective, reflections of clouds in the glass, blue sky, sharp details.
-25

25. Ретрофутуризм / synthwave

Prompt:

Retro-futuristic synthwave landscape, neon grid ground, sun with stripes on the horizon, mountains in the distance, purple and pink color palette, 80s retro style.
-26

26. Коллажный стиль

Prompt:

Artistic collage style image combining cut-out photos and paper textures, a person’s silhouette filled with landscape images, torn paper edges, visible glue marks, mixed media feel.
-27

27. Флэт‑иллюстрация персонажа

Prompt:

Flat illustration of a person working at a desk with a laptop, simple shapes, gnHvvTh2DDA color palette, no gradients, modern flat design style, clean and minimal.
-28

28. Ночной городской стрит‑фото

Prompt:

Night street photography style image, a lonely person walking under a street lamp, wet pavement, strong contrast, blurred cars in the background, cinematic color grading.
-29

Надеюсь моя статья была интересной и помогла вам.

Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.