544 подписчика

ERNIE‑Image и ERNIE‑Image‑Turbo: тихий конкурент Z‑Image или новый фаворит для повседневной генерации?

20 апреля20 апр

14 мин

Здравствуйте, друзья! Пока мы с вами осваивали Flux 2 Klein да Z‑Image Base с его Turbo‑версией, Baidu тихо подсунула свою пару моделей: ERNIE‑Image и ERNIE‑Image‑Turbo. В англоязычных обзорах их, как водится, уже хвалят за умение работать с текстом и сложными промптами. Но нас с вами интересует не рекламный шум, а практика: насколько эта связка реально полезна в повседневной генерации — от портретов и аниме до плакатов, иконок, 3D‑рендеров и прочих наших хотелок. Я погонял ERNIE по разным задачам и собрал впечатления в формате, похожем на прошлый обзор Z‑Image Base: немного теории, минимум воды и небольшой блок наглядных примеров, чтобы вы могли сами оценить характер модели, а не верить чужим словам. Важно понимать, что ERNIE‑Image — это не случайный чекпоинт с Civitai, а часть большой линейки моделей от Baidu. Baidu — китайский IT‑гигант уровня а-ля «местный Google»: свой поисковик, карты, облачные сервисы и мощное направление по ИИ‑решениям. В рамках этого направления уже несколько

Оглавление

Кто такой ERNIE‑Image и при чём тут Baidu
И чем же ERNIE‑Image и Turbo реально выделяются на фоне других моделей спросите вы.
Как подключить ERNIE‑Image в Forge UI Neo

Здравствуйте, друзья!

Пока мы с вами осваивали Flux 2 Klein да Z‑Image Base с его Turbo‑версией, Baidu тихо подсунула свою пару моделей: ERNIE‑Image и ERNIE‑Image‑Turbo. В англоязычных обзорах их, как водится, уже хвалят за умение работать с текстом и сложными промптами. Но нас с вами интересует не рекламный шум, а практика: насколько эта связка реально полезна в повседневной генерации — от портретов и аниме до плакатов, иконок, 3D‑рендеров и прочих наших хотелок.

Я погонял ERNIE по разным задачам и собрал впечатления в формате, похожем на прошлый обзор Z‑Image Base: немного теории, минимум воды и небольшой блок наглядных примеров, чтобы вы могли сами оценить характер модели, а не верить чужим словам.

Кто такой ERNIE‑Image и при чём тут Baidu

Важно понимать, что ERNIE‑Image — это не случайный чекпоинт с Civitai, а часть большой линейки моделей от Baidu.

Baidu — китайский IT‑гигант уровня а-ля «местный Google»: свой поисковик, карты, облачные сервисы и мощное направление по ИИ‑решениям. В рамках этого направления уже несколько лет развивают семейство моделей ERNIE (Enhanced Representation through kNowledge IntEgration) — это их флагманские foundation‑модели для текста, изображений и мультимодальности.

Из этого семейства нам важны две ветки:

ERNIE 5.0 — огромная мультимодальная модель на 2,4 трлн параметров, которая умеет текст, картинки, аудио и использует архитектуру Mixture‑of‑Experts, чтобы не грузить все параметры одновременно.
ERNIE‑Image — отдельная открытая text‑to‑image‑модель, разработанная выделенной командой ERNIE‑Image в Baidu.

Официально ERNIE‑Image описывают так: это открытая модель генерации изображений по тексту, построенная на одно потоковом Diffusion Transformer (DiT) и дополненная лёгким Prompt Enhancer, который разворачивает короткие запросы в более богатое структурированное описание.

Ключевые моменты:

Модель публикуется с открытыми весами и лицензией Apache‑2.0, то есть её можно легально использовать и дообучать в коммерческих проектах.
Baidu позиционирует её как флагманский open‑source генератор изображений в своей линейке, а не побочный эксперимент.

Следом Baidu выпустила ERNIE‑Image‑Turbo — дистиллированную версию ERNIE‑Image, оптимизированную под быструю генерацию примерно за 8 шагов. В описании Turbo прямо указано, что это «distilled release of ERNIE‑Image», то есть ускоренный профиль той же архитектуры, а не отдельная модель с нуля.

И чем же ERNIE‑Image и Turbo реально выделяются на фоне других моделей спросите вы.

Если смотреть не на маркетинг, а на реальные данные и тесты, то картина получается такая:

В бенчмарках вроде LongTextBench и GENEval ERNIE‑Image показывает очень высокие результаты по сложным текстовым запросам и сценам с текстом - формально это один из сильных open‑source вариантов для задач «текст в картинке» и сложных инструкций.
ERNIE‑Image‑Turbo даёт комфортные картинки уже на 8 шагах, что делает его удобным для быстрых итераций и массовой генерации.
В документации и репозитории подчёркивается, что модель поддерживает широкий спектр стилей: реализм, дизайн‑ориентированный визуал, стилизованный арт и т.п.

Если перевести это на человеческий:

Сильная сторона - сцены, где есть структура и/или текст: плакаты, UI, инфографика, вывески, «экран ноутбука».
Стилевой диапазон - нормальный, не хуже других DiT: портреты, аниме, живопись, 3D‑рендер, графдизайн и прочее.
Turbo‑режим действительно полезен, если вы любите работать быстро и много экспериментировать: 8 шагов, приличное качество и адекватный текст.

Я бы не называл эти бенчмарки «чудом», но на фоне других открытых моделей ERNIE выглядит уверенно (правда не всегда) - особенно там, где в сцене есть текст и сложный layout.

Как подключить ERNIE‑Image в Forge UI Neo

Forge Classic/Neo уже умеет работать с ERNIE‑Image и Turbo, поддержка завезена официально после обновления проекта. (обновите ваш ForgeUI Neo)

Общий порядок действий:

Скачайте модели с Hugging Face или Civitai.com:
baidu/ERNIE-Image — базовая модель

ссылки на модели на ciмitai.com

baidu/ERNIE-Image-Turbo — ускоренная версия

ссылки на модели на civitai.com

квантованная версия модели для владельцев видеокарт Nvidia 50++

и тестовая кастомная версия модели от уважаемого Fascium

1.1 Куда класть модели, VAE и энкодеры (ComfyUI и Forge UI Neo)

Сначала качаем файлы для работы модели ERNIE‑Image:

текстовые энкодеры:
ministral-3-3b.safetensors
ernie-image-prompt-enhancer.safetensors
VAE:
flux2-vae.safetensors

Дальше раскладываем по папкам.

ComfyUI

В стандартной портативной сборке пути такие (внутри папки ComfyUI/models):

Чекпоинты ERNIE‑Image / ERNIE‑Image‑Turbo
кладём в: ComfyUI/models/checkpoints/ (все «обычные» SD/Flux/ERNIE чекпоинты лежат именно здесь).
Текстовые энкодеры
ministral-3-3b.safetensors
ernie-image-prompt-enhancer.safetensors кладём в: ComfyUI/models/clip/
VAE (flux2-vae.safetensors)
кладём в: ComfyUI/models/vae/

Если у вас вынесенный models‑каталог через extra_model_paths.yaml, то в этих путях меняется только базовая директория, а подпапки (checkpoints, clip, vae) остаются такими же.

Forge UI Neo

У Forge Neo всё лежит в директории models внутри папки установки stable-diffusion-webui-forge (или там, куда вы его клонировал).

Рекомендуемые пути:

Чекпоинты ERNIE‑Image / ERNIE‑Image‑Turbo
кладём в: stable-diffusion-webui-forge/models/Stable-diffusion/ (как обычные SD/Flux модели).
Текстовые энкодеры
ministral-3-3b.safetensors
ernie-image-prompt-enhancer.safetensors кладём в: stable-diffusion-webui-forge/models/text_encoder/ — это тот же путь, который используют гайды по FLUX/ERNIE для Forge Neo.
VAE (flux2-vae.safetensors) в актуальных гайдах для Flux/ERNIE в Forge Neo рекомендуют класть VAE тоже в: stable-diffusion-webui-forge/models/VAE/

т.е
— энкодеры → models/text_encoder/,
— VAE → models/VAE/

После того как всё разложено, перезапускаете Forge Neo. В списке моделей должны появиться ERNIE‑Image / ERNIE‑Image‑Turbo, а в выпадающих списках VAE и text encoder — соответствующие файлы.

Рекомендуемые настройки:
Для ERNIE‑Image‑Turbo:
шаги: 8;
CFG в районе 1.0–3.0 (слишком высокий CFG может портить текст и композицию);
размер кадров под задачи: постеры и UI — лучше 768+ по длинной стороне.
Для ERNIE‑Image (base):
шаги: от 30–50 для максимальной детализации;
CFG: можно чуть выше, но без фанатизма, чтобы не подавлять Prompt Enhancer.

Дальше Forge UI Neo с ERNIE используется как любой другой DiT:
вводите промпт. генерируете изображение.

Как использовать ERNIE‑Image в ComfyUI

У ComfyUI у ERNIE‑Image — day‑0 поддержка: есть готовые шаблоны и официальные гайды.

Быстрый старт через Template

Самый простой вариант — не собирать граф вручную, а взять готовый шаблон.

Обновите ComfyUI до последней версии или используйте Comfy Cloud.
В интерфейсе откройте вкладку Template и в поиске введите ERNIE‑Image.
Выберите подходящий шаблон (Base или Turbo).
ComfyUI предложит докачать недостающие модели (сам ERNIE‑Image/ Turbo, VAE, текстовый энкодер) — соглашаетесь и ждёте загрузки.
Вводите свой промпт, при необходимости правите размер, шаги и CFG, нажимаете Run / Queue Prompt.

Шаблон уже содержит:

ноду загрузки модели (Base или Turbo);
текстовый энкодер (Mistral‑3B‑совместимый);
Flux‑совместимый VAE;
K‑Sampler с преднастроенными шагами и CFG.

Теперь перейдем к самому интересному. Чтобы понять характер модели, важны не только цифры, но и живые сцены. Ниже немного примеров.
Сначала три примера с текстом, дальше — большой набор чисто визуальных стилей, чтобы можно было оценить модель не только как «генератор надписей».

1. Многоязычный постер

Prompt:

A modern flat poster design, large Russian title at the top: “ФЕСТИВАЛЬ СВЕТА”, English subtitle “LIGHT FESTIVAL 2026” under it, small Chinese text “光之节日” at the bottom, clean minimal layout, pastel colors, white background, high resolution.

Что смотреть:
Как ERNIE держит русский, английский и китайский в одном плакате, без каши в буквах и с аккуратной композицией.

2. Киберпанк‑улица с вывесками

Prompt:

A rainy cyberpunk street at night, neon shop signs in Russian, English and Chinese, wet asphalt, colorful reflections, people with umbrellas, cinematic lighting, high detail, 4k.

Что смотреть:
Неон, дождь, глубина сцены. Текст здесь — как бонус: важно, что модель не ломается, когда надписей много и они под разными углами.

3. Sci‑fi панель управления

Prompt:

A futuristic sci-fi control panel UI, dark background, glowing blue and orange elements, multiple screens, buttons and meters, lots of small labels and numbers, clean and sharp high-tech design, 4k.

Что смотреть:
Мелкий технотекст и структура интерфейса: как ERNIE обращается с UI‑панелями и деталями.

4. Фотореалистичный портрет

Prompt:

A realistic portrait of a young woman, natural window light from the side, 50mm lens look, detailed skin, soft shadows, neutral background, shallow depth of field, 4k.

Что смотреть:
Кожа, глаза, свет, общая «фотографичность» изображения.

5. Полнофигурный персонаж (character art)

Prompt:

Full body character illustration of a cyberpunk girl, standing in a narrow alley, leather jacket with neon details, boots, short hair, rim light from behind, detailed clothing and accessories, concept art style.

Что смотреть:
Анатомия, поза, одежда, количество деталей — пригодность ERNIE для персонажки и концепт‑арта.

6. Аниме‑стиль

Prompt:

Anime style close-up of a girl looking at the sky, sunset background, warm colors, big expressive eyes, clean line art, soft gradients, cel shading, high resolution.

Что смотреть:
Линии, глаза, shading. Хорошо видно, насколько модель подходит для аниме‑стиля.

7. Масляная живопись

Prompt:

An oil painting of a stormy sea with a sailing ship, dramatic sky, thick visible brush strokes, textured canvas look, rich color contrast between warm light and cold waves, museum quality.

Что смотреть:
Мазки, текстура холста, драматизм сцены — умение работать в стиле классической живописи.

8. Импрессионизм

Prompt:

Impressionist painting of a city park in spring, soft blobs of color, loose brush strokes, people walking, sunlight through the trees, pastel tones, painterly look.

Что смотреть:
Мягкая «размытая» живопись, где главное — свет и настроение, а не вылизанные детали.

9. 3D‑рендер / CGI

Prompt:

A 3D render style image of a futuristic spaceship parked in a hangar, realistic metal materials, reflections, global illumination, volumetric light beams, detailed machinery, 4k.

Что смотреть:
Материалы, свет, ощущение настоящего 3D‑рендера.

10. Low‑poly графика

Prompt:

Low-poly illustration of a small island with a lighthouse, simple geometric shapes, flat colors, isometric view, clean outlines, pastel palette.

Что смотреть:
Геометрия, чистота форм, общая композиция в low‑poly стиле.

11. Фэнтези‑пейзаж

Prompt:

Epic fantasy landscape, floating islands in the sky, waterfalls falling into clouds, distant castles on cliffs, warm sunset light, dramatic clouds, cinematic wide shot, high detail.

Что смотреть:
Масштаб, детализация, атмосфера фэнтези‑мира.

12. Графический дизайн без текста

Prompt:

Abstract geometric poster, bold red, black and white shapes, strong contrast, balanced composition, no text, modern graphic design style, high resolution.

Что смотреть:
Баланс форм, цвет, композиция — чистый графдизайн.

13. Изометрический городской пейзаж

Prompt:

Isometric illustration of a small modern city block, colorful houses, trees, cars on the road, clean low-detail geometry, flat colors, sunny day, high resolution.

Что смотреть:
Изометрия: аккуратность зданий, дорог, деревьев, отсутствие «ломаной» перспективы.

14. Пиксель‑арт

Prompt:

Pixel art scene of a night city street, 32x32 style enlarged, tiny glowing windows, a few characters walking, neon sign, limited color palette, retro game look.

Что смотреть:
Ступенчатые формы, ограниченная палитра, узнаваемость объектов в пиксельном стиле.

15. Комикс‑панель (чёрно‑белая)

Prompt:

Black and white comic panel, dynamic scene of a hero jumping between rooftops, strong ink lines, high contrast shadows, no screentone, graphic novel style.

Что смотреть:
Чёрно‑белый комиксный стиль: линии, силуэты, контраст.

16. Комикс‑страница с несколькими панелями

Prompt:

Comic page layout with four panels, each panel showing a different moment in a short action scene, clean gutters between panels, colored comic book style, consistent character design across all panels.

Что смотреть:
Layout страницы и сохранение персонажа из кадра в кадр для комиксов и сторибордов.

17. Лайн‑арт без цвета

Prompt:

Clean line art drawing of a fantasy warrior in armor, no colors, only black lines on white background, consistent line weight, detailed armor ornaments, manga-style line quality.

Что смотреть:
Чистый лайн, отсутствие грязи и разрывов.

18. Детская книжная иллюстрация

Prompt:

Cute children’s book illustration of a little fox and a bear having a picnic on a meadow, soft rounded shapes, bright but gentle colors, simple friendly faces, storybook style, no text.

Что смотреть:
Мягкий детский стиль, «милота» без крипоты и странных лиц.

19. Мультфильм в духе Disney/Pixar

Prompt:

Cartoon style image of a family standing in front of their house, big expressive eyes, clean shading, bright colors, soft outlines, Pixar/Disney-inspired look (no trademarks).

Что смотреть:
Семейный мультстиль: выражение лиц, пропорции, общая «тёплая» атмосфера.

20. Тёмный хоррор‑арт

Prompt:

Dark horror illustration of an abandoned corridor with flickering lights, subtle shadows hinting at a creature at the end, gritty textures, desaturated colors, cinematic horror atmosphere.

Что смотреть:
Напряжение, свет и тень, умение работать в хоррор‑эстетике.

21. Сюрреализм

Prompt:

Surreal artwork of a giant floating eye above a desert, people walking on staircases that lead to nowhere, impossible architecture, muted warm colors, painterly style.

Что смотреть:
Способность модели создавать странные, нелогичные сцены, а не только «правильный» реализм.

22. Набор векторных иконок

Prompt:

A set of 12 flat vector-style icons on a white background, simple shapes, consistent line weight and color palette, icons for phone, camera, cloud, settings, message, music, clean minimal style.

Что смотреть:
Единый стиль и аккуратность иконок, толщина линий, простота форм.

23. Архитектурный скетч

Prompt:

Architectural sketch of a modern house, black pencil lines on white paper, perspective view, visible construction lines, minimal shading, blueprint/sketchbook feel.

Что смотреть:
Перспектива, аккуратные линии, ощущение «рисунка архитектора».

24. Реалистическое food‑фото

Prompt:

A realistic food photo of a ramen bowl on a wooden table, steam rising, detailed noodles, egg, pork slices, green onions, natural restaurant lighting, shallow depth of field, 4k.

Что смотреть:
Текстуры еды, пар, свет, «вкусность» кадра.

25. Макро‑фото

Prompt:

Macro photograph of a dew drop on a leaf, detailed water reflections, soft blurred background (bokeh), natural morning light, high detail.

Что смотреть:
Макро‑резкость, боке, текстура поверхности.

26. Современный небоскрёб

Prompt:

A realistic photograph of a modern glass skyscraper from a low angle, strong perspective, reflections of clouds in the glass, blue sky, sharp details.

Что смотреть:
Архитектура, перспектива, отражения, общая «стоковая» фотографичность.

27. Ретрофутуризм / synthwave

Prompt:

Retro-futuristic synthwave landscape, neon grid ground, sun with stripes on the horizon, mountains in the distance, purple and pink color palette, 80s retro style.

Что смотреть:
Synthwave‑эстетика: сетка, неон, «восьмидесятые» цвета.

28. Коллажный стиль

Prompt:

Artistic collage style image combining cut-out photos and paper textures, a person’s silhouette filled with landscape images, torn paper edges, visible glue marks, mixed media feel.

Что смотреть:
Коллаж/микст‑медиа: сочетание фактур, аккуратность стыков и общий вид.

29. Флэт‑иллюстрация персонажа

Prompt:

Flat illustration of a person working at a desk with a laptop, simple shapes, limited color palette, no gradients, modern flat design style, clean and minimal.

Что смотреть:
Флэт‑графика для статей и лендингов: чистые формы, минимализм.

30. Ночной городской стрит‑фото

Prompt:

Night street photography style image, a lonely person walking under a street lamp, wet pavement, strong contrast, blurred cars in the background, cinematic color grading.

Что смотреть:
Ночная «фотографическая» сцена: контраст, цветокор, атмосфера города.

И в заключение, для тех кого интересует «взрослый» контент, ERNIE‑Image тоже умеет работать с ню и NSFW‑сценами. Но сейчас это скорее экспериментальный режим: что‑то получается очень прилично, а что‑то — с огрехами в анатомии и цензуре, так что рассчитывать на стабильный коммерческий уровень я бы пока не стал.

Надеюсь, этих изображений хватит, чтобы вы поняли, что это за модель, и решили, стоит ли тратить время на её установку и тестирование.

В этот раз я воздержусь от субъективных оценок, так как модель кажется мне противоречивой во многих аспектах.

Ну и конечно же, если вам понравилась эта статья, буду рад любой вашей поддержке и подпискам, комментариям и лайкам.
Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях.
Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.