Здравствуйте, друзья!
Пока мы с вами осваивали Flux 2 Klein да Z‑Image Base с его Turbo‑версией, Baidu тихо подсунула свою пару моделей: ERNIE‑Image и ERNIE‑Image‑Turbo. В англоязычных обзорах их, как водится, уже хвалят за умение работать с текстом и сложными промптами. Но нас с вами интересует не рекламный шум, а практика: насколько эта связка реально полезна в повседневной генерации — от портретов и аниме до плакатов, иконок, 3D‑рендеров и прочих наших хотелок.
Я погонял ERNIE по разным задачам и собрал впечатления в формате, похожем на прошлый обзор Z‑Image Base: немного теории, минимум воды и небольшой блок наглядных примеров, чтобы вы могли сами оценить характер модели, а не верить чужим словам.
Кто такой ERNIE‑Image и при чём тут Baidu
Важно понимать, что ERNIE‑Image — это не случайный чекпоинт с Civitai, а часть большой линейки моделей от Baidu.
Baidu — китайский IT‑гигант уровня а-ля «местный Google»: свой поисковик, карты, облачные сервисы и мощное направление по ИИ‑решениям. В рамках этого направления уже несколько лет развивают семейство моделей ERNIE (Enhanced Representation through kNowledge IntEgration) — это их флагманские foundation‑модели для текста, изображений и мультимодальности.
Из этого семейства нам важны две ветки:
- ERNIE 5.0 — огромная мультимодальная модель на 2,4 трлн параметров, которая умеет текст, картинки, аудио и использует архитектуру Mixture‑of‑Experts, чтобы не грузить все параметры одновременно.
- ERNIE‑Image — отдельная открытая text‑to‑image‑модель, разработанная выделенной командой ERNIE‑Image в Baidu.
Официально ERNIE‑Image описывают так: это открытая модель генерации изображений по тексту, построенная на одно потоковом Diffusion Transformer (DiT) и дополненная лёгким Prompt Enhancer, который разворачивает короткие запросы в более богатое структурированное описание.
Ключевые моменты:
- Модель публикуется с открытыми весами и лицензией Apache‑2.0, то есть её можно легально использовать и дообучать в коммерческих проектах.
- Baidu позиционирует её как флагманский open‑source генератор изображений в своей линейке, а не побочный эксперимент.
Следом Baidu выпустила ERNIE‑Image‑Turbo — дистиллированную версию ERNIE‑Image, оптимизированную под быструю генерацию примерно за 8 шагов. В описании Turbo прямо указано, что это «distilled release of ERNIE‑Image», то есть ускоренный профиль той же архитектуры, а не отдельная модель с нуля.
И чем же ERNIE‑Image и Turbo реально выделяются на фоне других моделей спросите вы.
Если смотреть не на маркетинг, а на реальные данные и тесты, то картина получается такая:
- В бенчмарках вроде LongTextBench и GENEval ERNIE‑Image показывает очень высокие результаты по сложным текстовым запросам и сценам с текстом - формально это один из сильных open‑source вариантов для задач «текст в картинке» и сложных инструкций.
- ERNIE‑Image‑Turbo даёт комфортные картинки уже на 8 шагах, что делает его удобным для быстрых итераций и массовой генерации.
- В документации и репозитории подчёркивается, что модель поддерживает широкий спектр стилей: реализм, дизайн‑ориентированный визуал, стилизованный арт и т.п.
Если перевести это на человеческий:
- Сильная сторона - сцены, где есть структура и/или текст: плакаты, UI, инфографика, вывески, «экран ноутбука».
- Стилевой диапазон - нормальный, не хуже других DiT: портреты, аниме, живопись, 3D‑рендер, графдизайн и прочее.
- Turbo‑режим действительно полезен, если вы любите работать быстро и много экспериментировать: 8 шагов, приличное качество и адекватный текст.
Я бы не называл эти бенчмарки «чудом», но на фоне других открытых моделей ERNIE выглядит уверенно (правда не всегда) - особенно там, где в сцене есть текст и сложный layout.
Как подключить ERNIE‑Image в Forge UI Neo
Forge Classic/Neo уже умеет работать с ERNIE‑Image и Turbo, поддержка завезена официально после обновления проекта. (обновите ваш ForgeUI Neo)
Общий порядок действий:
- Скачайте модели с Hugging Face или Civitai.com:
baidu/ERNIE-Image — базовая модель
ссылки на модели на ciмitai.com
baidu/ERNIE-Image-Turbo — ускоренная версия
ссылки на модели на civitai.com
квантованная версия модели для владельцев видеокарт Nvidia 50++
и тестовая кастомная версия модели от уважаемого Fascium
1.1 Куда класть модели, VAE и энкодеры (ComfyUI и Forge UI Neo)
Сначала качаем файлы для работы модели ERNIE‑Image:
Дальше раскладываем по папкам.
ComfyUI
В стандартной портативной сборке пути такие (внутри папки ComfyUI/models):
- Чекпоинты ERNIE‑Image / ERNIE‑Image‑Turbo
кладём в: ComfyUI/models/checkpoints/ (все «обычные» SD/Flux/ERNIE чекпоинты лежат именно здесь). - Текстовые энкодеры
ministral-3-3b.safetensors
ernie-image-prompt-enhancer.safetensors кладём в: ComfyUI/models/clip/ - VAE (flux2-vae.safetensors)
кладём в: ComfyUI/models/vae/
Если у вас вынесенный models‑каталог через extra_model_paths.yaml, то в этих путях меняется только базовая директория, а подпапки (checkpoints, clip, vae) остаются такими же.
Forge UI Neo
У Forge Neo всё лежит в директории models внутри папки установки stable-diffusion-webui-forge (или там, куда вы его клонировал).
Рекомендуемые пути:
- Чекпоинты ERNIE‑Image / ERNIE‑Image‑Turbo
кладём в: stable-diffusion-webui-forge/models/Stable-diffusion/ (как обычные SD/Flux модели). - Текстовые энкодеры
ministral-3-3b.safetensors
ernie-image-prompt-enhancer.safetensors кладём в: stable-diffusion-webui-forge/models/text_encoder/ — это тот же путь, который используют гайды по FLUX/ERNIE для Forge Neo. - VAE (flux2-vae.safetensors) в актуальных гайдах для Flux/ERNIE в Forge Neo рекомендуют класть VAE тоже в: stable-diffusion-webui-forge/models/VAE/
т.е
— энкодеры → models/text_encoder/,
— VAE → models/VAE/
После того как всё разложено, перезапускаете Forge Neo. В списке моделей должны появиться ERNIE‑Image / ERNIE‑Image‑Turbo, а в выпадающих списках VAE и text encoder — соответствующие файлы.
Рекомендуемые настройки:
Для ERNIE‑Image‑Turbo:
шаги: 8;
CFG в районе 1.0–3.0 (слишком высокий CFG может портить текст и композицию);
размер кадров под задачи: постеры и UI — лучше 768+ по длинной стороне.
Для ERNIE‑Image (base):
шаги: от 30–50 для максимальной детализации;
CFG: можно чуть выше, но без фанатизма, чтобы не подавлять Prompt Enhancer.
Дальше Forge UI Neo с ERNIE используется как любой другой DiT:
вводите промпт. генерируете изображение.
Как использовать ERNIE‑Image в ComfyUI
У ComfyUI у ERNIE‑Image — day‑0 поддержка: есть готовые шаблоны и официальные гайды.
Быстрый старт через Template
Самый простой вариант — не собирать граф вручную, а взять готовый шаблон.
- Обновите ComfyUI до последней версии или используйте Comfy Cloud.
- В интерфейсе откройте вкладку Template и в поиске введите ERNIE‑Image.
- Выберите подходящий шаблон (Base или Turbo).
- ComfyUI предложит докачать недостающие модели (сам ERNIE‑Image/ Turbo, VAE, текстовый энкодер) — соглашаетесь и ждёте загрузки.
- Вводите свой промпт, при необходимости правите размер, шаги и CFG, нажимаете Run / Queue Prompt.
Шаблон уже содержит:
- ноду загрузки модели (Base или Turbo);
- текстовый энкодер (Mistral‑3B‑совместимый);
- Flux‑совместимый VAE;
- K‑Sampler с преднастроенными шагами и CFG.
Теперь перейдем к самому интересному. Чтобы понять характер модели, важны не только цифры, но и живые сцены. Ниже немного примеров.
Сначала три примера с текстом, дальше — большой набор чисто визуальных стилей, чтобы можно было оценить модель не только как «генератор надписей».
1. Многоязычный постер
Prompt:
A modern flat poster design, large Russian title at the top: “ФЕСТИВАЛЬ СВЕТА”, English subtitle “LIGHT FESTIVAL 2026” under it, small Chinese text “光之节日” at the bottom, clean minimal layout, pastel colors, white background, high resolution.
Что смотреть:
Как ERNIE держит русский, английский и китайский в одном плакате, без каши в буквах и с аккуратной композицией.
2. Киберпанк‑улица с вывесками
Prompt:
A rainy cyberpunk street at night, neon shop signs in Russian, English and Chinese, wet asphalt, colorful reflections, people with umbrellas, cinematic lighting, high detail, 4k.
Что смотреть:
Неон, дождь, глубина сцены. Текст здесь — как бонус: важно, что модель не ломается, когда надписей много и они под разными углами.
3. Sci‑fi панель управления
Prompt:
A futuristic sci-fi control panel UI, dark background, glowing blue and orange elements, multiple screens, buttons and meters, lots of small labels and numbers, clean and sharp high-tech design, 4k.
Что смотреть:
Мелкий технотекст и структура интерфейса: как ERNIE обращается с UI‑панелями и деталями.
4. Фотореалистичный портрет
Prompt:
A realistic portrait of a young woman, natural window light from the side, 50mm lens look, detailed skin, soft shadows, neutral background, shallow depth of field, 4k.
Что смотреть:
Кожа, глаза, свет, общая «фотографичность» изображения.
5. Полнофигурный персонаж (character art)
Prompt:
Full body character illustration of a cyberpunk girl, standing in a narrow alley, leather jacket with neon details, boots, short hair, rim light from behind, detailed clothing and accessories, concept art style.
Что смотреть:
Анатомия, поза, одежда, количество деталей — пригодность ERNIE для персонажки и концепт‑арта.
6. Аниме‑стиль
Prompt:
Anime style close-up of a girl looking at the sky, sunset background, warm colors, big expressive eyes, clean line art, soft gradients, cel shading, high resolution.
Что смотреть:
Линии, глаза, shading. Хорошо видно, насколько модель подходит для аниме‑стиля.
7. Масляная живопись
Prompt:
An oil painting of a stormy sea with a sailing ship, dramatic sky, thick visible brush strokes, textured canvas look, rich color contrast between warm light and cold waves, museum quality.
Что смотреть:
Мазки, текстура холста, драматизм сцены — умение работать в стиле классической живописи.
8. Импрессионизм
Prompt:
Impressionist painting of a city park in spring, soft blobs of color, loose brush strokes, people walking, sunlight through the trees, pastel tones, painterly look.
Что смотреть:
Мягкая «размытая» живопись, где главное — свет и настроение, а не вылизанные детали.
9. 3D‑рендер / CGI
Prompt:
A 3D render style image of a futuristic spaceship parked in a hangar, realistic metal materials, reflections, global illumination, volumetric light beams, detailed machinery, 4k.
Что смотреть:
Материалы, свет, ощущение настоящего 3D‑рендера.
10. Low‑poly графика
Prompt:
Low-poly illustration of a small island with a lighthouse, simple geometric shapes, flat colors, isometric view, clean outlines, pastel palette.
Что смотреть:
Геометрия, чистота форм, общая композиция в low‑poly стиле.
11. Фэнтези‑пейзаж
Prompt:
Epic fantasy landscape, floating islands in the sky, waterfalls falling into clouds, distant castles on cliffs, warm sunset light, dramatic clouds, cinematic wide shot, high detail.
Что смотреть:
Масштаб, детализация, атмосфера фэнтези‑мира.
12. Графический дизайн без текста
Prompt:
Abstract geometric poster, bold red, black and white shapes, strong contrast, balanced composition, no text, modern graphic design style, high resolution.
Что смотреть:
Баланс форм, цвет, композиция — чистый графдизайн.
13. Изометрический городской пейзаж
Prompt:
Isometric illustration of a small modern city block, colorful houses, trees, cars on the road, clean low-detail geometry, flat colors, sunny day, high resolution.
Что смотреть:
Изометрия: аккуратность зданий, дорог, деревьев, отсутствие «ломаной» перспективы.
14. Пиксель‑арт
Prompt:
Pixel art scene of a night city street, 32x32 style enlarged, tiny glowing windows, a few characters walking, neon sign, limited color palette, retro game look.
Что смотреть:
Ступенчатые формы, ограниченная палитра, узнаваемость объектов в пиксельном стиле.
15. Комикс‑панель (чёрно‑белая)
Prompt:
Black and white comic panel, dynamic scene of a hero jumping between rooftops, strong ink lines, high contrast shadows, no screentone, graphic novel style.
Что смотреть:
Чёрно‑белый комиксный стиль: линии, силуэты, контраст.
16. Комикс‑страница с несколькими панелями
Prompt:
Comic page layout with four panels, each panel showing a different moment in a short action scene, clean gutters between panels, colored comic book style, consistent character design across all panels.
Что смотреть:
Layout страницы и сохранение персонажа из кадра в кадр для комиксов и сторибордов.
17. Лайн‑арт без цвета
Prompt:
Clean line art drawing of a fantasy warrior in armor, no colors, only black lines on white background, consistent line weight, detailed armor ornaments, manga-style line quality.
Что смотреть:
Чистый лайн, отсутствие грязи и разрывов.
18. Детская книжная иллюстрация
Prompt:
Cute children’s book illustration of a little fox and a bear having a picnic on a meadow, soft rounded shapes, bright but gentle colors, simple friendly faces, storybook style, no text.
Что смотреть:
Мягкий детский стиль, «милота» без крипоты и странных лиц.
19. Мультфильм в духе Disney/Pixar
Prompt:
Cartoon style image of a family standing in front of their house, big expressive eyes, clean shading, bright colors, soft outlines, Pixar/Disney-inspired look (no trademarks).
Что смотреть:
Семейный мультстиль: выражение лиц, пропорции, общая «тёплая» атмосфера.
20. Тёмный хоррор‑арт
Prompt:
Dark horror illustration of an abandoned corridor with flickering lights, subtle shadows hinting at a creature at the end, gritty textures, desaturated colors, cinematic horror atmosphere.
Что смотреть:
Напряжение, свет и тень, умение работать в хоррор‑эстетике.
21. Сюрреализм
Prompt:
Surreal artwork of a giant floating eye above a desert, people walking on staircases that lead to nowhere, impossible architecture, muted warm colors, painterly style.
Что смотреть:
Способность модели создавать странные, нелогичные сцены, а не только «правильный» реализм.
22. Набор векторных иконок
Prompt:
A set of 12 flat vector-style icons on a white background, simple shapes, consistent line weight and color palette, icons for phone, camera, cloud, settings, message, music, clean minimal style.
Что смотреть:
Единый стиль и аккуратность иконок, толщина линий, простота форм.
23. Архитектурный скетч
Prompt:
Architectural sketch of a modern house, black pencil lines on white paper, perspective view, visible construction lines, minimal shading, blueprint/sketchbook feel.
Что смотреть:
Перспектива, аккуратные линии, ощущение «рисунка архитектора».
24. Реалистическое food‑фото
Prompt:
A realistic food photo of a ramen bowl on a wooden table, steam rising, detailed noodles, egg, pork slices, green onions, natural restaurant lighting, shallow depth of field, 4k.
Что смотреть:
Текстуры еды, пар, свет, «вкусность» кадра.
25. Макро‑фото
Prompt:
Macro photograph of a dew drop on a leaf, detailed water reflections, soft blurred background (bokeh), natural morning light, high detail.
Что смотреть:
Макро‑резкость, боке, текстура поверхности.
26. Современный небоскрёб
Prompt:
A realistic photograph of a modern glass skyscraper from a low angle, strong perspective, reflections of clouds in the glass, blue sky, sharp details.
Что смотреть:
Архитектура, перспектива, отражения, общая «стоковая» фотографичность.
27. Ретрофутуризм / synthwave
Prompt:
Retro-futuristic synthwave landscape, neon grid ground, sun with stripes on the horizon, mountains in the distance, purple and pink color palette, 80s retro style.
Что смотреть:
Synthwave‑эстетика: сетка, неон, «восьмидесятые» цвета.
28. Коллажный стиль
Prompt:
Artistic collage style image combining cut-out photos and paper textures, a person’s silhouette filled with landscape images, torn paper edges, visible glue marks, mixed media feel.
Что смотреть:
Коллаж/микст‑медиа: сочетание фактур, аккуратность стыков и общий вид.
29. Флэт‑иллюстрация персонажа
Prompt:
Flat illustration of a person working at a desk with a laptop, simple shapes, limited color palette, no gradients, modern flat design style, clean and minimal.
Что смотреть:
Флэт‑графика для статей и лендингов: чистые формы, минимализм.
30. Ночной городской стрит‑фото
Prompt:
Night street photography style image, a lonely person walking under a street lamp, wet pavement, strong contrast, blurred cars in the background, cinematic color grading.
Что смотреть:
Ночная «фотографическая» сцена: контраст, цветокор, атмосфера города.
И в заключение, для тех кого интересует «взрослый» контент, ERNIE‑Image тоже умеет работать с ню и NSFW‑сценами. Но сейчас это скорее экспериментальный режим: что‑то получается очень прилично, а что‑то — с огрехами в анатомии и цензуре, так что рассчитывать на стабильный коммерческий уровень я бы пока не стал.
Надеюсь, этих изображений хватит, чтобы вы поняли, что это за модель, и решили, стоит ли тратить время на её установку и тестирование.
В этот раз я воздержусь от субъективных оценок, так как модель кажется мне противоречивой во многих аспектах.
Ну и конечно же, если вам понравилась эта статья, буду рад любой вашей поддержке и подпискам, комментариям и лайкам.
Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях.
Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.