548 подписчиков

Как правильно писать prompt для нейросетей в 2026 году.

3 дня назад3 дня назад

33 мин

Здравствуйте, дорогие друзья! Помните нашего рыжего кота в сапогах? Тот самый, которого мы гоняли через SD 1.5, ставили ему весовые скобки, писали негативные промпты и молились, чтобы у него выросло правильное количество пальцев? Так вот, кот никуда не делся. Но мир вокруг него изменился так сильно, что тот же самый промпт, который раньше давал шедевр, сегодня может выдать полную ерунду — и наоборот. Сейчас у нас не одна и не две модели. Их целый зоопарк, и у каждой свой характер, свои причуды и свой язык. SD 1.5, SDXL, SD 3.5, Flux 1, целое семейство Flux 2 с вариантами Pro, Dev, Klein и Max, Z-Image с вариантами Turbo, Base и Edit, ERNIE-Image от Baidu в двух версиях, Qwen Image 2.0 от Alibaba, Midjourney уже на восьмой версии, Kling дорос до третьего поколения. Это не просто «обновления» — это принципиально разные существа с разной логикой работы. И главная ошибка, которую делают большинство новичков — пишут для всех моделей одинаково. Берут промпт, который сработал в SD1.5 и тащат

Оглавление

Почему нельзя писать одинаково для всех моделей
SD 1.5 и SDXL — старая гвардия, которая ещё в строю
Как писать промпт — логика тегов

Здравствуйте, дорогие друзья!

Помните нашего рыжего кота в сапогах? Тот самый, которого мы гоняли через SD 1.5, ставили ему весовые скобки, писали негативные промпты и молились, чтобы у него выросло правильное количество пальцев? Так вот, кот никуда не делся. Но мир вокруг него изменился так сильно, что тот же самый промпт, который раньше давал шедевр, сегодня может выдать полную ерунду — и наоборот.

Сейчас у нас не одна и не две модели. Их целый зоопарк, и у каждой свой характер, свои причуды и свой язык. SD 1.5, SDXL, SD 3.5, Flux 1, целое семейство Flux 2 с вариантами Pro, Dev, Klein и Max, Z-Image с вариантами Turbo, Base и Edit, ERNIE-Image от Baidu в двух версиях, Qwen Image 2.0 от Alibaba, Midjourney уже на восьмой версии, Kling дорос до третьего поколения. Это не просто «обновления» — это принципиально разные существа с разной логикой работы.

И главная ошибка, которую делают большинство новичков — пишут для всех моделей одинаково. Берут промпт, который сработал в SD1.5 и тащат его во Flux. Или наоборот — пишут красивый нарратив для Z-Image, а потом удивляются, почему SD 1.5 выдал кашу. Это как пытаться управлять мотоциклом по инструкции от экскаватора. Вроде бы оба транспортные средства, а логика разная.

В этой статье я постараюсь хотя бы поверхностно разобрать каждую актуальную модель. Для каждой — как работает, какие варианты существуют, как правильно писать промпт, какие параметры ставить.

И да — рыжий кот в сапогах будет везде, чтобы вы могли сравнивать одно и то же задание в разных условиях.

Почему нельзя писать одинаково для всех моделей

Давайте разберёмся с главным, прежде чем нырять в детали.

Когда SD 1.5 был единственным вариантом, у нас не было выбора — теги через запятую, скобки, отрицательные промпты. Это работало, потому что SD 1.5 буквально обучался на парах «набор ключевых слов → картинка». Модель не читала предложения — она сканировала токены и реагировала на каждый отдельно. Чем ближе токен к началу и чем больший вес ему присвоен, тем сильнее его влияние на результат.

Современные архитектуры — DiT, MMDiT, S3-DiT, Flow Matching Transformer — работают совершенно иначе. Они обучены на текстовых описаниях, написанных нормальным человеческим языком. Такие модели понимают контекст, причинно-следственные связи, пространственные отношения. Они не просто реагируют на токены — они интерпретируют смысл.

Когда вы пишете в такую модель masterpiece, best quality, ginger cat, leather boots, highly detailed, 8k — она это не игнорирует, но пользы ноль. Для неё это как читать телеграфные сводки вместо нормальной книги. Понять можно, но детали теряются, связи рвутся.

И наоборот — когда вы пишете в SD 1.5 длинный красивый нарратив, модель захлёбывается. Для неё это просто много токенов примерно одинакового веса, и смысловые связи между ними теряются.

Вывод один: прежде чем написать первое слово — узнайте, с какой моделью работаете.

SD 1.5 и SDXL — старая гвардия, которая ещё в строю

Было бы наивно думать, что SD 1.5 умер. Он живой и активно используется. На Civitai собраны тысячи дообученных чекпоинтов, LoRA-адаптеров, инвертированных текстовых эмбеддингов под самые разные задачи. Аниме в конкретном стиле, реализм с определённой цветовой палитрой, художественные стили, узнаваемая эстетика — всё это живёт именно здесь. Если вам нужен стиль, который существует только в виде SD-файнтюна с Civitai, вы никуда не денетесь от старой архитектуры.

Как писать промпт — логика тегов

Промпт для SD 1.5 — это не предложение и не рассказ. Это список сигналов, каждый из которых модель обрабатывает отдельно. Разделитель — запятая. Порядок важен, потому что теги в начале получают больший вес автоматически.

Правильная структура работает так: сначала идут теги качества, которые настраивают общий уровень детализации. Потом — главный объект и его ключевые характеристики. Потом — детали объекта: одежда, поза, выражение, цвет, фактура. Потом — фон и окружение. Потом — свет и атмосфера. И в самом конце — художественный стиль, имена художников, технические параметры.

Пример с котом:

masterpiece, best quality, highly detailed, 8k UHD,
ginger tabby cat, standing upright on two legs,
wearing tall brown leather boots and a wide feathered hat,
sword held in right paw raised upward,
medieval stone tavern interior, wooden beams and barrels,
warm candlelight from the left, dramatic shadows,
art by Greg Rutkowski, digital painting, trending on artstation

Магия скобок и весов

Это уникальная суперсила SD 1.5 и SDXL в AUTOMATIC1111 и Forge WebUI. Больше ни одна модель этим синтаксисом не пользуется — и это важно запомнить, потому что половина ошибок в новых моделях рождается именно отсюда.

(слово:1.3) — усилить внимание к этому токену в 1.3 раза. Рабочий диапазон — от 0.5 до 1.5. Выше 1.5 начинается пережог: объект становится гипертрофированным, появляются артефакты. Буквально. Кот с глазами, которые занимают всё лицо — это оно.

((слово)) — двойные скобки без числа, примерно эквивалент 1.21. Каждая пара скобок умножает вес на 1.1.

[слово] — квадратные скобки снижают вес до примерно 0.9. Полезно, когда элемент должен присутствовать, но не перетягивать одеяло на себя.

(ginger tabby cat:1.2), standing upright on two legs,
(tall brown leather boots:1.4), (wide feathered hat:1.1),
(sword in right paw:1.3), [tavern background:0.8],
warm candlelight, dramatic shadows, art by Greg Rutkowski

Повторю ещё раз, потому что это сломало тысячи генераций: этот синтаксис работает только в SD-экосистеме. В Flux, Z-Image, ERNIE, Qwen и любых других современных моделях скобки с числами будут прочитаны как обычный текст и ничего не сделают. Вообще ничего.

Негативный промпт — без него никуда

В SD 1.5 поле для негатива — это не опция, это необходимость. Модель обучена на парах с двумя сигналами: что хочется и чего не хочется. Без негативного промпта она теряет половину ориентиров — и начинаются лишние пальцы, мутные глаза, странная анатомия и водяные знаки. Наш кот в сапогах без негатива рискует получить восьмую лапу и три уха. Проверено на практике.

Базовый рабочий негатив:

worst quality, low quality, normal quality, blurry, jpeg artifacts,
bad anatomy, bad proportions, extra limbs, missing limbs,
deformed hands, extra fingers, fused fingers, ugly face, bad eyes,
watermark, signature, text, username, border, frame

Для аниме добавляйте в негатив: 3d render, photorealistic, realistic skin, cgi.
Для фотореализма: cartoon, illustration, painting, drawing, anime, sketch.

Параметры

CFG Scale — это жёсткость следования промпту. Думайте об этом как о громкости голоса, которым вы отдаёте команды модели. Слишком тихо — она вас игнорирует и рисует что попало. Слишком громко — начинается психоз и артефакты. Оптимум для SD 1.5 от 7 до 9. Для SDXL чуть мягче — от 5 до 8.

Steps — 20–30 шагов с сэмплером DPM++ 2M Karras дают отличный результат. Выше 40 идти нет смысла: качество перестаёт расти, а время рендера увеличивается.

Разрешение для SD 1.5 — 512×512 или 512×768. Генерировать в больших разрешениях без Hires Fix — получите задвоение объектов и кашу. Буквально двух котов вместо одного. Для SDXL — 1024×1024.

Seed — всегда записывайте удачные. Зафиксировав seed, вы можете менять один параметр за раз и видеть изолированный эффект каждого изменения. Это основа нормального рабочего процесса, а не угадывание в темноте.

Stable Diffusion 3.5 — гибрид на границе эпох

SD 3.5 Large — это 8 миллиардов параметров и архитектура MMDiT (Multimodal Diffusion Transformer). Звучит страшно, но суть простая: модель обрабатывает текст и изображение через единый трансформерный механизм. Это позволяет ей понимать смысловые связи между словами, а не просто реагировать на токены по отдельности как её предшественница.

SD 3.5 — это такой переходный вид. Она понимает и теги через запятую, и развёрнутые предложения — выбирайте сами в зависимости от настроения. Текст внутри изображений наконец читается нормально. Сложные сцены с несколькими персонажами не разваливаются в кашу. Анатомия значительно лучше чем в SD 1.5 — руки стали почти человеческими. LoRA и ControlNet работают как раньше, так что ваши старые наработки никуда не делись.

Как писать промпт

Оптимальная стратегия — ёмкие смысловые фразы, в которых есть субъект, действие и контекст. Не огромный список тегов и не длинный нарратив, а что-то среднее. Золотая середина, которой раньше не существовало:

A ginger tabby cat dressed as a musketeer, standing upright in tall leather boots
and a wide feathered hat, gripping a sword raised in salute.
Medieval stone tavern, warm candlelight, dramatic shadows on rough walls.
Cinematic fantasy illustration, highly detailed fur and fabric textures.

Теги через запятую тоже работают для быстрых набросков, но предложения дают более цельный результат.

Негативный промпт в SD 3.5

Работает, но эффект заметно слабее чем в SD 1.5. Не тратьте время на огромные простыни — пишите только самое критичное:

worst quality, blurry, deformed anatomy, extra limbs

Параметры

CFG Scale — от 4 до 7. Выше не нужно: модель чувствительнее к пережогу чем SD 1.5, и при CFG 10+ начинается визуальный ад. Steps — 25–40, сэмплер Euler или DPM++ 3M SDE. Нативное разрешение 1024×1024.

Flux 1 Dev и Schnell — революция 2024 года

1 августа 2024 года Black Forest Labs выпустила Flux 1. Это был настоящий перелом — не эволюция, а именно перелом. Модель умела то, чего не умел никто до неё: точно рендерить текст внутри картинок, генерировать руки без ужаса, понимать сложные пространственные описания и воспринимать развёрнутые предложения как нормальный человек воспринимает задание.

Flux 1 существует в двух вариантах. Dev — полная версия для качественной генерации, 12 миллиардов параметров, открытые веса для некоммерческого использования. Schnell — дистиллированная быстрая версия, генерирует за 4 шага вместо 20–28. Качество чуть ниже, но скорость ошеломляющая — если вам нужны быстрые наброски, это оно.

Главный принцип — пишите как человек

Flux 1 обучен на текстовых описаниях, написанных нормальным, естественным языком. Теги через запятую работают, но хуже — модель воспринимает их как обрывочные сигналы и начинает додумывать контекст сама. С непредсказуемыми результатами.

Самое важное правило для Flux: что написано в начале — то важнее. Flux читает промпт линейно, и первые слова задают главный смысловой контекст. Не начинайте с технических деталей — начинайте с субъекта.

Плохо — вот так делать не стоит:

cinematic lighting, highly detailed, masterpiece,
ginger cat, leather boots, sword, medieval tavern, 8k

Правильно — вот так:

A ginger tabby cat dressed as a musketeer stands upright in a medieval tavern.
The cat wears tall brown leather boots and a wide-brimmed hat with a white feather.
In its right paw it holds a gleaming rapier sword raised in salute.
Warm candlelight illuminates the scene from behind, casting long dramatic shadows
on the rough stone floor. Photorealistic fur detail, cinematic lighting.

Чувствуете разницу? В первом варианте кот где-то в конце списка между «masterpiece» и «8k». Во втором — он главный герой с первого слова.

Негативные промпты в Flux 1 — практически не работают

Flux 1 архитектурно не обучался на классическом негативном кондишнинге. Поле для негатива в интерфейсах есть, но эффект минимален — не тратьте на него время. Вместо него добавляйте нужное прямо в позитивный промпт: sharp focus, correct proportions, realistic anatomy, clean background. Говорите модели, что хотите видеть, а не что не хотите.

Параметры Flux 1

Вместо привычного CFG Scale в Flux 1 используется параметр Guidance. Это другая механика — не жёсткость следования промпту, а сила направляющего сигнала. Оптимальный диапазон для Flux Dev — от 3.5 до 4.5. Для Schnell этот параметр отключён автоматически — модель сама знает, что делает.

Steps: для Flux Dev 20–28 шагов дают отличный результат. Schnell — строго 4 шага, больше не нужно и не поможет.

Нативное разрешение: 1024×1024, 832×1216, 1216×832.

Котик для Flux 1:

A ginger tabby cat dressed as a musketeer stands upright in a medieval tavern.
The cat wears tall brown leather boots and a wide-brimmed hat with a white feather.
In its right paw it holds a gleaming rapier raised in triumphant salute.
Warm candlelight from behind casts long dramatic shadows on the stone floor.
Photorealistic fur detail, cinematic lighting, sharp focus.

Flux 2 — новое поколение, вышедшее 25 ноября 2025 года

Black Forest Labs снова сдвинули планку. Flux 2 — это уже не одна модель, а целое семейство, и у каждого члена семьи своя роль и своя специализация. Важный факт, который стоит держать в голове: все варианты Flux 2 построены на архитектуре в 32 миллиарда параметров — это в два с половиной раза больше чем у Flux 1. Разница ощутима.

Flux 2 Pro

Флагман для продакшна. Максимальное качество, точное следование промпту, генерация и редактирование изображений с поддержкой до 10 референсных изображений одновременно. Выдаёт изображения до 4 мегапикселей. Доступен через API и BFL Playground — локально не запускается, это только облако.

Flux 2 Dev

Открытые веса для некоммерческого использования. Те же 32 миллиарда параметров, что и у Pro, поддерживает генерацию и редактирование. Лицензия FLUX.2-dev Non-Commercial — можно запускать локально для личных и исследовательских задач. Если хотите максимальное качество на своём железе — это ваш выбор.

Flux 2 Klein

Компактное и быстрое подсемейство. Существует в двух размерах — 4B и 9B параметров. Klein 4B генерирует за доли секунды и отлично подходит для быстрых итераций: набрасываете идею, проверяете композицию, потом переходите на Dev или Pro для финального результата. Это черновик на стероидах. Klein 9B — чуть медленнее, но заметно качественнее. Оба варианта поддерживают не только генерацию, но и редактирование изображений.

Flux 2 Max

Самый мощный вариант в семействе. Специализируется на высококачественных коммерческих задачах: гиперреалистичные портреты, сложные продуктовые съёмки, сцены с множеством персонажей где нужна идеальная согласованность деталей. Поддерживает реальный веб-контекст для генерации актуальных образов — брендов, продуктов, событий.

Что принципиально нового в Flux 2

Первое и самое важное новшество — поддержка HEX-цветов. Вы можете буквально указать точный цветовой код, и модель его воспроизведёт. Звучит как мелочь, но для брендовой работы это революция. Больше не нужно 40 итераций чтобы получить правильный оттенок корпоративного синего:

A ceramic coffee mug with matte finish in color #E8D5B7.
The logo on the mug reads "МЯУНТ КОФЕ" in color #2C1810.
White marble surface, soft morning light from the upper left,
commercial product photography, shallow depth of field.

Второе — многореференсный режим. До 10 изображений одновременно как референсы. Можно взять персонажа из одной картинки, одежду из второй, фон из третьей — и собрать сцену. Это то, о чём мы мечтали несколько лет назад.

Третье — значительно улучшенная работа с несколькими персонажами в одной сцене. В Flux 1 двое персонажей часто «сливались» друг с другом в жутковатый гибрид. Flux 2 Pro держит их отдельно и правильно — каждый остаётся собой.

Как писать промпт для Flux 2

Логика та же что и в Flux 1 — естественный язык, субъект в начале — но Flux 2 ещё точнее следует деталям описания. Чем конкретнее вы описываете цвет, материал, освещение, тем точнее результат. Расплывчатость здесь наказывается расплывчатым результатом.

Субъект и его ключевые характеристики → что делает, в какой позе → стиль и художественная подача → место и освещение → технические детали камеры.

A proud ginger tabby cat standing upright, dressed as a musketeer.
Wearing hand-stitched leather boots in color #6B3A2A, a wide-brimmed black hat
with a white ostrich feather, and a deep burgundy velvet cape.
In its right paw a rapier with golden guard in color #DAA520, raised high.
Medieval castle entrance hall, torches on stone walls, dramatic upward lighting.
Shot on 50mm lens at f/2.0, filmic grain, warm highlight color grading.

Параметры Flux 2

Guidance — от 3.5 до 4.5 для Dev. Klein работает при тех же значениях, но при guidance 2–3 даёт больше творческой свободы и чаще удивляет неожиданными решениями, при 5–7 следует промпту строго и предсказуемо. Выбирайте в зависимости от задачи.

Steps для Dev — 20–28. Для Klein 4B — от 4 до 8 для черновиков, 12–20 для финального качества. Для Klein 9B — 10–25. Больше шагов чем рекомендовано — не помогает, только время тратите.

Нативное разрешение — 1024×1024 и любые соотношения сторон в диапазоне общей площади до 4 мегапикселей.

Z-Image — быстрый открытый чемпион от Alibaba

Z-Image вышел в ноябре 2025 года от команды Tongyi-MAI (Alibaba) и сразу наделал шуму. 6 миллиардов параметров, архитектура S3-DiT (Scalable Single-Stream DiT) — текстовые и визуальные данные обрабатываются в едином потоке на каждом слое трансформера. На практике это означает, что модель очень точно понимает пространственные отношения между объектами: что стоит рядом с чем, что находится внутри чего, кто смотрит в каком направлении. Для сложных сцен с несколькими элементами — это ощутимое преимущество.

Семейство Z-Image включает несколько вариантов, и у каждого своя роль.

Z-Image Turbo — публичный флагман

Это дистиллированная версия — обученная через алгоритм Decoupled-DMD, который позволяет получать качественный результат всего за 8 шагов. Генерирует за доли секунды на профессиональном железе, на потребительских GPU (RTX 3060, RTX 4090) — в пределах нескольких секунд. Работает в рамках 8-12 ГБ VRAM — то есть доступна большинству людей с нормальной игровой видеокартой.

Turbo сейчас является основным публично доступным вариантом через HuggingFace и fal.ai. Именно с ним вы скорее всего будете работать.

И вот здесь начинается самое важное — то, о чём большинство не знает и на чём ломает себе все итерации.

Параметр guidance_scale нужно выставлять строго в 1. Не 3, не 4, не «ну давай попробую 4 для эксперимента». Это дистиллированная модель, в которую guidance уже «запечён» в процессе обучения. Если выставить guidance_scale больше — вы применяете его дважды поверх уже встроенного, и качество деградирует: появляются артефакты, пересвет, общая нестабильность. Картинка буквально начинает гореть.

Количество шагов: официально 8 NFE. В коде это num_inference_steps=9 — первый шаг технический и не считается. Можно попробовать 4–6 шагов для совсем быстрых черновиков, но 8 — оптимум.

Поддерживает официально двуязычный рендеринг текста внутри изображений: английский и китайский. Кириллица работает, вариативно, но лучше чем у большинства конкурентов — иногда получается, иногда нет, но попробовать стоит.

Есть один нюанс, который стоит учитывать при планировании работы: разнообразие результатов у Turbo ниже чем у Base. При одном и том же промпте разные seed дают плюс-минус похожие изображения. Если вам нужно много вариантов для выбора — имейте это в виду.

Z-Image Base — для файнтюна и максимального качества

Нон-дистиллированная базовая модель. Использует полноценный CFG с guidance_scale от 3.0 до 5.0 и поддерживает негативные промпты — то есть работает по классической схеме. Работает за 28–50 шагов. Даёт более богатую детализацию на крупных разрешениях, более разнообразные результаты при разных seed и лучше поддаётся файнтюну и дообучению.

Практическое правило, которое сформировалось в сообществе: 80% итераций делайте на Turbo — быстро и дёшево. Финальные качественные версии — на Base. Нашли нужную композицию и свет на Turbo? Перегоняете на Base и получаете финал.

Z-Image Edit — в ожидании.

По заявлениям разработчиков, это отдельный вариант модели, дообученный специально на задачах редактирования изображений. Поддерживает инструкции на естественном языке: «сделай фон размытым», «замени шляпу на корону», «измени цвет плаща на синий». Работает как image-to-image с текстовыми инструкциями — загружаете картинку, пишете что изменить, получаете результат.

Z-Image Omni-Base — будущий универсал

Пре-тренированная модель без SFT и RL, предназначенная как основа для генерации и редактирования одновременно. На момент написания статьи находится в стадии «to be released» в официальном репозитории — ждём.

Как писать промпты для Z-Image

Структура промпта из четырёх смысловых блоков — самый эффективный подход. Не список тегов, не сплошной нарратив, а именно четыре чётких блока по смыслу:

Первый блок — субъект: кто или что является главным объектом и его ключевые характеристики.
Второй блок — окружение: где происходит сцена, время суток, архитектурный или природный контекст.
Третий блок — визуальный стиль: фотография или живопись, художественное направление, техника.
Четвёртый блок — композиция: ракурс, кадрирование, глубина резкости.

A ginger tabby cat in musketeer costume — leather boots, feathered hat,
raised rapier — standing heroically in the foreground.
Medieval torch-lit castle corridor, stone walls, arched windows,
dark blue evening sky visible outside.
Cinematic photorealistic style, warm color palette, slight film grain.
Low-angle composition, dramatic uplight from torches below,
warm orange shadows, sharp foreground, soft background.

Есть одно ключевое правило для Turbo, которое нарушают почти все: не повторяйте одну и ту же идею разными словами. Если написать realistic, photorealistic, looks like a real photo, hyperrealistic, true-to-life — модель не поймёт это как усиление эффекта. Она получит пять слегка разных сигналов и начнёт их как-то балансировать. Одно точное слово лучше пяти синонимов. Всегда.

Для Base — можно и нужно использовать негативный промпт:

Негатив: blurry, oversaturated, deformed anatomy,
extra limbs, watermark, text

ERNIE-Image — структурный специалист от Baidu

ERNIE-Image вышла в открытый доступ на HuggingFace 15 апреля 2026 года под лицензией Apache 2.0. 8 миллиардов параметров, Single-Stream DiT архитектура, встроенный Prompt Enhancer. Разработана командой Baidu как часть экосистемы ERNIE.

Если Z-Image — это скорострельный снайпер, то ERNIE-Image — это архитектор. Она немного медленнее, но умеет то, что другим вообще не даётся: собирать сложные структурированные композиции, где важно не просто «красиво», а «каждый элемент точно на своём месте».

Модель существует в двух вариантах — Base и Turbo, и они решают принципиально разные задачи.

ERNIE-Image Base — для финального качества

SFT-модель (Supervised Fine-Tuned), обученная на задачах точного следования инструкциям. Специализируется на структурированных композициях: постеры с точным расположением текста и объектов, многопанельные комиксы и сториборды, инфографика, рекламные макеты. Если вам нужно чтобы заголовок стоял именно в верхней трети, а герой именно по центру — это сюда.

Параметры для Base:

Steps — 50 (стандарт), можно гулять от 1 до 100 в зависимости от задачи.
CFG Scale — 4.0.
Sampler — Euler.

Поддерживаемые разрешения: 1024×1024, 848×1264, 1264×848, 768×1376, 896×1200, 1376×768, 1200×896.

Требования к железу: 16-24 ГБ VRAM для комфортной работы. Если у вас меньше — доступны квантованные версии BF16, FP8 и GGUF, которые влезают в меньший объём памяти с минимальной потерей качества.

ERNIE-Image Turbo — для быстрых итераций

Дистиллированная версия, оптимизированная через DMD и RL. Генерирует за 8 шагов вместо 50 — примерно в 6 раз быстрее. При этом сохраняет основные возможности Base включая рендеринг текста. Идеальный вариант для того чтобы быстро проверить идею перед запуском финального рендера на Base.

Параметры для Turbo:

Steps — фиксированные 8, не настраиваются. Не пытайтесь поставить 20 — это ничего не даст.
CFG Scale — 1.0, фиксированный.
Sampler — res_multistep.

У Turbo нет отдельного поля guidance — оно запечено в модель. Не пытайтесь менять CFG, результат только ухудшится. Это та же история что и с Z-Image Turbo — дистилляция работает именно потому, что параметры зафиксированы.

Встроенный Prompt Enhancer

У обоих вариантов есть параметр use_pe (Prompt Enhancer). По умолчанию включён (use_pe=True) — модель автоматически расширяет краткий промпт в детальный, дописывая за вас детали.

Как писать промпты для ERNIE-Image

ERNIE-Image любит максимально детальные кинематографические описания — буквально как режиссёрская заметка для оператора. Чем точнее вы описываете то, что видит «камера», тем лучше результат. Это не место для поэзии и образных метафор — это место для чётких технических инструкций в человеческих словах.

Структурированное описание сцены:

This is a cinematic fantasy illustration depicting a medieval tavern scene.
Shot from a low angle, slightly looking up at the main subject.
A ginger tabby cat stands upright in the foreground, dressed as a musketeer:
tall brown leather boots, wide-brimmed hat with a white feather,
burgundy cape, rapier sword raised triumphantly in the right paw.
The tavern background shows warm candlelight, wooden beams,
stone walls with mounted shields, blurred patrons in the background.
Lighting: warm orange candlelight from the left and slightly below,
creating dramatic upward shadows on the cat's face and cape.
Color palette: warm amber and deep brown tones, rich and saturated.
Style: detailed fantasy illustration, sharp foreground, painterly background.

Для многопанельных сцен — уникальная суперсила ERNIE-Image, которой нет больше ни у кого из этого списка:

A 4-panel comic strip in warm cartoon illustration style.
Panel 1 (top left): A ginger cat in musketeer outfit receives a quest scroll
from a dog king sitting on a throne. Expression: excitement and wonder.
Panel 2 (top right): The same cat sneaks through a dark enchanted forest,
sword drawn, torch in other paw. Expression: tense focus.
Panel 3 (bottom left): The cat discovers a giant golden fish on a marble pedestal,
jaw dropped in disbelief. Expression: shock and amazement.
Panel 4 (bottom right): The cat sits triumphantly on a treasure chest
surrounded by golden fish, sword raised, small animals cheering.
Expression: pure joy and triumph.
Style: clean black outlines, flat warm color fills, storybook aesthetic,
no speech bubbles, no text.

Qwen Image 2.0 — открытый чемпион от Alibaba

10 февраля 2026 года Alibaba выпустила Qwen Image 2.0. Это объединённая модель генерации и редактирования изображений — одна архитектура умеет и то и другое, что само по себе редкость. 7 миллиардов параметров — при этом предыдущая версия была 20B, архитектуру переработали в сторону эффективности и не прогадали. На AI Arena модель занимает первое место среди всех конкурентов сразу в двух категориях: text-to-image и image editing. Одновременно, без оговорок.

На момент написания статьи Qwen Image 2.0 доступна через API Alibaba Cloud и через Together AI. Открытых весов пока нет — модель в стадии invite beta, но полноценный открытый релиз ожидается. Нативное разрешение — 2K (2048×2048). Поддерживает промпты до 1000 токенов — это очень много, используйте это преимущество по максимуму.

Главный козырь — текст и типографика

Qwen Image 2.0 лучшая в классе по рендерингу текста внутри изображений. Английский, китайский, кириллица — всё это воспроизводится с высокой точностью. Для постеров, баннеров, открыток, обложек, инфографики с текстом — это ваш первый выбор. Без вопросов:

A promotional poster for a medieval cat festival.
Large bold title in gothic serif font reads "РЫЦАРСКИЙ ТУРНИР" in deep gold color
at the top third of the poster.
Center: dramatic illustration of a ginger cat in full knight armor
raising a sword, lit by a single dramatic spotlight from above.
Bottom area: subtitle "12 июля · Замок Мяу" in smaller elegant font, cream color.
Background: dark navy with subtle castle silhouette and stars.
Red velvet texture border around the entire composition.
Medieval heraldic aesthetic, rich dramatic color palette.

Редактирование изображений

Это то, чего нет у большинства конкурентов в одной модели. Загружаете картинку, пишете инструкцию — модель редактирует. Без переобучения, без отдельных пайплайнов, прямо в той же архитектуре:

Change the cat's cape color from burgundy to deep forest green.
Keep everything else identical.

Или:

Replace the tavern background with a snowy mountain village at night.
Preserve the cat character and lighting on it exactly as is.

Как писать промпты для Qwen Image 2.0

Модель прекрасно понимает режиссёрские инструкции и длинные детальные описания. Не бойтесь писать много — 1000 токенов это примерно 700–800 слов, и модель использует каждое. Это единственная модель в нашем списке, которой буквально выгодно давать больше информации.

Для максимального качества используйте трюк из официального кода — добавляйте в конце промпта magic suffix. Просто добавляйте в самый конец:

[ваш промпт], Ultra HD, 4K, cinematic composition.

Пример для портрета:

Portrait photograph of a middle-aged woman with warm genuine smile.
Natural skin texture with visible laugh lines, showing warmth and experience.
Auburn shoulder-length hair with slight natural wave.
Navy blue blazer over white cotton blouse.
Background: soft-focus modern office interior, large windows.
Lighting: diffused natural window light from the right,
gentle fill from the left.
85mm portrait lens at f/1.8, extremely shallow depth of field,
subject tack sharp, background creamy blur.
Ultra HD, 4K, cinematic composition.

Параметры Qwen Image 2.0

true_cfg_scale — 4.0 (рекомендованное из официального кода).
num_inference_steps — 50.

Разрешения по соотношениям сторон:
1:1 → 1328×1328
16:9 → 1664×928
9:16 → 928×1664
4:3 → 1472×1104
3:4 → 1104×1472
3:2 → 1584×1056
2:3 → 1056×1584

Негативный промпт поддерживается — но если не используете, ставьте пустую строку или пробел. Не оставляйте поле пустым — это может вызвать нестабильность генерации:

Негатив: worst quality, blurry, deformed, watermark, text artifacts

Midjourney — кратко о главном

Midjourney — это облачный сервис, работающий через Discord и веб-интерфейс. Никакого локального запуска, никаких открытых весов. Зато лучшая художественная эстетика среди всех перечисленных моделей и богатейшая база стилей. Это инструмент для тех, кому важен результат, а не процесс копания в настройках.

На май 2026 года актуальные версии: v7 (стал дефолтом 17 июня 2025) и v8 Alpha (вышел 17 марта 2026) с v8.1 Alpha (14 апреля 2026). V8 генерирует в 5 раз быстрее v7, поддерживает нативное разрешение 2K с флагом --hd, значительно улучшен рендеринг текста и следование промпту.

Синтаксис Midjourney

У Midjourney свой язык — параметры-флаги в конце промпта через двойное тире. Это не баг, это фича — и разобравшись с ними один раз, вы получаете очень точный контроль над результатом.

--v 7 или --v 8 — версия модели.

--ar 16:9 — соотношение сторон. Работает любое: 1:1, 3:4, 4:5, 9:16, 16:9, 3:2 и так далее.

--no — что исключить из изображения. Работает вместо негативного промпта: --no watermark, text, blur. Элегантнее чем городить отдельное поле.

--stylize 750 — сила художественной интерпретации от 0 до 1000. При 0 — буквальное следование промпту без какой-либо эстетической обработки. При 1000 — максимум художественности, модель сильно интерпретирует и добавляет от себя. Большинство пользователей живут в диапазоне 500–800.

--chaos 30 — разнообразие вариантов в сетке от 0 до 100. Чем выше, тем более непредсказуемые и разные варианты в одной генерации. Полезно когда нужно быстро нащупать направление, а не получить четыре похожие вариации одного и того же.

--weird 500 — добавляет нестандартные, экспериментальные визуальные решения. Работает в v7 и v8. Если хотите чего-то неожиданного — вот ваш рычаг.

--hd — нативное 2K разрешение в v8 Alpha. Включайте когда нужна финальная версия, а не черновик.

--style raw — отключает художественную обработку Midjourney и даёт более «сырой» фотореалистичный результат. Помогает когда фирменная эстетика MJ мешает.

Взвешенные промпты через ::

ginger cat musketeer::2 medieval tavern::1 darkness::0.3 --ar 3:4 --v 7

Числа — относительные приоритеты. Кот-мушкетёр важен вдвое больше таверны, темнота почти не важна. Тонкий инструмент для балансировки сцены без переписывания всего промпта с нуля.

Omni Reference и Style Reference — главные инструменты v7 и v8

--oref [URL] — Omni Reference. Загружаете изображение с персонажем или объектом, и Midjourney сохраняет его визуальную идентичность в новых генерациях. Идеально для серий с одним и тем же героем — наш кот в сапогах наконец может оставаться узнаваемо одним котом от картинки к картинке, а не перерождаться в нового персонажа при каждой генерации.

--sref [URL] — Style Reference. Загружаете картинку с нужным стилем или настроением, модель применяет его к новым генерациям. Мудборды теперь работают напрямую — не нужно долго объяснять словами «вот такое настроение хочу», просто даёте ссылку.

Draft Mode — быстрые черновики за меньшую стоимость кредитов. Сначала проверяете идею и композицию в Draft, потом генерируете финал в полном качестве. Экономит и деньги, и нервы.

Как писать промпт для Midjourney

Пишите как художественное задание — не список тегов и не технические инструкции, а образное описание того, что хотите увидеть. Midjourney лучше всего реагирует на атмосферные, образные формулировки. Это единственная модель в нашем списке, где поэтический язык работает лучше технического. Не бойтесь писать красиво — здесь это не слабость, а инструмент:

/imagine confident ginger tabby cat dressed as a swashbuckling musketeer,
standing triumphantly in a candlelit medieval tavern,
leather boots and feathered hat, rapier raised high,
dramatic chiaroscuro lighting, rich warm tones,
painterly oil painting aesthetic --ar 3:4 --v 7 --stylize 800
--no watermark text blur

Для v8 с повышенным разрешением:

/imagine heroic ginger cat musketeer in medieval castle doorway,
leather boots and plumed hat, sword catching torchlight,
cinematic fantasy atmosphere, ultra detailed --ar 3:4 --v 8 --hd --stylize 600

Kling — кратко о главном

Kling — это продукт китайской компании Kuaishou, изначально заточенный под видеогенерацию. Kling v3 (2026) умеет и статичные изображения в нативном 4K, и видео до 15 секунд нативно с выводом в 4K. Работает через облачный сервис kling.ai.

Kling думает как режиссёр, а не как иллюстратор. Это принципиально меняет подход к промптингу — если все предыдущие модели вы описывали картинку, то Kling вы описываете сцену в движении. Разница огромная, и если не понять этого с самого начала, результаты будут разочаровывать.

Формула промпта для Kling

Официальная и проверенная практикой структура:

движение камеры → освещение → атмосфера → описание субъекта → действие субъекта → описание сцены

Slow push-in camera movement.
Warm torch lighting, heroic cinematic atmosphere.
A ginger tabby cat in musketeer outfit — leather boots, feathered hat, drawn sword —
raises the rapier slowly in a triumphant salute.
Medieval stone castle corridor, flickering torches on rough stone walls,
wisps of smoke drifting through the air.

Для видеогенерации — особые правила

Когда вы генерируете видео, а не статичную картинку, промпт должен описывать движение во времени. Это другой жанр письма — не натюрморт, а хореография.

Глаголы движения критичны: draws, turns, raises, walks toward, spreads wings, blinks slowly. Чем конкретнее действие — тем лучше анимация. «Кот стоит» — плохо. «Кот медленно поднимает рапиру, пока его плащ развевается от сквозняка» — хорошо.

Опишите начало и конец клипа: The cat begins with sword lowered, then slowly raises it above its head as the crowd gasps. Модель просчитает переход между двумя состояниями сама — ваша задача задать точки А и Б.

Несколько объектов — перечисляйте действия последовательно: cat raises sword, torches flicker brighter, crowd of animals cheers and steps back.

Негативный промпт в Kling для видео работает — в отличие от большинства новых моделей. Используйте для борьбы с типичными артефактами анимации:

Негатив: blur, camera shake, distortion, duplicate limbs, unnatural movement

Image-to-Video в Kling

Если загружаете готовую картинку и анимируете её — сосредоточьтесь только на действии, не переписывайте всю сцену заново. Модель уже «видит» картинку, ваша задача — сказать что должно двигаться и как:

The cat slowly raises the sword above its head,
fur rippling slightly in the wind,
the feather on the hat trembling gently.

Универсальные принципы для всех моделей

После всего разобранного — несколько правил, которые работают везде и всегда, независимо от архитектуры. Это не теория, это выжимка из практики.

Главное — в начало. Абсолютно все современные модели взвешивают начало промпта сильнее конца. Субъект — первым словом или фразой. Не «с потрясающим освещением и кинематографическими тонами изображён кот-мушкетёр», а «кот-мушкетёр, с потрясающим освещением и кинематографическими тонами». Звучит очевидно, но половина плохих результатов рождается именно из-за этой перестановки.

Конкретика всегда побеждает абстракцию. «Красивый кот» — плохо, потому что каждая модель понимает «красивый» по-своему. «Рыжий табби-кот с янтарными глазами, длинными белыми усами и пушистым хвостом с белым кончиком» — хорошо, потому что здесь нет пространства для интерпретации. Модель не может угадать неправильно, если ей нечего угадывать.

Освещение — это половина картины. Добавление точного описания освещения даёт огромный прирост к качеству в любой модели. Указывайте источник, его направление и цветовую температуру: soft diffused natural light from the upper left, warm candle light from below creating dramatic upward shadows, golden hour backlight with soft lens flare. Две минуты на описание света — и результат на совершенно другом уровне.

Не дублируйте идею синонимами. Cinematic, film-like, movie aesthetic, looks like a film still, cinematic quality — это не усиление, это шум. Модель не складывает синонимы в стопку. Одно точное слово лучше пяти похожих. Всегда.

Итерируйте одно изменение за раз. Никто не попадает в цель с первого промпта — это нормально и так у всех. Зафиксируйте Seed и меняйте по одному параметру. Так вы точно поймёте, что именно влияет на результат. Z-Image Turbo и Flux 2 Klein существуют именно для того, чтобы итерации были мгновенными и дешёвыми.

Шпаргалка — какую модель выбрать под задачу

Старые файнтюны, аниме, LoRA с Civitai → SD 1.5 или SDXL. Там живут тысячи специфических стилей, которых нет нигде больше. Единственное место где работают весовые скобки и отрицательные промпты в полную силу.

Максимальное качество локально → Flux 2 Dev. 32 миллиарда параметров, открытые веса, поддержка редактирования. Если у вас хватает железа — это лучшее что можно запустить у себя на машине.

Быстрые итерации локально → Flux 2 Klein 4B или Z-Image Turbo. Оба генерируют за секунды. Нашли нужную идею — переходите на Dev или Base для финала.

Продакшн через API, несколько референсов, HEX-цвета → Flux 2 Pro или Flux 2 Max. Брендовая работа, продуктовые съёмки, коммерческие задачи с точными требованиями к цвету.

Фотореалистичные портреты и лица → Z-Image Base или Qwen Image 2.0.

Текст внутри изображений, постеры, кириллица → Qwen Image 2.0. Лучший в классе без оговорок. Если нужен точный текст на картинке — первый выбор, даже не думайте.

Комиксы, сториборды, многопанельные сцены → ERNIE-Image Base. Единственный настоящий специалист в этом. Никто другой не умеет так держать структуру многопанельной композиции.

Быстрые черновики с хорошим качеством → ERNIE-Image Turbo или Z-Image Turbo. Восемь шагов — и у вас есть внятный результат для оценки идеи.

Художественная эстетика, богатые стили, арт → Midjourney v7 или v8 Alpha. Никто не делает «красиво» лучше, чем MJ — это просто факт рынка на сегодня.

Видеогенерация, анимация → Kling v3. Пока что безальтернативен в своём классе по соотношению качества и доступности.

Рыжий кот в сапогах по-прежнему остаётся собой. Однако теперь нужно использовать другие языки. Изучите особенности своей модели, и кот станет таким, каким вы его задумали.

На этом всё. Надеюсь, теперь вам стало чуть яснее, как правильно формулировать промпты для новых моделей генерации.

Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.