Генерил тут плакат для превью. Получил персонажа с шестью пальцами и кракозяброй вместо текста. Открыл Photoshop.
Работаю с AI-генераторами с начала 2023-го. За это время прогнал тысячи картинок через Midjourney, Stable Diffusion, DALL-E. Сегодня делюсь рабочими способами, как превратить нейросетевой мусор в нормальные изображения.
Сначала про текст — тут появились годные решения
Sora Images и кириллица
Sora от OpenAI теперь нормально работает с русским текстом. Но есть нюансы.
Что работает:
- Указывайте в промпте "in Russian" или "на русском языке"
- Для заглавных букв пишите весь текст капсом прямо в промпте
- Можно задать тип шрифта: "serif font" (с засечками), "handwritten" (рукописный)
Что глючит:
- Сложные надписи — несколько строк текста или подзаголовки. Больше текста = выше шанс получить кашу
- Точки над ё иногда исчезают
- Буквы разного размера в одном слове
Мой промпт для русского текста в Sora:
Soviet propaganda poster style, bold red banner with text "ВПЕРЁД" in Russian, sans-serif font in capital letters, vintage 1970s aesthetic
Работает в 7 из 10 случаев. Остальные 3 — перегенерация.
Ideogram — специалист по тексту
Ideogram 2.0 понимает кириллицу, но не так стабильно как латиницу. Зато с английским работает идеально.
Лайфхак: Если нужен русский текст на картинке — генерите в Sora. Если английский или логотип — Ideogram лучший выбор.
Пример промпта для Ideogram:
Coffee shop logo, minimalist design, text "BREW" in bold serif font, brown and cream colors, clean composition
Когда проще доделать руками
Честно — для сложной типографики всё ещё быстрее:
- Генерите фон/композицию БЕЗ текста
- Открываете Figma или Canva
- Накладываете свой шрифт
Делаю так для всего, где текст критичен: обложки курсов, баннеры для рекламы, постеры. Экономит нервы.
Руки и пальцы — вечная боль
Главная проблема: AI не понимает анатомию. Он просто копирует паттерны из датасета, где руки часто частично скрыты или не в фокусе.
Способ 1: Прячем проблему
Работающие варианты:
- "hands in pockets"
- "arms crossed behind back"
- "holding phone" (телефон скрывает пальцы)
- "wearing gloves"
- "hands on steering wheel" (руль структурирует позу)
В 60% случаев этого достаточно.
Способ 2: Крупный план = меньше косяков
Чем ближе камера — тем проще AI.
Вместо:
person sitting at desk working on laptop
Пишу:
close-up portrait, shoulders up, business professional, corporate headshot
Портреты и крупные планы генерятся чище, потому что в датасетах таких фото больше и они детальнее.
Способ 3: Inpainting для почти идеальных картинок
Когда всё хорошо, но одна рука кривая:
В Stable Diffusion:
- Открываете img2img
- Закрашиваете кистью проблемную область
- Denoising strength: 0.4-0.6
- Тот же промпт + "correct hand anatomy, five fingers"
Онлайн-сервисы:
- Photoshop Generative Fill (если есть подписка)
Я делаю 10-15 генераций, выбираю лучшую, фикшу inpainting'ом. Да, дольше, но результат годный.
Способ 4: Негативные промпты
В Stable Diffusion есть поле "Negative prompt" — список того, чего НЕ должно быть.
Мой стандартный негатив:
extra fingers, missing fingers, fused fingers, too many fingers, poorly drawn hands, mutated hands, deformed hands, bad anatomy, bad proportions, extra limbs
Добавление в негативный промпт помогает модели избежать типичных ошибок с руками.
Низкое качество и мыло
Апскейл — must have
Topaz Gigapixel AI — платный ($99), лучший для фоток.
Берёте размытую 1024×1024, получаете чёткую 4K.
Upscayl — бесплатный, open-source.
Качество чуть хуже Topaz, но для большинства задач норм.
Real-ESRGAN — можно запустить онлайн.
Годится для быстрого апскейла без установки софта.
Мой воркфлоу:
- Генерю в низком разрешении (быстрее)
- Выбираю лучшую
- Прогоняю через Upscayl на 4x
- Если нужно совсем топ — дополнительно Topaz
Настройки в нейросетях
Midjourney:
--quality 2 --stylize 250 --chaos 10
Quality 2 — это 2x времени, но заметно четче.
Stable Diffusion (мои рабочие настройки):
- Sampling steps: 40-50 (меньше 30 = мыло)
- CFG Scale: 7-8 (больше 10 = пересвет и артефакты)
- Sampler: DPM++ 2M Karras
- Hires fix: ON (критично для деталей)
Leonardo AI:
Ставлю Alchemy на максимум. Жрёт больше кредитов, но качество х2.
Двойная генерация
Генерите сначала в 512×512 (draft), потом этот результат через img2img в 1024×1024 с denoising 0.3.
Детализация улучшается, а композиция сохраняется.
Странная композиция и артефакты
Используйте reference images
В Midjourney:
/imagine [загружаете картинку] modern office interior --iw 1.2
--iw (image weight) от 0.5 до 2. Чем выше — тем сильнее ориентация на референс.
В Stable Diffusion:
Вкладка img2img, загружаете референс, Denoising: 0.4-0.5.
Я собрал папку с 50+ референсами в нужных стилях. Перед генерацией просматриваю — мозг запоминает паттерн, промпт пишется проще.
ControlNet для точного контроля
Для тех, кто работает в AUTOMATIC1111 или ComfyUI.
ControlNet Canny — задаёте контуры объектов.
ControlNet Depth — контролируете глубину сцены.
ControlNet Pose — фиксируете позу человека.
Сложно настраивать, но результат предсказуемый.
Пример: нужен человек в конкретной позе → загружаете фото позы в ControlNet Pose → генерите с любым промптом → поза сохранится, стиль изменится.
Как убрать "нейросетевость"
Знаете эту пластиковую кожу и идеальную симметрию? Вот как от неё избавиться.
Удалите "магические слова"
НЕ используйте:
- "ultra detailed"
- "8k resolution"
- "perfect lighting"
- "masterpiece"
- "award winning"
Эти слова усиливают типичный AI-вид.
Добавьте несовершенства
ВМЕСТО этого:
natural lighting, soft shadows, film grain, slight chromatic aberration, shot on Fujifilm XT4, 35mm f/1.4, authentic candid photo
Технические детали съёмки делают результат более живым и естественным.
"Shot on iPhone" — неожиданно работает для casual-фото.
Промпт-формула для реализма
[subject], natural window light, slightly underexposed, shallow depth of field, Kodak Portra 400 film, grainy texture, imperfect focus, authentic moment
Чем конкретнее параметры камеры и плёнки — тем меньше AI-пластика.
Рабочие лайфхаки
Правило трёх попыток
Если после 3 генераций фигня — меняйте промпт радикально. AI застревает в паттерне.
Seed для вариаций
Нашли удачную картинку? Копируйте seed (в Midjourney — реакция 🎰), слегка меняйте промпт. Получите вариации в том же стиле.
Batch-генерация
НЕ генерите по одной. Ставьте сразу 10-20 вариантов. В Stable Diffusion: Batch count: 10-15.
Выбирайте лучшую из пачки, а не пытайтесь довести до идеала одну.
Remix в два этапа
- Генерите грубую версию
- Берёте её как референс
- Генерите финал с промптом + референс
Контроль композиции улучшается в разы.
Мой рабочий стек
Генерация:
- Midjourney — когда нужно красиво и быстро, не парюсь с настройками
- Stable Diffusion — когда нужен контроль, специфичный стиль, NSFW
- Sora Images — для картинок с русским текстом
- Leonardo AI — для вариаций и стилизаций
Улучшение:
- Upscayl — ежедневный апскейл
- Topaz Gigapixel — когда нужно топ-качество для печати
- ClipDrop — удаление артефактов
- RunwayML — inpainting сложных областей
Финализация:
- Figma — композиция, текст, макеты
- Photoshop — цветокоррекция, мелкие правки
- Lightroom — финальная обработка для фото
Что запомнить
AI — это инструмент, а не кнопка "сделать красиво". Вы не получите идеал с первого раза.
Три правила:
- Генерите много (10-20 вариантов), выбирайте лучший
- Не бойтесь комбинировать: 80% AI + 20% ручная работа
- Собирайте библиотеку референсов и промптов
Иногда быстрее переделать генерацию, чем два часа исправлять кривую руку.
Практический совет: Сделайте 100 генераций за неделю. Просто генерите всякое, эксперименты, любую фигню. После этого начнёте чувствовать, что сработает, а что нет. Работает лучше курсов за 15к.
Частые вопросы в комментах:
"Какая нейросеть лучшая?" — Зависит от задачи. Для скорости — Midjourney. Для контроля — SD. Для русского текста — Sora.
"Сколько стоит?" — Midjourney от $10/мес, SD бесплатно (локально), Sora в составе ChatGPT Plus $20/мес.
"Нужна ли мощная видеокарта?" — Для онлайн-сервисов нет. Для локального SD — желательно RTX 3060+ с 12GB VRAM.
Есть вопросы по конкретным кейсам — пишите, разберём.