Я сделал агента, который из любой идеи собирает структурированный запрос для нейросети генерации изображения.
В конце 2025 года я писал про инженерный промптинг: как слова превращаются в свет, композицию и понятные инструкции для генеративных моделей. Потом появился Telegram-канал с промптами (free). Сначала это была скорее личная лаборатория, где я бесконечно тестировал приемы, модели и разные способы сборки хорошего запроса.
И довольно быстро стало понятно простое: людям не нужен еще один гайд в духе "как правильно писать промпты". Нужен помощник, который умеет принять на вход любую формулировку - идею, кривой запрос, описание кадра, чужой промпт - и вернуть не лотерею, а внятный, структурный результат. В этой статье покажу, как я собирал такого агента, чему пришлось научить его внутри и почему для меня это уже не теория, а реальный рабочий инструмент на каждый день.
Зачем это вообще нужно
Есть идея. Живая, объемная, у вас в голове она выглядит вполне ясно. Но как только вы пытаетесь превратить ее в текст для нейросети, часть смысла теряется. Получается либо слишком общее описание, либо слишком буквальное, либо модель уезжает в сторону и делает что-то похожее, но совсем не то.
Вторая частая ситуация - вы находите чужой промпт. Он красивый, структурный, вроде бы собран правильно. Хочется адаптировать его под свою задачу, но непонятно, где в нем ядро, что можно спокойно менять, а что держит всю конструкцию и ломать это нельзя.
Третий сценарий - у вас уже есть референс: кадр, фотография, рендер, готовая сцена. И здесь задача уже другая. Нужно описать ее так, чтобы нейросеть не начала выдумывать новый мир с нуля, а сохранила тот же ракурс, тот же свет, ту же композицию и работала аккуратно внутри исходного кадра.
Формально это три разные задачи. Но проблема у них одна: думаем мы визуалом, а объясняем все словами. И если нет понятной структуры - где ядро, где второстепенное, что нужно зафиксировать, а что можно оставить переменным - промптинг быстро превращается в перебор случайных вариантов. Именно под это я и сделал агента, который берет на себя самую грязную часть работы: вытащить идею, отделить ее от шума и собрать из нее чистый, рабочий шаблон.
Хочешь, чтобы промпты собирались сами, без бесконечных правок и перебора вариантов?
Запусти Агента с мышлением промпт-инженера для генерации изображений - просто кинь ему идею, чужой промпт или референс, а дальше он сам соберет структурированный запрос под нейросеть.
Что умеет агент
Вы можете дать ему что угодно: сырую идею в одном предложении, чужой промпт, который хочется адаптировать, описание референса или уже готовый текст, который почему-то не дает нужный результат. Агент не переводит и не делает рерайт. Он вытаскивает визуальное ядро идеи и пересобирает промпт заново.
Причем можно пойти еще проще: не только описать идею словами, но и сразу загрузить референсное изображение. Тогда агент анализирует сам кадр и собирает готовый промпт уже на основе картинки. Это удобно, когда в голове нет точной формулировки, но есть визуал, от которого хочется оттолкнуться.
На выходе получается не одноразовый ответ, а рабочий шаблон: промпт по блокам, с правильно расставленными акцентами и управляемыми переменными в квадратных скобках только там, где это действительно нужно. Меняете объект - получаете новую сцену с той же логикой. Меняете цвет, материал или фон - структура не разваливается, а остается устойчивой.
Если потом нужно что-то поправить, достаточно короткой правки: "без стекла", "фон темнее", "меньше деталей". Агент воспринимает это не как новый текст для копирования, а как изменение параметров текущего шаблона. Поэтому он не ломает весь промпт, а аккуратно пересобирает только нужную часть.
Как я заложил агенту мышление
Довольно быстро стало видно, что просто "улучшать текст" недостаточно. Если агент работает как переписчик, он может сделать ответ аккуратнее, но не сильнее. Поэтому следующая версия строилась уже вокруг другой логики: не редактировать формулировку, а понимать, что в запросе главное, а что можно отбросить.
Внутри у агента несколько режимов мышления. Сначала он разбирает запрос и пытается понять саму идею: что здесь является образом, что держит визуал, какое общее ощущение должно остаться. Потом достраивает только то, чего не хватает для сильного результата: свет, материал, композицию, ракурс, детали. После этого собирает все в нормальную структуру, а в конце проверяет, не расползся ли промпт и не потерялась ли изначальная идея.
Четыре роли, которые выполняет агент:
- Аналитик определяет тип образа, главный объект, основной визуальный принцип и общее ощущение подачи.
- Дизайнер достраивает недостающее: форму, материал, свет, палитру, ракурс, композицию - но только там, где это действительно усиливает результат.
- Инженер собирает промпт как систему блоков: без лишних секций и без сплошной простыни текста.
- Критик проверяет итог: не потеряна ли идея, нет ли конфликта, перегруза, повторов, буквального переноса исходника или слишком расползшихся переменных. Если что-то ломает конструкцию, запрос уходит на пересборку.
Отдельно пришлось заложить очень важное правило: агент должен различать главное и второстепенное. Не все в запросе одинаково важно. Есть вещи, без которых идея ломается, а есть детали, которые можно менять, усиливать или вообще убирать. Именно это позволяет не тащить в итоговый шаблон весь мусор из исходного текста.
Еще один принцип - на выходе должен быть не разовый ответ, а удобный шаблон для работы дальше. Поэтому часть решений фиксируется сразу, а в квадратные скобки выносятся только те элементы, которые реально имеет смысл менять руками: например, объект, цвет, материал или отдельные детали. За счет этого промпт остается устойчивым и не разваливается от любой правки.
Плюс агент понимает разницу между двумя типами задач. В одном случае нужно собрать новую сцену с нуля. В другом - аккуратно работать с уже существующим кадром, где важно не выдумать новый визуал, а удержать ракурс, свет, композицию и масштаб. Для генерации и для преобразования это принципиально разная логика.
И последнее: короткие правки вроде "фон темнее", "без стекла", "меньше деталей" он воспринимает не как новый текст для вставки, а как точечное изменение текущего шаблона. То есть не ломает все заново, а меняет только нужный слой.
Что получилось в итоге и где попробовать
В итоге из этого получилась не просто красивая методология, а реальный рабочий инструмент. Сейчас агент умеет вытаскивать идею даже из слабого, кривого или расплывчатого запроса, пересобирать ее заново и выдавать структурный шаблон промпта, который не разваливается от правок и нормально держит замену объекта, цвета или других ключевых элементов. Он понимает разницу между новой сценой и доработкой существующего кадра, аккуратно работает с короткими правками и не забивает результат лишним техномусором.
1 апреля 2026 года я обновил этого помощника и выложил его публично в GPT Store. Теперь им может воспользоваться любой, вообще не погружаясь в то, как устроена его внутренняя логика. Достаточно просто дать ему нормальный вход: идею, чужой промпт, описание кадра, референсное изображение или текст, который почему-то не дает нужный результат, и посмотреть, что он соберет на выходе.
Хочешь увидеть, как это работает на твоих задачах - от сырых идей до сложных референсов? Запусти Агента с мышлением промпт-инженера для генерации изображений в пару кликов и дай ему любой вход - он сам соберет промпт, который не разваливается от правок.
Также приглашаю в свой в Telegram-канал, где я делюсь промптами для генерации изображений.
Рекомендую почитать:
- Роскомнадзор проверяет сайты: что ищет бот, за что штрафуют и как защититься
- Как дизайнеру выжить при −70% вакансий: токены, скилы и деньги в 2026
- GPT Image 2. Прощай Nano Banana? На примере 25 промптов
- Seedance 2.0: полный гайд по работе с нейросетью. 15 промптов
- Секретные коды ChatGPT: 30 команд, которые экономят часы работы
Бесплатные промпты для генерации изображений и видео в моем Telegram-канале