Добавить в корзинуПозвонить
Найти в Дзене

👨‍💻 Агент забывает, что такое «готово» — и поэтому ломает длинные задачи

Если ты когда-нибудь давал ИИ-агенту задачу из десяти шагов, ты знаешь этот момент: к восьмому шагу он уже делает что-то своё, а не то, о чём вы договаривались. Это не баг — агент просто потерял из виду, как выглядит конечный результат. OpenAI добавила в Codex режим /goal — он лечит ровно эту болезнь: ⏺Постоянная цель. Ты задаёшь её один раз, и агент сверяется с ней на каждом шаге, а не держит в голове только последнюю реплику. ⏺Цель как мини-контракт. Не «почини проект», а три блока: какой результат нужен, какие ограничения, какими проверками убедиться, что готово. ⏺Чек-лист до и после. Агент составляет список критериев, делает работу, потом сам прогоняет список заново и показывает, что изменил. Самое полезное здесь — даже не сама кнопка в Codex, а принцип. Он работает с любым агентом, хоть с Claude Code: если в начале задачи прописать чёткое определение «done» — что именно должно быть на выходе и как это проверить — агент сбивается с курса в разы реже. Я это вижу постоянно. Ког

👨‍💻 Агент забывает, что такое «готово» — и поэтому ломает длинные задачи

Если ты когда-нибудь давал ИИ-агенту задачу из десяти шагов, ты знаешь этот момент: к восьмому шагу он уже делает что-то своё, а не то, о чём вы договаривались. Это не баг — агент просто потерял из виду, как выглядит конечный результат.

OpenAI добавила в Codex режим /goal — он лечит ровно эту болезнь:

⏺Постоянная цель. Ты задаёшь её один раз, и агент сверяется с ней на каждом шаге, а не держит в голове только последнюю реплику.

⏺Цель как мини-контракт. Не «почини проект», а три блока: какой результат нужен, какие ограничения, какими проверками убедиться, что готово.

⏺Чек-лист до и после. Агент составляет список критериев, делает работу, потом сам прогоняет список заново и показывает, что изменил.

Самое полезное здесь — даже не сама кнопка в Codex, а принцип. Он работает с любым агентом, хоть с Claude Code: если в начале задачи прописать чёткое определение «done» — что именно должно быть на выходе и как это проверить — агент сбивается с курса в разы реже.

Я это вижу постоянно. Когда даёшь расплывчатую формулировку, ИИ заполняет пробелы по своему усмотрению — и почти всегда не так, как ты хотел. А «определение готового» — это, по сути, обычное продуктовое мышление: сначала договорись о критериях приёмки, потом начинай работу. Просто теперь договариваться приходится не с разработчиком, а с агентом.

Кстати GPT в версии 5.5 стал работать получше. Многие хвалят Codex и предпочитают его Клоду, просто потому что Codex жрёт меньше токенов и работает не хуже.

🔗 Документация Codex по /goal

🤖 В эпоху AI