32 подписчика

Автономные агенты вроде AutoGPT обещали автоматизацию через рекурсивный промптинг

31 декабря 202531 дек 2025

1 мин

Но для инженера по безопасности этот метод — зона высокого риска. Когда модель сама ставит себе задачи без внешнего надзора, возникают три фундаментальные угрозы. Семантическая энтропия. С каждой итерацией точность контекста падает. Модель накапливает собственные ошибки, пока логика не рассыпается в бессвязный набор токенов. Это деградация внимания внутри конкретной сессии. Бесконечный Token Burn. Без стоп-сигналов агент уходит в цикл вечного уточнения задачи. Результат: нулевой профит и огромный счет за API. Код while(true) в мире LLM обходится слишком дорого. Эрозия фильтров. Рекурсия позволяет обойти защиту через многослойную инъекцию. Промежуточный промпт кажется безопасным, но на следующем шаге он провоцирует джейлбрейк, постепенно размывая системные инструкции. Чтобы строить надежные системы, внедряйте ограничение глубины max_recursion_depth. Используйте внешнюю модель-критика для проверки каждого шага и настройте семантический мониторинг. Если сходство эмбеддингов указывает

Автономные агенты вроде AutoGPT обещали автоматизацию через рекурсивный промптинг. Но для инженера по безопасности этот метод — зона высокого риска. Когда модель сама ставит себе задачи без внешнего надзора, возникают три фундаментальные угрозы.

Семантическая энтропия. С каждой итерацией точность контекста падает. Модель накапливает собственные ошибки, пока логика не рассыпается в бессвязный набор токенов. Это деградация внимания внутри конкретной сессии.

Бесконечный Token Burn. Без стоп-сигналов агент уходит в цикл вечного уточнения задачи. Результат: нулевой профит и огромный счет за API. Код while(true) в мире LLM обходится слишком дорого.

Эрозия фильтров. Рекурсия позволяет обойти защиту через многослойную инъекцию. Промежуточный промпт кажется безопасным, но на следующем шаге он провоцирует джейлбрейк, постепенно размывая системные инструкции.

Чтобы строить надежные системы, внедряйте ограничение глубины max_recursion_depth. Используйте внешнюю модель-критика для проверки каждого шага и настройте семантический мониторинг. Если сходство эмбеддингов указывает на зацикливание или потерю нити — прерывайте цикл.

Проектируйте агентов с пониманием того, что ИИ может «заблудиться» в своих мыслях. Больше об архитектуре безопасности читайте в блогах Anthropic и OpenAI.