205 подписчиков

Как на самом деле работают ИИ-агенты: что показал анализ 1573 сессий Claude Code

3 дня назад3 дня назад

5 мин

Сегодня многие представляют ИИ-агентов как нечто почти магическое: задаёшь задачу — и система сама пишет код, запускает команды, исправляет ошибки и доводит проект до результата. Но если заглянуть под капот, всё оказывается куда интереснее. Разработчики из ObsessionDB решили сделать именно это: они проанализировали 1 573 реальные сессии работы Claude Code — терминального агента от Anthropic. Их цель была простой и одновременно амбициозной: понять, какие инженерные приёмы позволяют ИИ не «терять мысль» в долгих задачах. Результаты оказались неожиданно практичными. Главный вывод — успешная работа ИИ-агентов зависит не столько от мощности модели, сколько от того, как устроен контекст вокруг неё. Claude Code — это терминальный агент, который работает прямо в консоли разработчика. По сути, это интерфейс, где языковая модель получает доступ к инструментам: файловой системе, git, shell-командам и различным API. В отличие от обычного чат-бота, такой агент может действовать, а не просто отвечат

Оглавление

Что вообще такое Claude Code
Главная болезнь ИИ-агентов — потеря цели
Секретный ингредиент: <system-reminder>

Разработчики из ObsessionDB решили сделать именно это: они проанализировали 1 573 реальные сессии работы Claude Code — терминального агента от Anthropic. Их цель была простой и одновременно амбициозной: понять, какие инженерные приёмы позволяют ИИ не «терять мысль» в долгих задачах.

Результаты оказались неожиданно практичными. Главный вывод — успешная работа ИИ-агентов зависит не столько от мощности модели, сколько от того, как устроен контекст вокруг неё.

Что вообще такое Claude Code

Claude Code — это терминальный агент, который работает прямо в консоли разработчика. По сути, это интерфейс, где языковая модель получает доступ к инструментам: файловой системе, git, shell-командам и различным API.

В отличие от обычного чат-бота, такой агент может действовать, а не просто отвечать текстом.

⚙️ Типичный рабочий цикл выглядит так:

⚙️ модель читает задачу пользователя
⚙️ анализирует кодовую базу проекта
⚙️ вызывает инструменты (например, git, npm, pytest)
⚙️ анализирует результаты выполнения
⚙️ корректирует стратегию

То есть агент действует почти как разработчик-джуниор, который постоянно проверяет свои действия.

Но именно здесь возникает большая проблема.

Главная болезнь ИИ-агентов — потеря цели

Когда сессия становится длинной — например, несколько сотен сообщений — модели начинают «дрейфовать».

Это явление в индустрии называют goal drift — дрейф цели.

Модель постепенно:

🧠 забывает исходную задачу
🧠 начинает фокусироваться на мелких деталях
🧠 может уйти в бесконечные исправления

Если вы когда-нибудь работали с агентами, вы наверняка это видели: спустя 40–50 шагов система начинает делать странные вещи.

Исследование ObsessionDB показало, что Anthropic решает эту проблему довольно элегантным способом.

Секретный ингредиент: <system-reminder>

Самая интересная находка исследования — массовое использование специального тега:

<system-reminder>

Этот тег регулярно вставляется в диалог и служит постоянным напоминанием агенту о контексте задачи.

Важно, что он появляется не только в системных промптах.

Он внедряется в самые разные места.

📌 Например:

🧠 в ответы модели
🧠 в результаты вызова инструментов
🧠 в промежуточные шаги рассуждения
🧠 в системные инструкции

Фактически агент постоянно получает маленькие «пинки памяти».

Это напоминает программиста, который держит перед глазами листок с основной задачей, чтобы не сбиться с курса.

Почему это работает

Языковые модели работают не как классические программы. Они не имеют строгой логической структуры выполнения.

Их «мышление» — это последовательность вероятностных прогнозов текста.

Если контекст постепенно смещается, модель начинает принимать решения на основе последних сообщений, а не исходной цели.

Теги-напоминания решают эту проблему.

⚙️ Они:

⚙️ возвращают модель к исходной задаче
⚙️ закрепляют рамки поведения
⚙️ уменьшают вероятность отклонений

По сути, это контекстный якорь.

Контекст — новая архитектура программирования

Интересно, что такие приёмы постепенно формируют новую дисциплину разработки.

Иногда это называют инженерией контекста.

Если раньше разработчики думали о:

💻 алгоритмах
💻 архитектуре
💻 структурах данных

то теперь приходится думать ещё и о структуре контекста для модели.

Например:

🧠 какие инструкции должны повторяться
🧠 где вставлять напоминания
🧠 как структурировать историю действий

Это превращает разработку агентов в смесь:

🧩 программирования
🧩 психологии взаимодействия
🧩 инженерии интерфейсов

Что ещё показал анализ 1573 сессий

Помимо тегов-напоминаний, исследование выявило несколько интересных паттернов.

⚙️ Частые короткие циклы действий

Агент не пытается решить задачу сразу. Он действует маленькими шагами: прочитать файл → изменить → проверить.

⚙️ Активное использование инструментов

Claude Code постоянно вызывает внешние утилиты — от git до тестовых фреймворков.

⚙️ Постоянная проверка результатов

После каждого действия модель анализирует вывод команды и решает, что делать дальше.

Это напоминает итеративный цикл разработки.

Интересный парадокс: чем умнее модель, тем больше подсказок ей нужно

На первый взгляд кажется, что мощные модели должны быть полностью автономными.

Но практика показывает обратное.

Даже самые сильные модели всё равно нуждаются в постоянных инструкциях.

Причина проста.

LLM не обладают настоящей долговременной памятью. Они работают только с текущим контекстом.

Поэтому без регулярных напоминаний модель постепенно теряет структуру задачи.

Именно поэтому в современных агентных системах всё чаще появляются:

🧠 системные напоминания
🧠 повторяющиеся инструкции
🧠 структурированные сообщения

Что это значит для разработчиков

Самый важный вывод исследования — успешные агенты строятся не на «магии модели», а на инженерии контекста.

Если вы создаёте собственных AI-агентов, стоит учитывать несколько принципов.

🧠 Постоянно повторяйте ключевые инструкции

Модель должна регулярно видеть цель задачи.

⚙️ Структурируйте историю действий

Каждый шаг должен быть понятен и логичен.

🔁 Используйте циклы «действие → проверка → корректировка»

Это делает поведение агента устойчивым.

Личный взгляд

Меня особенно впечатляет то, насколько быстро меняется сама философия разработки.

Ещё пару лет назад считалось, что достаточно:

💻 обучить большую модель
💻 дать ей API

И она будет работать сама.

Но реальность оказалась сложнее.

Мы постепенно понимаем, что LLM — это не автономные интеллект-машины, а очень мощные вероятностные системы, которые требуют аккуратной инженерии.

Именно поэтому сегодня появляются новые профессии:

🧠 инженер промптов
🧠 архитектор ИИ-агентов
🧠 инженер контекста

И судя по всему, это только начало.

Вывод

Анализ 1573 сессий Claude Code показал простую, но важную истину: эффективность ИИ-агентов определяется не только моделью, но и архитектурой контекста вокруг неё.

Системные напоминания, структурированные сообщения и постоянное удержание цели — это те инструменты, которые делают агента устойчивым.

Можно сказать, что современные AI-агенты — это не просто модели, а целые системы управления вниманием модели.

И чем сложнее становятся задачи, тем важнее становится именно эта инженерия.

Источники

🔗 https://github.com/obsessiondb/rudel

🔗 https://telegra.ph/Zaglyanut-za-kulisy-chto-1-573-sessii-Claude-Code-rasskazali-ob-istinnoj-rabote-AI-agentov-03-12