Агент по миграции кода завершает работу. Пайплайн зелёный, всё выглядит чисто. Только через несколько дней выясняется, что часть кода просто не была скомпилирована. Не потому что модель плохая — просто агент сам решил, что сделал всё. Агент — плохой судья своей работы Любой агент работает в цикле: читает файлы, запускает команды, вносит изменения — и после каждого шага спрашивает себя: «Я закончил?» Проблема в том, что модель, которая только что что-то сделала, видит это как прогресс. И когда она смотрит на задачу в целом, она уже мысленно отмечает её выполненной — даже если остались незакрытые хвосты. Это не баг конкретной модели, это системная история. Разработчику, который сидит рядом, очевидно, что тест не прошёл. Агенту — нет, потому что он только что закончил что-то другое, и это «что-то» ощущается как финиш. Anthropic выкатили решение в Claude Code — команду /goals. И идея там неожиданно простая. Разделить того, кто делает, и того, кто оценивает /goals добавляет в рабочий цикл а
Claude Code /goals: почему ИИ-агент сам решает, что задача выполнена — и почему это проблема
20 мая20 мая
3
3 мин