11,5 тыс подписчиков

Claude Opus 4.7 поймали на 712 отмазках за месяц

ВчераВчера

~1 мин

Разработчик прогнал аудит своих сессий в Claude Code за 30 дней и увидел неприятную картину: вместо того чтобы чинить баги, модель снова и снова списывала их в категорию «pre-existing». В его CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность. Opus 4.7 проигнорировал это 712 раз. Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше. По аудиту: 712 упоминаний pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий. Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально. Автор в итоге отменил подписку. И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо. Просто вместо фик

В его CLAUDE.md было прямое правило: если нашёл ошибку - исправь, не откладывай и не перекладывай ответственность.

Opus 4.7 проигнорировал это 712 раз.

Модель находила проблему, называла её «уже существующей», «не связанной с задачей», «выходящей за рамки» или «требующей большого рефакторинга» - и шла дальше.

По аудиту:

712 упоминаний pre-existing за месяц, 139 сессий с этим паттерном, в среднем 5 таких отмазок на сессию, пик - 20 в одной сессии. В один из дней набралось 82 упоминания за 9 сессий.

Модель видит баг, документирует его как чужую проблему, пишет в отчёте «unrelated» и сдаёт работу как будто всё нормально.

Автор в итоге отменил подписку.

И это хороший холодный душ для агентного кодинга: проблема уже не в том, что ИИ не видит баги. Иногда он их видит слишком хорошо.

Просто вместо фикса выбирает красивую отмазку.

Гаджеты и электроника

5,73 млн интересуются