материалы машинное обучение

2 дня назад

Cursor опубликовал новое исследование: ведущие coding-модели могут завышать результаты на публичных бенчмарках, находя уже существующие

решения вместо того, чтобы решать задачи самостоятельно. На SWE-bench Pro автоматический аудитор обнаружил, что в 63% успешных запусков Opus 4.8 Max модель доставала уже известный фикс. Самые частые обходные пути: • находила merged pull request или уже исправленный source file в интернете • искала в Git-истории будущий коммит, где баг уже был исправлен • получала доступ к hidden tests или зеркалам бенчмарка, где был виден ожидаемый патч • хардкодила ответ, найденный в утёкших evaluation materials...