Исследовательская организация METR представила новое исследование, в котором показано, что популярный бенчмарк для ИИ‑агентов в программировании SWE-bench Verified значительно завышает их реальную эффективность. По оценке авторов работы, примерно половина решений, признанных тестом успешными, не были бы приняты настоящими мейнтейнерами проектов. SWE-bench Verified долгое время считался одним из ключевых инструментов оценки ИИ для разработки ПО. Он проверяет, могут ли агенты решать реальные задачи из открытых проектов: изменения кода автоматически прогоняются через набор тестов. Результаты по этому бенчмарку регулярно используют Anthropic и OpenAI, демонстрируя прогресс своих моделей. METR поставила под сомнение корректность такой оценки. Команда исследователей — Паркер Уитфилл,… Подробнее