Добавить в корзинуПозвонить
Найти в Дзене

METR: SWE-bench завышает эффективность ИИ-агентов

Исследовательская организация METR представила новое исследование, в котором показано, что популярный бенчмарк для ИИ‑агентов в программировании SWE-bench Verified значительно завышает их реальную эффективность. По оценке авторов работы, примерно половина решений, признанных тестом успешными, не были бы приняты настоящими мейнтейнерами проектов. SWE-bench Verified долгое время считался одним из ключевых инструментов оценки ИИ для разработки ПО. Он проверяет, могут ли агенты решать реальные задачи из открытых проектов: изменения кода автоматически прогоняются через набор тестов. Результаты по этому бенчмарку регулярно используют Anthropic и OpenAI, демонстрируя прогресс своих моделей. METR поставила под сомнение корректность такой оценки. Команда исследователей — Паркер Уитфилл,… Подробнее

METR: SWE-bench завышает эффективность ИИ-агентов

Исследовательская организация METR представила новое исследование, в котором показано, что популярный бенчмарк для ИИ‑агентов в программировании SWE-bench Verified значительно завышает их реальную эффективность. По оценке авторов работы, примерно половина решений, признанных тестом успешными, не были бы приняты настоящими мейнтейнерами проектов.

SWE-bench Verified долгое время считался одним из ключевых инструментов оценки ИИ для разработки ПО. Он проверяет, могут ли агенты решать реальные задачи из открытых проектов: изменения кода автоматически прогоняются через набор тестов. Результаты по этому бенчмарку регулярно используют Anthropic и OpenAI, демонстрируя прогресс своих моделей.

METR поставила под сомнение корректность такой оценки. Команда исследователей — Паркер Уитфилл,…

Подробнее