Добавить в корзинуПозвонить
Найти в Дзене
КББ

OpenAI убирает SWE-bench Verified из арсенала тестов для оценки ИИ-разработчиков

Причина проста: бенчмарк перестал отражать реальность. Модели научились не решать задачи, а вспоминать готовые ответы с GitHub. Рекордные 80% правильных решений у GPT-5.2 оказались следствием «натаскивания» на данных, а не прорывом в программировании. Компании предстоит найти новый способ измерения реального прогресса.

OpenAI убирает SWE-bench Verified из арсенала тестов для оценки ИИ-разработчиков.

Причина проста: бенчмарк перестал отражать реальность. Модели научились не решать задачи, а вспоминать готовые ответы с GitHub. Рекордные 80% правильных решений у GPT-5.2 оказались следствием «натаскивания» на данных, а не прорывом в программировании. Компании предстоит найти новый способ измерения реального прогресса.