Причина проста: бенчмарк перестал отражать реальность. Модели научились не решать задачи, а вспоминать готовые ответы с GitHub. Рекордные 80% правильных решений у GPT-5.2 оказались следствием «натаскивания» на данных, а не прорывом в программировании. Компании предстоит найти новый способ измерения реального прогресса.
OpenAI убирает SWE-bench Verified из арсенала тестов для оценки ИИ-разработчиков
25 февраля25 фев
~1 мин