Добавить в корзину Позвонить

36 подписчиков

OpenAI убирает SWE-bench Verified из арсенала тестов для оценки ИИ-разработчиков

25 февраля25 фев

~1 мин

Причина проста: бенчмарк перестал отражать реальность. Модели научились не решать задачи, а вспоминать готовые ответы с GitHub. Рекордные 80% правильных решений у GPT-5.2 оказались следствием «натаскивания» на данных, а не прорывом в программировании. Компании предстоит найти новый способ измерения реального прогресса.

Причина проста: бенчмарк перестал отражать реальность. Модели научились не решать задачи, а вспоминать готовые ответы с GitHub. Рекордные 80% правильных решений у GPT-5.2 оказались следствием «натаскивания» на данных, а не прорывом в программировании. Компании предстоит найти новый способ измерения реального прогресса.

...Читать далее

OpenAI убирает SWE-bench Verified из арсенала тестов для оценки ИИ-разработчиков.

Причина проста: бенчмарк перестал отражать реальность. Модели научились не решать задачи, а вспоминать готовые ответы с GitHub. Рекордные 80% правильных решений у GPT-5.2 оказались следствием «натаскивания» на данных, а не прорывом в программировании. Компании предстоит найти новый способ измерения реального прогресса.