38,1 тыс подписчиков

OpenAI больше не будет использовать бенчмарк SWE-bench Verified для оценки способностей нейросетей в разработке ПО

24 февраля24 фев

~1 мин

Исследователи обнаружили, что модели запоминали готовые решения, которые видели на GitHub. GPT‑5.2 решала 80% задач из этого набора тестов vc.ru/ai/2756713

OpenAI больше не будет использовать бенчмарк SWE-bench Verified для оценки способностей нейросетей в разработке ПО.

Исследователи обнаружили, что модели запоминали готовые решения, которые видели на GitHub. GPT‑5.2 решала 80% задач из этого набора тестов

vc.ru/ai/2756713

Программное Обеспечение (ПО)

161,8 тыс интересуются