22 подписчика

GPT-5.2 лидирует в тесте FrontierScience от OpenAI

18 декабря 202518 дек 2025

~1 мин

OpenAI представила новый бенчмарк FrontierScience для оценки ИИ на уровне олимпиадных и исследовательских задач. Бенчмарк включает два типа заданий: набор из 100 олимпиадных задач международного уровня и 60 открытых исследовательских вопросов, предлагаемых PhD-учёными. GPT-5.2 показал лучшие результаты: 77% на олимпиадных задачах и 25% на исследовательских. Для сравнения, Gemini 3 Pro набрал 76% и 20%, Claude Opus 4.5 — 71% и 18%, Grok 4 — 66,2% и 16%. Модель GPT-4o значительно отстаёт — 12% и меньше 1% соответственно. OpenAI отмечает резкий рост способностей: если в тесте GPQA в 2023 году GPT-4 набрала 39%, то за два… Подробнее

GPT-5.2 показал лучшие результаты: 77% на олимпиадных задачах и 25% на исследовательских. Для сравнения, Gemini 3 Pro набрал 76% и 20%, Claude Opus 4.5 — 71% и 18%, Grok 4 — 66,2% и 16%. Модель GPT-4o значительно отстаёт — 12% и меньше 1% соответственно.

OpenAI отмечает резкий рост способностей: если в тесте GPQA в 2023 году GPT-4 набрала 39%, то за два…

Подробнее