На бенчмарке FrontierMath, в четвёртом уровне сложности, зафиксирован новый рекорд: GPT-5.2 Pro набрал 31 %, заметно превысив предыдущий максимум в 19 %. Но сухая цифра здесь — не самое интересное. Куда важнее то, как этот результат был получен и что именно модель смогла решить. Команда Epoch AI провела оценку вручную, напрямую через интерфейс ChatGPT. Причина довольно прозаична: при тестировании через API возникали проблемы с тайм-аутами, и, чтобы не искажать картину, исследователи решили временно отказаться от автоматического прогона. Это важная деталь: тестирование не было «оптимизировано под результат», а, напротив, проводилось в более жёстком и прозрачном режиме. До этого ни одна модель не решала 13 задач четвёртого уровня. GPT-5.2 Pro справился с 11 из них, а также решил ещё несколько задач из общего пула. В итоге результат текущего раунда — 15 решённых задач из 48, то есть те самые 31 %. Если же учитывать все задачи четвёртого уровня, которые когда-либо удавалось решить любой мо
ИИ зашёл слишком далеко: задачи, которые он решает лучше великих математиков
ВчераВчера
258
3 мин