ИИ зашёл слишком далеко: задачи, которые он решает лучше великих математиков
На бенчмарке FrontierMath, в четвёртом уровне сложности, зафиксирован новый рекорд: GPT-5.2 Pro набрал 31 %, заметно превысив предыдущий максимум в 19 %. Но сухая цифра здесь — не самое интересное. Куда важнее то, как этот результат был получен и что именно модель смогла решить. Команда Epoch AI провела оценку вручную, напрямую через интерфейс ChatGPT. Причина довольно прозаична: при тестировании через API возникали проблемы с тайм-аутами, и, чтобы не искажать картину, исследователи решили временно отказаться от автоматического прогона...

