Развитие искусственного интеллекта упёрлось в заметный предел, по крайней мере в сфере сложных академических знаний. Это показал бенчмарк Humanity’s Last Exam, в котором даже самые продвинутые модели рынка не смогли приблизиться к уровню эксперта человека и остались ниже отметки 40% правильных ответов. Экзамен построен как жёсткая проверка глубины мышления. В нём 2 500 заданий из более чем 100 научных областей. Диапазон тем намеренно сделан максимально широким и нестандартным. В одном вопросе требуется разбираться в древних пальмирских надписях, в другом анализировать строение скелета колибри или выводить нетривиальные математические зависимости. Лучший результат на текущий момент показала модель Gemini 3 Pro Preview с точностью 37,52%. Далее идут GPT-5 с показателем 31,64% и Claude Opus 4.5, набравшая 25,2%. Даже лидер остаётся заметно ниже уровня эксперта человека, который в рамках этого экзамена оценивается примерно в 90%. Китайские системы в этом тесте выступили слабее. Модель glm-
Даже самые сильные ИИ не дотягивают до 40% в испытании, которое называют последним экзаменом человечества
5 февраля5 фев
6
3 мин