101 подписчик

"Последний экзамен человечества" - тест, который не под силу даже ИИ. Но зачем?

15 февраля 202515 фев 2025

561

3 мин

Достижения последних лет в сфере ИИ растут экспоненциально. Языковые модели всё чаще показывают впечатляющие результаты, решая стандартные тесты на 90% и выше. Однако привычные бенчмарки уже не могут адекватно отражать реальный потенциал и уровень интеллекта машин. Решить эту проблему и был призван сложнейший тест из существующих, иронично названный Humanity’s Last Exam (с англ. - "последний экзамен человечества"), который проверяет способность ИИ мыслить, как эксперты мирового уровня. После успехов Deep Research от Open AI название этого бенчмарка стало всплывать все чаще. И не удивительно: его 100%-ное прохождение будет означать, что человечество вплотную приблизилось к AGI (Artificial general intelligence). Современные модели искусственного интеллекта хорошо проходят тривиальные тесты на логику или базовые знания. Но когда дело доходит до глубокого междисциплинарного анализа и экспертизы, обнаруживаются серьёзные пробелы. Humanity’s Last Exam собирает 3000 вопросов, подготовленных

Оглавление

Новый уровень сложности
Кто лидирует?
Последний экзамен

Достижения последних лет в сфере ИИ растут экспоненциально. Языковые модели всё чаще показывают впечатляющие результаты, решая стандартные тесты на 90% и выше.

Однако привычные бенчмарки уже не могут адекватно отражать реальный потенциал и уровень интеллекта машин. Решить эту проблему и был призван сложнейший тест из существующих, иронично названный Humanity’s Last Exam (с англ. - "последний экзамен человечества"), который проверяет способность ИИ мыслить, как эксперты мирового уровня.

После успехов Deep Research от Open AI название этого бенчмарка стало всплывать все чаще. И не удивительно: его 100%-ное прохождение будет означать, что человечество вплотную приблизилось к AGI (Artificial general intelligence).

Новый уровень сложности

Современные модели искусственного интеллекта хорошо проходят тривиальные тесты на логику или базовые знания. Но когда дело доходит до глубокого междисциплинарного анализа и экспертизы, обнаруживаются серьёзные пробелы. Humanity’s Last Exam собирает 3000 вопросов, подготовленных экспертами в таких сферах, как химия, математика, лингвистика, экологические исследования и даже ракетостроение.

Около 10% тестовых заданий требуют не только текстового анализа, но и умения работать с графиками, иллюстрациями, диаграммами, заставляя ИИ работать комплексно: простым поиском в интернете ответ не найти.

Кто лидирует?

Расколоть HLE пока не удалось ни одной модели. Несмотря на огромный прогресс, даже самые известные компании пока не дотягивают до экспертного уровня:

OpenAI:
GPT-4o: 3,3%
o1: 9,1%
o3-mini (medium): 10,5%
o3-mini (high): 13%
Deep Research: 26,6% (лучший результат среди протестированных)
Anthropic:
Claude 3.5 Sonnet: 4,3%
Google:
Gemini Thinking: 7,7%
Gemini 1.5 Pro: 5,0%
Gemini 2.0 Flash Thinking: 6,2%
DeepSeek:
DeepSeek-R1: 9,4%
X (ранее Twitter):
Grok-2: 3,8%

Многие вопросы в Humanity’s Last Exam выглядят запредельно сложными даже для опытных специалистов. Студенты или люди без подготовки часто не понимают даже сути заданий. Это подчёркивает ключевую цель бенчмарка - оценить, насколько ИИ способен развиваться до уровня глубоких профессиональных знаний.

На данный момент лидер - Deep Research - набирает 26,6%, используя модель o3 с инструментами для поиска и анализа (включая Python). Тем не менее, результаты всё ещё далеки от нужной планки. Что подчеркивает, что ИИ пока не способен заменить человека на экспертном уровне.

Последний экзамен

Нет сомнений в том, что с каждым новым поколением языковых моделей результаты тестирования будут улучшаться. Уже сегодня мы видим, что специализированные решения типа Deep Research показывают прогресс, пусть и ограниченный.

Бенчмарк помогает выявить слабые стороны современных ИИ-моделей и даёт чёткий вектор для дальнейшего развития. Кроме того, тест стимулирует профессиональное сообщество обсуждать этические риски и потенциальные последствия, если в будущем ИИ приблизится к человеческому уровню мышления.

Подлинная оценка интеллекта: в отличие от устаревших бенчмарков, этот тест требует рассуждений, а не механического воспроизведения.
Новые горизонты исследований: результаты теста помогают инженерам и учёным направлять усилия на развитие логического и междисциплинарного мышления.
Этические и социальные вопросы: по мере роста возможностей ИИ общество и эксперты должны обсуждать возможные риски и преимущества.

Humanity’s Last Exam - это не просто очередной экзамен для языковых моделей, а вызов, заставляющий исследователей и инженеров пересмотреть подход к созданию ИИ. Он служит лакмусовой бумажкой, показывая, насколько сегодня машины далеки от человеческого уровня экспертизы, где им ещё предстоит развиваться и насколько быстро они это делают.

В то же время, этот бенчмарк подталкивает нас к важным дискуссиям - об ответственности, безопасности и будущем, в котором границы между человеком и машиной станут всё более размытыми.

Увлечения

5,07 млн интересуются