Добавить в корзинуПозвонить
Найти в Дзене
AI-лаборатория

"Последний экзамен человечества" - тест, который не под силу даже ИИ. Но зачем?

Достижения последних лет в сфере ИИ растут экспоненциально. Языковые модели всё чаще показывают впечатляющие результаты, решая стандартные тесты на 90% и выше. Однако привычные бенчмарки уже не могут адекватно отражать реальный потенциал и уровень интеллекта машин. Решить эту проблему и был призван сложнейший тест из существующих, иронично названный Humanity’s Last Exam (с англ. - "последний экзамен человечества"), который проверяет способность ИИ мыслить, как эксперты мирового уровня. После успехов Deep Research от Open AI название этого бенчмарка стало всплывать все чаще. И не удивительно: его 100%-ное прохождение будет означать, что человечество вплотную приблизилось к AGI (Artificial general intelligence). Современные модели искусственного интеллекта хорошо проходят тривиальные тесты на логику или базовые знания. Но когда дело доходит до глубокого междисциплинарного анализа и экспертизы, обнаруживаются серьёзные пробелы. Humanity’s Last Exam собирает 3000 вопросов, подготовленных
Оглавление

Достижения последних лет в сфере ИИ растут экспоненциально. Языковые модели всё чаще показывают впечатляющие результаты, решая стандартные тесты на 90% и выше.

Однако привычные бенчмарки уже не могут адекватно отражать реальный потенциал и уровень интеллекта машин. Решить эту проблему и был призван сложнейший тест из существующих, иронично названный Humanity’s Last Exam (с англ. - "последний экзамен человечества"), который проверяет способность ИИ мыслить, как эксперты мирового уровня.

После успехов Deep Research от Open AI название этого бенчмарка стало всплывать все чаще. И не удивительно: его 100%-ное прохождение будет означать, что человечество вплотную приблизилось к AGI (Artificial general intelligence).

Новый уровень сложности

-2

Современные модели искусственного интеллекта хорошо проходят тривиальные тесты на логику или базовые знания. Но когда дело доходит до глубокого междисциплинарного анализа и экспертизы, обнаруживаются серьёзные пробелы. Humanity’s Last Exam собирает 3000 вопросов, подготовленных экспертами в таких сферах, как химия, математика, лингвистика, экологические исследования и даже ракетостроение.

Около 10% тестовых заданий требуют не только текстового анализа, но и умения работать с графиками, иллюстрациями, диаграммами, заставляя ИИ работать комплексно: простым поиском в интернете ответ не найти.

Кто лидирует?

Сравнительные результаты теста
Сравнительные результаты теста

Расколоть HLE пока не удалось ни одной модели. Несмотря на огромный прогресс, даже самые известные компании пока не дотягивают до экспертного уровня:

  • OpenAI:
    GPT-4o: 3,3%
    o1: 9,1%
    o3-mini (medium): 10,5%
    o3-mini (high): 13%
    Deep Research: 26,6% (лучший результат среди протестированных)
  • Anthropic:
    Claude 3.5 Sonnet: 4,3%
  • Google:
    Gemini Thinking: 7,7%
    Gemini 1.5 Pro: 5,0%
    Gemini 2.0 Flash Thinking: 6,2%
  • DeepSeek:
    DeepSeek-R1: 9,4%
  • X (ранее Twitter):
    Grok-2: 3,8%
Пример тестового вопроса...
Пример тестового вопроса...

Многие вопросы в Humanity’s Last Exam выглядят запредельно сложными даже для опытных специалистов. Студенты или люди без подготовки часто не понимают даже сути заданий. Это подчёркивает ключевую цель бенчмарка - оценить, насколько ИИ способен развиваться до уровня глубоких профессиональных знаний.

...и еще пример.
...и еще пример.

На данный момент лидер - Deep Research - набирает 26,6%, используя модель o3 с инструментами для поиска и анализа (включая Python). Тем не менее, результаты всё ещё далеки от нужной планки. Что подчеркивает, что ИИ пока не способен заменить человека на экспертном уровне.

Последний экзамен

-6

Нет сомнений в том, что с каждым новым поколением языковых моделей результаты тестирования будут улучшаться. Уже сегодня мы видим, что специализированные решения типа Deep Research показывают прогресс, пусть и ограниченный.

Бенчмарк помогает выявить слабые стороны современных ИИ-моделей и даёт чёткий вектор для дальнейшего развития. Кроме того, тест стимулирует профессиональное сообщество обсуждать этические риски и потенциальные последствия, если в будущем ИИ приблизится к человеческому уровню мышления.

  1. Подлинная оценка интеллекта: в отличие от устаревших бенчмарков, этот тест требует рассуждений, а не механического воспроизведения.
  2. Новые горизонты исследований: результаты теста помогают инженерам и учёным направлять усилия на развитие логического и междисциплинарного мышления.
  3. Этические и социальные вопросы: по мере роста возможностей ИИ общество и эксперты должны обсуждать возможные риски и преимущества.
-7

Humanity’s Last Exam - это не просто очередной экзамен для языковых моделей, а вызов, заставляющий исследователей и инженеров пересмотреть подход к созданию ИИ. Он служит лакмусовой бумажкой, показывая, насколько сегодня машины далеки от человеческого уровня экспертизы, где им ещё предстоит развиваться и насколько быстро они это делают.

В то же время, этот бенчмарк подталкивает нас к важным дискуссиям - об ответственности, безопасности и будущем, в котором границы между человеком и машиной станут всё более размытыми.