700 подписчиков

Humanity's Last Exam (Хьюманитис Ласт Экзам): самый сложный тест для ИИ показал реальный разрыв между машиной и человеком

13 апреля13 апр

8 мин

В 2026 году вопрос объективной оценки возможностей систем искусственного интеллекта приобрёл принципиальное значение для научного сообщества, разработчиков и регуляторов. Проблема заключалась в следующем: традиционные академические тесты, которые прежде считались надёжными индикаторами уровня интеллекта, перестали справляться со своей функцией. Современные языковые модели начали демонстрировать настолько высокие результаты на стандартных экзаменах, что последние утратили способность выявлять реальные ограничения систем ИИ. Наиболее показательный пример — тест MMLU (Massive Multitask Language Understanding — Массовое Многозадачное Понимание Языка, ММЛУ). Ещё несколько лет назад этот экзамен считался сложным испытанием для языковых моделей. Однако передовые системы ИИ достигли на нём результатов, сопоставимых с результатами высококвалифицированных специалистов-людей, что фактически обесценило тест как инструмент измерения прогресса. Именно это обстоятельство побудило международное сообще

Оглавление

Почему потребовался новый эталонный тест для ИИ?
Что такое Humanity's Last Exam (Хьюманитис Ласт Экзам)?
Кто создал Humanity's Last Exam (Хьюманитис Ласт Экзам)?

Почему потребовался новый эталонный тест для ИИ?

Наиболее показательный пример — тест MMLU (Massive Multitask Language Understanding — Массовое Многозадачное Понимание Языка, ММЛУ). Ещё несколько лет назад этот экзамен считался сложным испытанием для языковых моделей. Однако передовые системы ИИ достигли на нём результатов, сопоставимых с результатами высококвалифицированных специалистов-людей, что фактически обесценило тест как инструмент измерения прогресса.

Именно это обстоятельство побудило международное сообщество учёных разработать принципиально иной подход к оценке возможностей искусственного интеллекта.

Что такое Humanity's Last Exam (Хьюманитис Ласт Экзам)?

Humanity's Last Exam (Хьюманитис Ласт Экзам — Последний Экзамен Человечества), сокращённо HLE (ЭйчЭлИ), представляет собой масштабный оценочный инструмент, разработанный командой из почти 1000 исследователей со всего мира. Тест включает 2500 вопросов, охватывающих широчайший спектр академических дисциплин: математику, гуманитарные науки, естественные науки, древние языки и множество узкоспециализированных областей знаний.

Подробное описание проекта было опубликовано в журнале Nature (Нейчер), а дополнительная информация о тесте доступна на сайте lastexam.ai (ластэкзам.ай).

Принципиальная особенность методологии состояла в следующем: каждый вопрос, который оказывался доступен для правильного решения хотя бы одной из существующих систем ИИ, исключался из финального варианта экзамена. Таким образом, тест буквально создавался методом вычитания — из него систематически убиралось всё, что современный искусственный интеллект уже умеет делать. В результате HLE (ЭйчЭлИ) всегда находился на один шаг впереди актуальных возможностей ИИ-систем.

Кто создал Humanity's Last Exam (Хьюманитис Ласт Экзам)?

Международный масштаб сотрудничества

Создание HLE (ЭйчЭлИ) стало примером беспрецедентного международного научного сотрудничества. В разработке вопросов участвовали специалисты практически из всех академических дисциплин: историки, физики, лингвисты, медицинские исследователи, математики и специалисты в области вычислительных наук.

Среди участников проекта — доктор Тунг Нгуен (Dr. Tung Nguyen), доцент кафедры компьютерных наук и инженерии Техасского университета A&M (Texas A&M University — Техас ЭйэндЭм Юниверсити) в США. Нгуен написал 73 из 2500 публично доступных вопросов теста — это второй показатель по числу вопросов среди всех участников проекта. Большинство его вопросов были связаны с математикой и информатикой.

Принципы отбора вопросов

Каждый вопрос, включённый в HLE (ЭйчЭлИ), отвечал нескольким обязательным критериям. Во-первых, вопрос должен был иметь единственный чётко верифицируемый ответ, исключающий неоднозначные интерпретации. Во-вторых, вопрос не должен был допускать быстрого решения путём простого интернет-поиска. В-третьих, вопрос должен был оставаться нерешённым для всех протестированных систем ИИ.

Тематика вопросов охватывает области, требующие по-настоящему глубокой специализированной экспертизы. Часть заданий предполагала перевод надписей на древнем пальмирском языке. Другие требовали идентификации мельчайших анатомических структур у птиц. Третьи были посвящены анализу тонких особенностей произношения в библейском иврите. Такие вопросы в принципе не поддаются решению через сопоставление шаблонов или извлечение информации из обучающего массива данных — они требуют именно того, что принято называть глубоким пониманием.

Результаты тестирования ведущих систем ИИ

Первые модели: минимальные показатели

Ранние результаты тестирования наглядно продемонстрировали, что HLE (ЭйчЭлИ) выполнил свою задачу: ведущие системы искусственного интеллекта столкнулись с серьёзными трудностями.

Модель GPT-4o (ДжиПиТи-4о) компании OpenAI (ОупенЭйАй) показала результат 2,7 процента правильных ответов. Модель Claude 3.5 Sonnet (Клод 3.5 Соннет) компании Anthropic (Антропик) набрала 4,1 процента. Модель o1 (О-уан) компании OpenAI (ОупенЭйАй) достигла результата 8 процентов.

Эти показатели наглядно иллюстрируют, насколько значительным остаётся разрыв между возможностями даже самых передовых языковых моделей и реальной экспертной компетентностью человека.

Более поздние модели: прогресс, но не решение проблемы

По мере развития технологий ИИ более новые системы начали демонстрировать более высокие, хотя по-прежнему далёкие от удовлетворительных результаты. Наиболее продвинутые системы, в том числе Gemini 3.1 Pro (Джемини 3.1 Про) компании Google (Гугл) и Claude Opus 4.6 (Клод Опус 4.6) компании Anthropic (Антропик), достигли точности в диапазоне от 40 до 50 процентов.

С одной стороны, это свидетельствует о значительном прогрессе по сравнению с первыми результатами. С другой стороны, правильный ответ лишь на половину вопросов в условиях, когда все "лёгкие" задания были намеренно исключены, красноречиво говорит о реальном положении дел: между современными системами ИИ и подлинной экспертной компетентностью по-прежнему существует значительный разрыв.

Что означают эти результаты: позиция исследователей

Риски неверной интерпретации возможностей ИИ

Доктор Тунг Нгуен (Dr. Tung Nguyen) подчеркнул, что проблема устаревания тестов для ИИ выходит далеко за рамки узкотехнического вопроса.

"Когда системы ИИ начинают демонстрировать исключительно высокие результаты на тестах, созданных для людей, возникает соблазн решить, что они приближаются к человеческому уровню понимания", — отметил исследователь. "Но HLE (ЭйчЭлИ) напоминает нам: интеллект — это не только распознавание шаблонов. Это глубина, контекст и специализированная экспертиза."

Учёный особо обратил внимание на практические последствия неверной интерпретации тестовых результатов: "Без точных инструментов оценки политики, разработчики и пользователи рискуют неправильно понять, что системы ИИ в действительности умеют делать. Эталонные тесты создают основу для измерения прогресса и выявления рисков."

Различие между выполнением задач и пониманием

Исследовательская группа особо подчеркнула принципиальное методологическое разграничение: высокие баллы на тестах, изначально созданных для людей, не обязательно свидетельствуют о подлинном интеллекте. Такие тесты измеряют способность ИИ справляться с конкретными задачами, разработанными с учётом особенностей человеческого обучения, — но не отражают более глубокого понимания.

Принципиальная разница состоит в том, что человек, решающий сложную задачу, действительно понимает её контекст, способен переносить знания в смежные области и адаптировать подход при изменении условий. Современные системы ИИ, при всей впечатляющей скорости и охвате, в значительной мере остаются системами сопоставления шаблонов — пусть и невероятно сложных.

Humanity's Last Exam (Хьюманитис Ласт Экзам) как инструмент, а не угроза

Название не стоит понимать буквально

Несмотря на провокационное название, Humanity's Last Exam (Хьюманитис Ласт Экзам — Последний Экзамен Человечества) не призван утверждать, что человек как вид находится на пороге устаревания. Напротив, тест призван наглядно показать, какой колоссальный массив знаний и компетенций по-прежнему остаётся исключительной прерогативой человека.

Доктор Нгуен (Dr. Nguyen) прокомментировал этот аспект следующим образом: "Это не гонка против ИИ. Это метод понимания того, где эти системы сильны, а где испытывают трудности. Такое понимание помогает создавать более безопасные и надёжные технологии. И, что немаловажно, оно напоминает нам, почему человеческая экспертиза по-прежнему имеет значение."

Долгосрочный инструмент измерения прогресса

HLE (ЭйчЭлИ) создавался с расчётом на долгосрочное применение в качестве прозрачного эталонного инструмента для будущих систем ИИ. Для достижения этой цели исследователи сделали часть вопросов публично доступными, сохранив большинство из них в закрытом доступе. Это позволяет исключить ситуацию, при которой системы ИИ будут просто "заучивать" правильные ответы в процессе обучения, что обесценило бы тест.

По мере того как системы ИИ будут продолжать улучшаться и, возможно, достигать всё более высоких результатов на HLE (ЭйчЭлИ), исследователи планируют обновлять тест, чтобы он всегда оставался актуальным инструментом измерения реальных возможностей ИИ.

Значение HLE (ЭйчЭлИ) для понимания развития технологий ИИ

Создание Humanity's Last Exam (Хьюманитис Ласт Экзам) знаменует важный сдвиг в подходе к оценке систем искусственного интеллекта. Вместо того чтобы ориентироваться на академические тесты, созданные для людей с принципиально иными когнитивными ограничениями и возможностями, научное сообщество перешло к разработке специализированных инструментов, изначально предназначенных именно для измерения возможностей ИИ.

Этот переход имеет важные практические следствия. Для разработчиков ИИ-систем HLE (ЭйчЭлИ) создаёт чёткий ориентир, показывая, в каких направлениях системы испытывают наибольшие затруднения. Для политиков и регуляторов тест обеспечивает более реалистичную картину реальных возможностей ИИ, снижая риск принятия решений на основе завышенных ожиданий. Для широкой общественности HLE (ЭйчЭлИ) служит напоминанием о том, что впечатляющие достижения ИИ в одних областях не означают его универсального превосходства над человеком.

Доктор Нгуен (Dr. Nguyen) подвёл итог следующим образом: "На сегодняшний день Humanity's Last Exam (Хьюманитис Ласт Экзам) остаётся одним из наиболее чётких измерителей разрыва между искусственным и человеческим интеллектом. И, несмотря на стремительный технологический прогресс, этот разрыв остаётся значительным."

Выводы

Humanity's Last Exam (Хьюманитис Ласт Экзам) стал ответом научного сообщества на реальную проблему: традиционные тесты перестали адекватно отражать возможности и ограничения современных систем ИИ. Созданный усилиями почти 1000 специалистов из разных стран и дисциплин, этот инструмент демонстрирует, что даже самые передовые языковые модели по-прежнему значительно уступают эксперту-человеку в вопросах, требующих подлинной глубины понимания. Это не повод для самоуспокоения и не аргумент против развития ИИ — это основание для более точного и ответственного подхода к оценке технологий, которые всё глубже проникают в повседневную жизнь и профессиональную деятельность.

dzen.ru

Технология-IT (информационные технологии): Новости, статьи. | МИР БЕЗ ГЛЯНЦА | МУЛЬТИМЕДИА | Дзен

#искусственныйинтеллект #тестдляИИ #возможностиИИ #развитиеИИ #нейросеть2026