"Последний экзамен человечества" - тест, который не под силу даже ИИ. Но зачем?
Достижения последних лет в сфере ИИ растут экспоненциально. Языковые модели всё чаще показывают впечатляющие результаты, решая стандартные тесты на 90% и выше. Однако привычные бенчмарки уже не могут адекватно отражать реальный потенциал и уровень интеллекта машин. Решить эту проблему и был призван сложнейший тест из существующих, иронично названный Humanity’s Last Exam (с англ. - "последний экзамен человечества"), который проверяет способность ИИ мыслить, как эксперты мирового уровня. После успехов Deep Research от Open AI название этого бенчмарка стало всплывать все чаще...