Достижения последних лет в сфере ИИ растут экспоненциально. Языковые модели всё чаще показывают впечатляющие результаты, решая стандартные тесты на 90% и выше. Однако привычные бенчмарки уже не могут адекватно отражать реальный потенциал и уровень интеллекта машин. Решить эту проблему и был призван сложнейший тест из существующих, иронично названный Humanity’s Last Exam (с англ. - "последний экзамен человечества"), который проверяет способность ИИ мыслить, как эксперты мирового уровня. После успехов Deep Research от Open AI название этого бенчмарка стало всплывать все чаще. И не удивительно: его 100%-ное прохождение будет означать, что человечество вплотную приблизилось к AGI (Artificial general intelligence). Современные модели искусственного интеллекта хорошо проходят тривиальные тесты на логику или базовые знания. Но когда дело доходит до глубокого междисциплинарного анализа и экспертизы, обнаруживаются серьёзные пробелы. Humanity’s Last Exam собирает 3000 вопросов, подготовленных
"Последний экзамен человечества" - тест, который не под силу даже ИИ. Но зачем?
15 февраля 202515 фев 2025
561
3 мин