Новое исследование Mercor с тестом Apex-Agents оценило возможности ведущих моделей ИИ в решении сложных задач из консалтинга, инвестиционного банкинга и юриспруденции. Большинство моделей провалились, показав неспособность к многодоменному рассуждению, что замедляет автоматизацию офисного труда. Несмотря на огромный прогресс, достигнутый базовыми моделями, изменения в интеллектуальном труде происходят медленно. Модели освоили глубокие исследования и агентное планирование, но по какой-то причине большинство офисной работы практически не изменилось. Это одна из величайших загадок в сфере ИИ — и благодаря новому исследованию от гиганта в области обучающих данных Mercor, мы наконец-то получаем ответы. Новое исследование анализирует, как ведущие модели ИИ справляются с реальными задачами офисных работников, заимствованными из консалтинга, инвестиционного банкинга и юриспруденции. Результатом стал новый эталонный тест под названием Apex-Agents — и пока что каждая лаборатория ИИ получает неуд
Готовы ли агенты AI к работе в офисе? Новый бенчмарк ставит это под сомнение.
23 января23 янв
3 мин