Найти в Дзене
NeuroTrends | Ai News

ИИ-агенты не могут заменить офисных работников — роботы не могут пройти базовые тесты

Компания Mercor запустила бенчмарк APEX-Agents, который включал задания из настоящей практики консалтинга, инвестбанкинга и права. ИИ оказался двоечником — ни одна модель не сдала тест. Лучшие результаты показали Gemini 3 Flash с точностью в 24% и GPT‑5.2 с 23%. Больше всего ИИ стопорила работа сразу с несколькими источниками: документами, правилами, письмами и внутренними данными. То, что для человека — обычная рутина, для ИИ непостижимо. Короче говоря, ИИ — это стажёр первокурсник, который пытается нагуглить всю необходимую инфу😎 NeuroTrends

ИИ-агенты не могут заменить офисных работников — роботы не могут пройти базовые тесты.

Компания Mercor запустила бенчмарк APEX-Agents, который включал задания из настоящей практики консалтинга, инвестбанкинга и права.

ИИ оказался двоечником — ни одна модель не сдала тест. Лучшие результаты показали Gemini 3 Flash с точностью в 24% и GPT‑5.2 с 23%.

Больше всего ИИ стопорила работа сразу с несколькими источниками: документами, правилами, письмами и внутренними данными. То, что для человека — обычная рутина, для ИИ непостижимо.

Короче говоря, ИИ — это стажёр первокурсник, который пытается нагуглить всю необходимую инфу😎

NeuroTrends