Компания Mercor запустила бенчмарк APEX-Agents, который включал задания из настоящей практики консалтинга, инвестбанкинга и права. ИИ оказался двоечником — ни одна модель не сдала тест. Лучшие результаты показали Gemini 3 Flash с точностью в 24% и GPT‑5.2 с 23%. Больше всего ИИ стопорила работа сразу с несколькими источниками: документами, правилами, письмами и внутренними данными. То, что для человека — обычная рутина, для ИИ непостижимо. Короче говоря, ИИ — это стажёр первокурсник, который пытается нагуглить всю необходимую инфу😎 NeuroTrends
ИИ-агенты не могут заменить офисных работников — роботы не могут пройти базовые тесты
ВчераВчера
~1 мин