На этой неделе выпуск Opus 4.6 встряхнул турнирные таблицы ИИ-агентов. Новая модель Anthropic показала значительный скачок в решении профессиональных задач. — techcrunch.com В прошлом месяце я писал о новом бенчмарке Mercor, измеряющем возможности ИИ-агентов в профессиональных задачах, таких как юриспруденция и корпоративный анализ. Тогда результаты были довольно удручающими: каждая крупная лаборатория показала результат ниже 25%, поэтому мы пришли к выводу, что юристы пока могут не опасаться замены искусственным интеллектом. Однако возможности ИИ могут кардинально измениться за пару недель. Выпуск Anthropic Opus 4.6 на этой неделе встряхнул турнирные таблицы: новая модель Anthropic показала результат чуть менее 30% в однопроходных тестах и в среднем 45% при нескольких попытках решения задачи. Примечательно, что выпуск включал ряд новых агентных функций, в том числе «роящиеся агенты», которые могли способствовать решению таких многошаговых задач. В любом случае, этот результат является