📰 GPT-5.5 уделал Claude Fable 5: новый бенчмарк Agents' Last Exam показал, кто батя в AI-профессионалах

СегодняСегодня

2 мин

Ну что, гики и гикессы, пристегните ремни, потому что на повестке дня новость, которая может встряхнуть весь AI-мир. По данным VentureBeat, вышел новый, чертовски суровый бенчмарк под названием Agents’ Last Exam (ALE), и он уже успел подкинуть сюрпризов. Если вы думали, что последние модели ИИ готовы к работе в офисе, то этот тест покажет вам, насколько вы ошибались. ALE — это не просто очередной тест на скорость печати или решение пары задачек. Его разработали исследователи из Калифорнийского университета в Беркли в сотрудничестве с огромной командой из более чем 300 экспертов из разных областей. Цель у них была одна: проверить, сможет ли искусственный интеллект реально выполнять долгие, сложные профессиональные задачи, которые приносят реальную экономическую выгоду. Забудьте про синтетические тесты, которые легко обмануть — ALE заточен под то, чтобы выявить настоящие способности AI-агентов. И вот тут начинается самое интересное. В этом "экзамене на выживание" лучшую оценку получил

ALE — это не просто очередной тест на скорость печати или решение пары задачек. Его разработали исследователи из Калифорнийского университета в Беркли в сотрудничестве с огромной командой из более чем 300 экспертов из разных областей. Цель у них была одна: проверить, сможет ли искусственный интеллект реально выполнять долгие, сложные профессиональные задачи, которые приносят реальную экономическую выгоду. Забудьте про синтетические тесты, которые легко обмануть — ALE заточен под то, чтобы выявить настоящие способности AI-агентов.

И вот тут начинается самое интересное. В этом "экзамене на выживание" лучшую оценку получил GPT-5.5 от OpenAI, выпущенный еще в апреле. Он показал результат в 24.0% прохождения. А вот свеженький Claude Fable 5 от Anthropic, который вышел буквально накануне, занял лишь третье место с 22.0%. Да, вы не ослышались, GPT-5.5, который уже не самый новый, обошел конкурента. Это настоящий "сюрприз", как говорят в статье. Но не спешите радоваться за OpenAI — даже 24% прохождения на таком сложном бенчмарке — это, мягко говоря, не блестящий результат. Большинство моделей, включая топовые, показывают удручающе низкие цифры.

Главное отличие ALE от предыдущих бенчмарков — это его оценка. Вместо того чтобы полагаться на автоматические проверки, которые часто дают сбой, или на "ИИ как судья", который может быть предвзят, ALE использует строгий подход. Модели должны работать в рамках Generalist Computer-Use Agent (GCUA), используя свои "мозг", "глаза", "тело", "руки" и "ноги". Это означает, что им приходится взаимодействовать с операционными системами (Linux или Windows), использовать как командную строку, так и графический интерфейс, и работать с настоящим профессиональным софтом. Оценка же происходит через детерминированные, основанные на коде проверки, сравнивающие результат работы агента с эталоном, созданным экспертом.

ALE охватывает 55 различных отраслей, и задачи берутся напрямую из реальной профессиональной практики. Это может быть создание 3D-моделей в Siemens NX, настройка сцен в Unreal Engine, анализ нейроизображений в FSLeyes или компоновка визуальных эффектов в Adobe After Effects. И вот тут-то и проявляются все ограничения современных AI. Бенчмарк разделен на три уровня сложности: Near-Term, Full-Spectrum и Last-Exam. И на самом сложном уровне, "Last-Exam", который имитирует передовые профессиональные задачи, большинство конфигураций, включая старую Claude Opus 4.8 и Gemini CLI от Google, показывают жалкие 0.0% прохождения.

Еще одна важная фишка ALE — это борьба с "загрязнением бенчмарка". Это когда тестовые данные попадают в обучающие датасеты, и модели просто запоминают ответы, а не решают задачи. ALE решает эту проблему, выпуская в открытый доступ только часть данных (около 10%), а остальные держит в секрете. Плюс, задачи постоянно ротируются. Это гарантирует, что оценка остается честной для новых моделей....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут