Ну что, гики и гикессы, пристегните ремни, потому что на повестке дня новость, которая может встряхнуть весь AI-мир. По данным VentureBeat, вышел новый, чертовски суровый бенчмарк под названием Agents’ Last Exam (ALE), и он уже успел подкинуть сюрпризов. Если вы думали, что последние модели ИИ готовы к работе в офисе, то этот тест покажет вам, насколько вы ошибались. ALE — это не просто очередной тест на скорость печати или решение пары задачек. Его разработали исследователи из Калифорнийского университета в Беркли в сотрудничестве с огромной командой из более чем 300 экспертов из разных областей. Цель у них была одна: проверить, сможет ли искусственный интеллект реально выполнять долгие, сложные профессиональные задачи, которые приносят реальную экономическую выгоду. Забудьте про синтетические тесты, которые легко обмануть — ALE заточен под то, чтобы выявить настоящие способности AI-агентов. И вот тут начинается самое интересное. В этом "экзамене на выживание" лучшую оценку получил
📰 GPT-5.5 уделал Claude Fable 5: новый бенчмарк Agents' Last Exam показал, кто батя в AI-профессионалах
СегодняСегодня
2 мин