Организация METR, специализирующаяся на оценке возможностей ИИ-моделей, представила результаты тестирования Claude Opus 4.5. Модель от Anthropic продемонстрировала горизонт в 4 часа 49 минут при 50% вероятности успеха – это новый рекорд среди протестированных систем. Этот показатель означает, что Opus 4.5 способна справляться с задачами, требующими такого времени (измеренного в человеко-часах), с вероятностью 50%. Предыдущий лидер, GPT-5.1-Codex-Max от OpenAI, показывал результат в 2 часа 53 минуты. METR оценивает не точность ответов на стандартных тестах, а продолжительность задач, которые ИИ может выполнять самостоятельно, без участия человека. По данным организации, эта способность удваивается примерно каждые 7 месяцев: от нескольких секунд у GPT-2 в 2019 году до почти пяти часов у Opus 4.5 сегодня. Тестовый набор включает разнообразные задачи – от поиска информации в интернете до обучения моделей машинного обучения и решения проблем в области кибербезопасности. Однако, исследовател