Добавить в корзинуПозвонить
Найти в Дзене
Нейрозона сегодня

Claude Opus 4.5: Новый рекорд автономности ИИ

Организация METR, специализирующаяся на оценке возможностей ИИ-моделей, представила результаты тестирования Claude Opus 4.5. Модель от Anthropic продемонстрировала горизонт в 4 часа 49 минут при 50% вероятности успеха – это новый рекорд среди протестированных систем. Этот показатель означает, что Opus 4.5 способна справляться с задачами, требующими такого времени (измеренного в человеко-часах), с вероятностью 50%. Предыдущий лидер, GPT-5.1-Codex-Max от OpenAI, показывал результат в 2 часа 53 минуты. METR оценивает не точность ответов на стандартных тестах, а продолжительность задач, которые ИИ может выполнять самостоятельно, без участия человека. По данным организации, эта способность удваивается примерно каждые 7 месяцев: от нескольких секунд у GPT-2 в 2019 году до почти пяти часов у Opus 4.5 сегодня. Тестовый набор включает разнообразные задачи – от поиска информации в интернете до обучения моделей машинного обучения и решения проблем в области кибербезопасности. Однако, исследовател

Организация METR, специализирующаяся на оценке возможностей ИИ-моделей, представила результаты тестирования Claude Opus 4.5. Модель от Anthropic продемонстрировала горизонт в 4 часа 49 минут при 50% вероятности успеха – это новый рекорд среди протестированных систем. Этот показатель означает, что Opus 4.5 способна справляться с задачами, требующими такого времени (измеренного в человеко-часах), с вероятностью 50%. Предыдущий лидер, GPT-5.1-Codex-Max от OpenAI, показывал результат в 2 часа 53 минуты.

METR оценивает не точность ответов на стандартных тестах, а продолжительность задач, которые ИИ может выполнять самостоятельно, без участия человека. По данным организации, эта способность удваивается примерно каждые 7 месяцев: от нескольких секунд у GPT-2 в 2019 году до почти пяти часов у Opus 4.5 сегодня. Тестовый набор включает разнообразные задачи – от поиска информации в интернете до обучения моделей машинного обучения и решения проблем в области кибербезопасности.

Однако, исследователи призывают к осторожной интерпретации результатов. Доверительный интервал результата очень широк: от 1 часа 49 минут до 20 часов 25 минут. METR признает, что текущий набор задач недостаточно длинный для точной оценки максимальных возможностей модели.

Важно отметить, что при более высоком пороге – 80% успеха – горизонт Opus 4.5 сокращается до 27 минут, что сопоставимо с показателями GPT-5.1-Codex-Max и других современных моделей. Рекордные 5 часов достигаются только при 50%-ной надежности: модель может успешно решить сложную задачу, но также может потерпеть неудачу. Таким образом, Opus 4.5 демонстрирует потенциал, но не превосходит своих предшественников в стабильности.

Если текущая тенденция удвоения сохранится, к концу десятилетия ИИ-агенты смогут автономно выполнять проекты, занимающие до месяца. Тем не менее, критики указывают на ограничения методологии METR: в диапазоне задач продолжительностью 1–4 часа всего 14 примеров, и большинство из них связаны с кибербезопасностью и кодом машинного обучения. Организация планирует обновить тестовый набор для более точной оценки прогресса в будущем.