431 подписчик

Claude Opus 4.5

24 ноября 202524 ноя 2025

1 мин

Claude Opus 4.5 Самая мощная модель компании на сегодняшний день, которая вышла в топы по программированию, агентным сценариям и продуктивной работе. При этом цена снижена до $5/$25 за миллион токенов (ввод/вывод) На бенчмарке SWE-bench Verified Opus 4.5 показал лучший результат среди всех frontier-моделей - Лидерство в 7 из 8 языков программирования на SWE-bench Multilingual - SOTA результаты на Aider Polyglot, BrowseComp-Plus, Vending-Bench - Заметный прогресс в зрении, математике, мультимодальных задачах Интересный случай из τ²-bench: когда модели нужно было отказать в изменении билета эконом-класса, опус придумал сначала апгрейдить класс билета, а затем изменить рейс (что разрешено для повышенного класса). Бенчмарк засчитал это как ошибку, но команда отметила проявление «инженерного мышления». Также новый опус стал самой защищённой от prompt injection моделью Anthropic, опередив конкурентов в тестах на устойчивость к attack запросам Дополнительно: - Прошла внутренний экзамен

Claude Opus 4.5

Самая мощная модель компании на сегодняшний день, которая вышла в топы по программированию, агентным сценариям и продуктивной работе. При этом цена снижена до $5/$25 за миллион токенов (ввод/вывод)

На бенчмарке SWE-bench Verified Opus 4.5 показал лучший результат среди всех frontier-моделей

- Лидерство в 7 из 8 языков программирования на SWE-bench Multilingual

- SOTA результаты на Aider Polyglot, BrowseComp-Plus, Vending-Bench

- Заметный прогресс в зрении, математике, мультимодальных задачах

Интересный случай из τ²-bench: когда модели нужно было отказать в изменении билета эконом-класса, опус придумал сначала апгрейдить класс билета, а затем изменить рейс (что разрешено для повышенного класса). Бенчмарк засчитал это как ошибку, но команда отметила проявление «инженерного мышления».

Также новый опус стал самой защищённой от prompt injection моделью Anthropic, опередив конкурентов в тестах на устойчивость к attack запросам

Дополнительно:

- Прошла внутренний экзамен для performance engineering-кандидатов лучше любого человека

- Существенно меньше токенов на рассуждения благодаря улучшенному reasoning-пайплайну

Параметр effort (контроль глубины рассуждений)

Новая функция effort позволяет управлять вычислительными затратами:

- Средний effort: повторяет SOTA Sonnet 4.5, используя на 76% меньше токенов

- Максимальный effort: обгоняет Sonnet 4.5 на 4.3 п.п. при 48% меньше токенов

Улучшения также коснулись:

- Контекстного управления и автоматической компакции

- Механизмов работы долгоживущих агентов

- Многоагентных систем