# Sonnet 4.6 против Opus 4.6: какую модель выбрать для своих задач Новые версии языковых моделей от Anthropic вышли почти одновременно, и многие пользователи задаются вопросом: стоит ли переплачивать за старшую модель? Разбираемся, где реальная разница, а где — маркетинг. ## Что показывают тесты Цифры бенчмарков говорят о неожиданном сближении моделей. На задачах по написанию кода (SWE-bench) разрыв составляет всего 1.2% в пользу Opus. При управлении компьютером через агентные сценарии (OSWorld) разница и вовсе символическая — 0.2%. Однако один показатель резко выбивается из общей картины. На тесте GPQA Diamond, проверяющем глубокое научное и абстрактное мышление, Opus набирает 91.3% против 74.1% у Sonnet. Разрыв в 17 процентных пунктов — это уже не погрешность, а принципиальная разница в возможностях. На терминальных задачах (Terminal-Bench 2.0) Opus также впереди: 65.4% против примерно 59% у Sonnet. При работе с длинным контекстом в миллион токенов старшая модель показывает 78.3
# Sonnet 4.6 против Opus 4.6: какую модель выбрать для своих задач
26 марта26 мар
6
3 мин