31 подписчик

Производительность на уровне, цена упала на 80% — Anthropic выпустил Sonnet 4.6

18 февраля18 фев

5 мин

Anthropic снова привлёк внимание рынка: спустя всего 12 дней после релиза Claude Opus 4.6 компания представила новый «средний» модельный вариант — Sonnet 4.6. Главная новость не в технологическом прорыве как таковом, а в том, что за значительно меньшие деньги Sonnet 4.6 демонстрирует производительность, близкую к флагманским решениям — и в ряде задач даже превосходит их. Что нового в Sonnet 4.6 и почему это важно Sonnet 4.6 сохраняет прежнюю ценовую политику Sonnet 4.5: входные токены — $3 за миллион, выходные — $15 за миллион. Однако по ряду бенчмарков модель показывает результат, сопоставимый с Opus 4.6 — моделью, цена которой в отдельных случаях в пять раз выше. Anthropic подчёркивает: дешевле не всегда значит хуже. 01 — Где Sonnet 4.6 впечатляет Эти результаты означают, что многие задачи, ранее требовавшие флагманских моделей, теперь можно решать с помощью более дешёвой Sonnet 4.6 — что сулит существенную экономию для компаний, обрабатывающих миллионы токенов ежедневно. При этом ря

Что нового в Sonnet 4.6 и почему это важно

Sonnet 4.6 сохраняет прежнюю ценовую политику Sonnet 4.5: входные токены — $3 за миллион, выходные — $15 за миллион. Однако по ряду бенчмарков модель показывает результат, сопоставимый с Opus 4.6 — моделью, цена которой в отдельных случаях в пять раз выше. Anthropic подчёркивает: дешевле не всегда значит хуже.

01 — Где Sonnet 4.6 впечатляет

SWE-bench Verified (реальные навыки кодирования): Sonnet 4.6 — 79.6% против 80.8% у Opus 4.6; чуть опережает GPT-5.2.
Агентные финансовые анализы: Sonnet 4.6 — 63.3% (Opus 4.6 — 60.1%, GPT-5.2 — 59.0%).
Офисные задачи (GDPval-AA Elo): Sonnet 4.6 — 1633, Opus 4.6 — 1606, GPT-5.2 — 1462.

Эти результаты означают, что многие задачи, ранее требовавшие флагманских моделей, теперь можно решать с помощью более дешёвой Sonnet 4.6 — что сулит существенную экономию для компаний, обрабатывающих миллионы токенов ежедневно.

При этом ряд специфических и сложных задач всё ещё остаётся за Opus 4.6:

Terminal-Bench 2.0 (терминальные/сложные кодовые задачи): Opus 4.6 — 65.4%, Sonnet 4.6 — 59.1%.
BrowseComp (агентный веб-поиск): Opus 4.6 — 84.0%, Sonnet 4.6 — 74.7%.
ARC-AGI-2 (новаторское решение задач): Opus 4.6 — 68.8%, Sonnet 4.6 — 58.3%.

Иными словами, для передовых исследований и сценариев, где критична высшая точность, Opus остаётся предпочтительным, но для большинства production-сценариев разрыв уменьшился до приемлемого уровня.

Ключевое улучшение — «умение пользоваться компьютером»

Самым заметным прогрессом Sonnet 4.6 стало улучшение в тестах на взаимодействие с графическим интерфейсом и поведением как «человеческого оператора». ВOSWorld-Verified Sonnet 4.6 показал 72.5% (у Sonnet 4.5 было 61.4%, у GPT-5.2 — 38.2%). Это означает, что модель способна выполнять многозадачные операции на экране — клики, вводы, заполнение форм — без необходимости заводить отдельные API-интеграции.

Практическое значение: агент, который «видит» экран и управляет приложениями, может автоматизировать огромное количество корпоративных процессов без дорогостоящих коннекторов и кастомной разработки. Anthropic отмечает, что ранние пользователи наблюдают близкие к человеческому уровню результаты при работе со сложными таблицами и многошаговыми веб-формами.

CEO страховой финтех-компании Pace Джейми Кофф (Jamie Cuffe) заявил, что Sonnet 4.6 достиг 94% в их внутренних тестах по использованию корпоративного ПО — лучший результат среди протестированных моделей Claude — и показал способность самостоятельно диагностировать и исправлять ошибки рассуждений.

Anthropic также указывает на значительные улучшения в защите от «prompt injection» — вредоносных приёмов, когда веб-страницы скрывают инструкции для перехвата поведения модели. Для агентов, взаимодействующих с внешними ресурсами, такая защита критична.

02 — Ценовая революция: пять раз дешевле?

Ряд ранних пользователей отмечают, что за способности, которые раньше требовали покупки более дорогих моделей, теперь можно платить в пять раз меньше благодаря Sonnet 4.6. Это потенциально снижает операционные расходы на обработку данных до 20% от прежних.

Anthropic — и партнёры внутри компании — уже переводят значительную часть нагрузки на Sonnet 4.6: Кейтлин Колгров (Caitlin Colgrove), CTO/сооснователь и глава продуктов, сообщает о миграции трафика и о том, что благодаря режимам «adaptive thinking» и «high effort» Sonnet демонстрирует Opus-уровень в большинстве задач, при более гибкой и экономичной конфигурации.

Sonnet 4.6 также поддерживает 1 000 000 токенов контекста, что позволяет вмещать крупные кодовые базы, юридические пакеты или десятки научных статей и эффективно по ним рассуждать. В Vending-Bench Arena (симуляция бизнес-операций) Sonnet 4.6 выработал новую стратегию поведения и завершил 365-дневную симуляцию с балансом около $5 700 против $2 100 у Sonnet 4.5.

03 — Экспансия в Индию и рыночные эффекты

В день релиза Sonnet 4.6 Anthropic объявила партнёрство с индийским IT-гигантом Infosys: совместно они будут интегрировать Claude в корпоративную платформу Topaz AI для банков, телекомов и производства. Anthropic также открыл офис в Бангалоре — Индия уже составляет около 6% глобального использования Claude (второе место после США).

Рынок отреагировал нервно: снижения котировок в секторе софта и падение акций даже у сильных игроков, включая Microsoft, указывают на тревогу инвесторов по поводу скорой трансформации бизнес-моделей под давлением дешёвых, но мощных моделей вроде Sonnet 4.6.

Отдельно примечательно, что Anthropic по умолчанию обновила бесплатный уровень доступа в сторону Sonnet 4.6, предоставив разработчикам возможность напрямую вызывать модель через Claude API — шаг, который ускорит тестирование и внедрение Sonnet в экосистеме.

Вывод

Sonnet 4.6 — это не просто очередной релиз: это сигнал о том, что производительность, ранее доступная только в дорогих флагманах, постепенно становится доступной и в более дешёвых классах моделей. Для бизнеса это шанс снизить расходы без значительной потери качества в большинстве прикладных задач.

Для исследователей и сценариев с крайней необходимостью высокой точности Opus остаётся опцией первого выбора. В сумме релиз Sonnet 4.6 усиливает конкуренцию на рынке LLM и ускоряет переход к более экономичным корпоративным решениям — с очевидными последствиями для индустрии и финансовых рынков.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/