Anthropic снова привлёк внимание рынка: спустя всего 12 дней после релиза Claude Opus 4.6 компания представила новый «средний» модельный вариант — Sonnet 4.6. Главная новость не в технологическом прорыве как таковом, а в том, что за значительно меньшие деньги Sonnet 4.6 демонстрирует производительность, близкую к флагманским решениям — и в ряде задач даже превосходит их.
Что нового в Sonnet 4.6 и почему это важно
Sonnet 4.6 сохраняет прежнюю ценовую политику Sonnet 4.5: входные токены — $3 за миллион, выходные — $15 за миллион. Однако по ряду бенчмарков модель показывает результат, сопоставимый с Opus 4.6 — моделью, цена которой в отдельных случаях в пять раз выше. Anthropic подчёркивает: дешевле не всегда значит хуже.
01 — Где Sonnet 4.6 впечатляет
- SWE-bench Verified (реальные навыки кодирования): Sonnet 4.6 — 79.6% против 80.8% у Opus 4.6; чуть опережает GPT-5.2.
- Агентные финансовые анализы: Sonnet 4.6 — 63.3% (Opus 4.6 — 60.1%, GPT-5.2 — 59.0%).
- Офисные задачи (GDPval-AA Elo): Sonnet 4.6 — 1633, Opus 4.6 — 1606, GPT-5.2 — 1462.
Эти результаты означают, что многие задачи, ранее требовавшие флагманских моделей, теперь можно решать с помощью более дешёвой Sonnet 4.6 — что сулит существенную экономию для компаний, обрабатывающих миллионы токенов ежедневно.
При этом ряд специфических и сложных задач всё ещё остаётся за Opus 4.6:
- Terminal-Bench 2.0 (терминальные/сложные кодовые задачи): Opus 4.6 — 65.4%, Sonnet 4.6 — 59.1%.
- BrowseComp (агентный веб-поиск): Opus 4.6 — 84.0%, Sonnet 4.6 — 74.7%.
- ARC-AGI-2 (новаторское решение задач): Opus 4.6 — 68.8%, Sonnet 4.6 — 58.3%.
Иными словами, для передовых исследований и сценариев, где критична высшая точность, Opus остаётся предпочтительным, но для большинства production-сценариев разрыв уменьшился до приемлемого уровня.
Ключевое улучшение — «умение пользоваться компьютером»
Самым заметным прогрессом Sonnet 4.6 стало улучшение в тестах на взаимодействие с графическим интерфейсом и поведением как «человеческого оператора». ВOSWorld-Verified Sonnet 4.6 показал 72.5% (у Sonnet 4.5 было 61.4%, у GPT-5.2 — 38.2%). Это означает, что модель способна выполнять многозадачные операции на экране — клики, вводы, заполнение форм — без необходимости заводить отдельные API-интеграции.
Практическое значение: агент, который «видит» экран и управляет приложениями, может автоматизировать огромное количество корпоративных процессов без дорогостоящих коннекторов и кастомной разработки. Anthropic отмечает, что ранние пользователи наблюдают близкие к человеческому уровню результаты при работе со сложными таблицами и многошаговыми веб-формами.
CEO страховой финтех-компании Pace Джейми Кофф (Jamie Cuffe) заявил, что Sonnet 4.6 достиг 94% в их внутренних тестах по использованию корпоративного ПО — лучший результат среди протестированных моделей Claude — и показал способность самостоятельно диагностировать и исправлять ошибки рассуждений.
Anthropic также указывает на значительные улучшения в защите от «prompt injection» — вредоносных приёмов, когда веб-страницы скрывают инструкции для перехвата поведения модели. Для агентов, взаимодействующих с внешними ресурсами, такая защита критична.
02 — Ценовая революция: пять раз дешевле?
Ряд ранних пользователей отмечают, что за способности, которые раньше требовали покупки более дорогих моделей, теперь можно платить в пять раз меньше благодаря Sonnet 4.6. Это потенциально снижает операционные расходы на обработку данных до 20% от прежних.
Anthropic — и партнёры внутри компании — уже переводят значительную часть нагрузки на Sonnet 4.6: Кейтлин Колгров (Caitlin Colgrove), CTO/сооснователь и глава продуктов, сообщает о миграции трафика и о том, что благодаря режимам «adaptive thinking» и «high effort» Sonnet демонстрирует Opus-уровень в большинстве задач, при более гибкой и экономичной конфигурации.
Sonnet 4.6 также поддерживает 1 000 000 токенов контекста, что позволяет вмещать крупные кодовые базы, юридические пакеты или десятки научных статей и эффективно по ним рассуждать. В Vending-Bench Arena (симуляция бизнес-операций) Sonnet 4.6 выработал новую стратегию поведения и завершил 365-дневную симуляцию с балансом около $5 700 против $2 100 у Sonnet 4.5.
03 — Экспансия в Индию и рыночные эффекты
В день релиза Sonnet 4.6 Anthropic объявила партнёрство с индийским IT-гигантом Infosys: совместно они будут интегрировать Claude в корпоративную платформу Topaz AI для банков, телекомов и производства. Anthropic также открыл офис в Бангалоре — Индия уже составляет около 6% глобального использования Claude (второе место после США).
Рынок отреагировал нервно: снижения котировок в секторе софта и падение акций даже у сильных игроков, включая Microsoft, указывают на тревогу инвесторов по поводу скорой трансформации бизнес-моделей под давлением дешёвых, но мощных моделей вроде Sonnet 4.6.
Отдельно примечательно, что Anthropic по умолчанию обновила бесплатный уровень доступа в сторону Sonnet 4.6, предоставив разработчикам возможность напрямую вызывать модель через Claude API — шаг, который ускорит тестирование и внедрение Sonnet в экосистеме.
Вывод
Sonnet 4.6 — это не просто очередной релиз: это сигнал о том, что производительность, ранее доступная только в дорогих флагманах, постепенно становится доступной и в более дешёвых классах моделей. Для бизнеса это шанс снизить расходы без значительной потери качества в большинстве прикладных задач.
Для исследователей и сценариев с крайней необходимостью высокой точности Opus остаётся опцией первого выбора. В сумме релиз Sonnet 4.6 усиливает конкуренцию на рынке LLM и ускоряет переход к более экономичным корпоративным решениям — с очевидными последствиями для индустрии и финансовых рынков.
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/