Добавить в корзинуПозвонить
Найти в Дзене
Social Mebia Systems

Claude Opus 4.5: когда ИИ «старший инженер» становится массовым сервисом

Anthropic сделала мощную заявку на перераспределение сил в мире ИИ. Новый флагманский Claude Opus 4.5 совмещает три вещи, которые обычно не уживаются вместе: самый высокий уровень инженерных навыков среди моделей, заметное усиление безопасности — и резкое удешевление использования. Цены «под нож» и бесплатный длинный контекст Главная интрига релиза — агрессивная ценовая политика. Стоимость работы Opus 4.5 через API снизилась примерно на две трети: При этом модель остаётся топовой в линейке Anthropic — и начинает конкурировать по цене уже не с премиум‑моделями, а с «середнячками» других вендоров. Дополнительно: Фактически, возможности, которые ещё недавно относились к «элитному классу», Anthropic переводит в разряд нового стандарта. Новый «король кода»: Opus 4.5 в инженерных тестах На фронте разработки ПО Claude Opus 4.5 выдал, пожалуй, самый громкий результат: Ещё важнее внутренний тест Anthropic: двухчасовой серьёзный инженерный экзамен, изначально придуманный для отбора лучших perfor

Anthropic сделала мощную заявку на перераспределение сил в мире ИИ. Новый флагманский Claude Opus 4.5 совмещает три вещи, которые обычно не уживаются вместе: самый высокий уровень инженерных навыков среди моделей, заметное усиление безопасности — и резкое удешевление использования.

Цены «под нож» и бесплатный длинный контекст

Главная интрига релиза — агрессивная ценовая политика. Стоимость работы Opus 4.5 через API снизилась примерно на две трети:

  • вход: с 15 до 5 долларов за 1M токенов;
  • выход: с 75 до 25 долларов за 1M токенов.

При этом модель остаётся топовой в линейке Anthropic — и начинает конкурировать по цене уже не с премиум‑моделями, а с «середнячками» других вендоров.

Дополнительно:

  • 32K контекст теперь бесплатно доступен всем платным пользователям;
  • режим «практически бесконечного диалога» перестал быть привилегией узкого круга и открыт широкой аудитории.

Фактически, возможности, которые ещё недавно относились к «элитному классу», Anthropic переводит в разряд нового стандарта.

Новый «король кода»: Opus 4.5 в инженерных тестах

На фронте разработки ПО Claude Opus 4.5 выдал, пожалуй, самый громкий результат:

  • на бенчмарке SWE‑bench Verified — 80,9% успешных решений;
  • выше, чем у GPT‑5.1 Codex‑Max (77,9%) и Gemini 3 Pro (76,2%).

Ещё важнее внутренний тест Anthropic: двухчасовой серьёзный инженерный экзамен, изначально придуманный для отбора лучших performance‑инженеров компании. По словам разработчиков, при тех же условиях Opus 4.5 набрал выше любого человеческого кандидата, проходившего этот тест ранее.

Компания честно оговаривается:
такие испытания не покрывают «мягкие навыки» — командную работу, опыт, интуитивное понимание бизнеса. Но факт остаётся фактом: по чистой технической продуктивности ИИ впервые начинает обгонять человеческих «сеньоров» в формализуемых задачах.

«Параметр усилия»: как настроить баланс между ценой и интеллектом

Для реальных задач важна не только абсолютная мощность, но и стоимость результата. Opus 4.5 вводит механизм effort parameter — фактически ручку, которой можно регулировать:

  • насколько глубоко модель будет «думать» над задачей;
  • сколько токенов при этом потратит;
  • какой уровень качества вы ожидаете.

Из внутренних измерений Anthropic:

  • на среднем уровне усилия Opus 4.5 даёт те же результаты, что Sonnet 4.5 на SWE‑bench, но потребляет на 76% меньше выходных токенов;
  • на высоком уровне усилия Opus 4.5 всё ещё более точен, чем Sonnet 4.5 (+4,3 п.п.), при этом экономия по токенам сохраняется на уровне ~48%.

Для крупных пользователей (IDE, платформы автокодинга) это выливается в серьёзную экономию. Так, в GitHub отмечают:

  • Opus 4.5 превосходит предыдущие модели в их внутренних код‑бенчмарках;
  • при этом суммарное потребление токенов снижается примерно вдвое — особенно на задачах миграции и рефакторинга.

Похожие выводы озвучивают Replit и другие разработчики инструментов для программистов: при масштабном применении «эффект сложных процентов» от такой экономии становится стратегическим преимуществом.

Агент, который учится на собственных итерациях

Отличительная черта Opus 4.5 — способность в режиме агента самому улучшать свои стратегии в ходе решения задач.

Тесты Rakuten показали:

  • агент на базе Opus 4.5 достигает пикового качества уже на 4‑й итерации;
  • конкурирующие модели даже после 10 итераций не выходят на сопоставимый уровень.

Важно: речь не идёт об онлайновом дообучении весов модели. Механизм другой:

  • агент по ходу работы дорабатывает инструменты, планы, пайплайны;
  • пробует альтернативные сценарии выполнения задач;
  • запоминает, какие приёмы срабатывают лучше в рамках текущей сессии.

Такой «локальный мета‑уровень» Anthropic наблюдает не только в коде, но и:

  • при подготовке сложной документации,
  • в работе с таблицами и презентациями,
  • при конструировании сложных многошаговых рабочих процессов.

По оценке самих разработчиков, скачок от Sonnet 4.5 к Opus 4.5 по этим параметрам оказался больше, чем между любыми двумя предыдущими поколениями моделей.

Инструменты вокруг: Claude в браузере, Excel и IDE

Релиз модели сопровождается серией инфраструктурных апдейтов, которые превращают Opus 4.5 из «просто API» в нервную систему рабочих процессов:

  • Claude for Chrome — теперь доступен всем пользователям уровня Max:
    – ИИ прямо в браузере,
    – работа с вкладками, контентом страниц, формами.
  • Claude for Excel — для Max/Team/Enterprise:
    – поддержка сводных таблиц,
    – анализ графиков,
    – работа с загружаемыми файлами.
    Это превращает модель в полноценного помощника для аналитиков, консультантов, финансовых специалистов.
  • Claude Code (десктоп):
    – параллельные сессии с локальными и облачными проектами,
    – «программируемый вызов инструментов» — модель сама пишет и выполняет код для обращения к функциям, сервисам и скриптам.

На уровне платформы для разработчиков:

  • улучшено управление контекстом и памятью агентов — до +15% к качеству на задачах агентного типа;
  • добавлены механизмы координации нескольких агентов между собой.

Компании, строящие свои продукты поверх Claude, уже видят отдачу:
Fundamental Research Labs фиксирует ~20% рост точности моделей и ~15% рост эффективности сложных пайплайнов, Cursor и Cognition сообщают о стабильном улучшении результатов на «самых больных» кодовых задачах.

Безопасность: меньше уязвимостей, жёстче фильтры

Anthropic традиционно делает акцент на безопасном использовании. По свежей «system card» Opus 4.5 заметно прибавил в стойкости:

  • в тестах с единичной попыткой prompt‑injection успешное «взломанное» поведение — всего 4,7% случаев (против ~12,5–12,6% у Gemini 3 Pro и GPT‑5.1);
  • даже при 10 атаках успех злоумышленника ограничивается 33,6% (у конкурентов — около 60%).

В агентных сценариях с кодом:

  • на 150 намеренно вредоносных запросов (малварь, эксплуатация, DDoS‑скрипты и т.п.) Opus 4.5 в агентном код‑режиме давал 100% отказов;
  • в среде Claude Code уровень отказа для создания вредоносного софта составил около 78%, а при более широком «компьютерном» доступе — более 88%.

Это всё ещё не идеал — окна уязвимости остаются, и Anthropic об этом прямо говорит. Но тренд очевиден: по мере роста «мощности» модели компания сознательно двигает вперёд и барьеры безопасности.

Бизнес‑масштаб: быстрый рост и самоприменение ИИ

Anthropic выходит на новый экономический уровень:

  • годовой «run rate» выручки в I квартале 2025 — порядка 2 млрд долларов (против 1 млрд ранее);
  • число клиентов, тратящих более 100 тыс. долларов в год, выросло в 8 раз.

Любопытная деталь — команда активно использует собственные модели для:

  • ресёрча,
  • разработки,
  • тестирования продуктов.

По словам руководителей, именно благодаря внутреннему «dogfooding» удалось ускорить цикл релизов Haiku, Sonnet и Opus до интервалов в несколько недель.

Что это значит для «работы знаний»

Claude Opus 4.5 — не просто ещё один виток гонки бенчмарков. Комбинация факторов:

  • кодовые навыки уровня и выше сильных инженеров;
  • уменьшение цены и потребления токенов;
  • устойчивые агентные сценарии с самонастройкой;
  • «вшивание» модели в браузеры, Excel и IDE;

делает ИИ не дополнением к работе, а полноценным вторым участником процесса.

Для разработчиков это:

  • менее болезненный рефакторинг и миграции;
  • возможность делегировать всё больше рутинной инженерии;
  • сдвиг фокуса в сторону архитектуры, продуктового мышления и ревью.

Для аналитиков и консультантов — постепенный переход от «ручного Excel‑ремесла» к управлению цепочками ИИ‑инструментов.

Anthropic показывает, что топ‑уровень ИИ может стать массовым — и по цене, и по доступности. На этом фоне вопрос смещается: не «может ли модель заменить специалиста», а какие роли и навыки окажутся самыми ценными в мире, где у каждого на рабочем столе есть такой «цифровой сеньор‑коллега».

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/