Добавить в корзинуПозвонить
Найти в Дзене

Claude Opus 4.7: Anthropic выпустила модель, которая справляется с «невозможными» задачами без присмотра

Claude Opus 4.7 не просто быстрее или точнее. Он пересекает порог, после которого разработчики могут отдавать сложные многоэтапные задачи без постоянного присмотра. 28 компаний из раннего доступа фиксируют одно и то же: модель держит длинные контексты, проверяет свою работу и не сдаётся посреди процесса. Цена не изменилась, но взаимодействие с AI — да. Anthropic выпустила Claude Opus 4.7 16 апреля, и первое, что бросается в глаза — формулировка в официальном анонсе: "пользователи сообщают, что могут передать свою самую сложную работу по кодингу — ту, которая раньше требовала пристального надзора — Opus 4.7 с уверенностью". Это не про "лучше понимает запросы" или "генерирует чище код". Это про смену режима взаимодействия: от pair programming, где вы постоянно корректируете курс, к делегированию, где вы ставите задачу и ждёте результата. Что конкретно позволяет такое делегирование? Три вещи, которые отличают 4.7 от 4.6: Цифры от 28 компаний из раннего доступа показывают системный прогрес
Оглавление

Claude Opus 4.7 не просто быстрее или точнее. Он пересекает порог, после которого разработчики могут отдавать сложные многоэтапные задачи без постоянного присмотра. 28 компаний из раннего доступа фиксируют одно и то же: модель держит длинные контексты, проверяет свою работу и не сдаётся посреди процесса. Цена не изменилась, но взаимодействие с AI — да.

Почему это не очередной инкремент

Anthropic выпустила Claude Opus 4.7 16 апреля, и первое, что бросается в глаза — формулировка в официальном анонсе: "пользователи сообщают, что могут передать свою самую сложную работу по кодингу — ту, которая раньше требовала пристального надзора — Opus 4.7 с уверенностью".

Это не про "лучше понимает запросы" или "генерирует чище код". Это про смену режима взаимодействия: от pair programming, где вы постоянно корректируете курс, к делегированию, где вы ставите задачу и ждёте результата.

Что конкретно позволяет такое делегирование? Три вещи, которые отличают 4.7 от 4.6:

  • Длительная автономия. Модель работает часами, не теряя нить. Scott Wu из Devin (Cognition) пишет: "Opus 4.7 последовательно работает часами, продавливается через сложные проблемы вместо того, чтобы сдаться". Для агентов, которые расследуют инциденты или проводят deep research, это меняет всё — раньше модели застревали посреди задачи.
  • Самопроверка. Opus 4.7 "придумывает способы проверить свои собственные результаты, прежде чем отчитаться". Sean Ward из Sesame приводит пример: модель самостоятельно построила полный Rust-движок text-to-speech (нейросеть, SIMD-ядра, браузерное демо), затем пропустила выход через распознаватель речи, чтобы убедиться, что результат совпадает с Python-референсом. "Месяцы работы senior-инженера, выполненные автономно", — его оценка.
  • Сопротивляемость циклам. Кай Жу из Genspark выделяет "сопротивление циклам" как критический фактор: модель, которая зацикливается на каждом 18-м запросе, блокирует пользователей и сжигает вычислительный бюджет. Opus 4.7 показывает лучшее соотношение качества к количеству вызовов инструментов.

Что говорят метрики и партнёры

Цифры от 28 компаний из раннего доступа показывают системный прогресс:

  • Replit: +13% на 93-задачном кодинговом бенчмарке, включая четыре задачи, которые не решили ни Opus 4.6, ни Sonnet 4.6.
  • XBOW (автономное пентестирование): 98.5% на бенчмарке зрительной чёткости против 54.5% у Opus 4.6. "Наш главный pain point с Opus практически исчез".
  • Rakuten: в 3 раза больше решённых production-задач на Rakuten-SWE-Bench.
  • Notion: +14% на многошаговых workflow, в три раза меньше ошибок инструментов. "Первый прошедший наши тесты на неявные потребности".
  • Cursor: 70% на CursorBench против 58% у Opus 4.6.
  • CodeRabbit (code review): recall вырос на 10%+ на сложных PR, при этом precision остался стабильным.
  • Qodo: прошёл три TBench-задачи, которые не могли пройти предыдущие модели Claude, включая race condition.

Igor Ostrovsky из Replay подчёркивает неочевидный момент: "Он думает глубже о проблемах и приносит более категоричную точку зрения, а не просто соглашается с пользователем". Это важно — многие модели тренируются на похвале, а Opus 4.7, по отзывам, способен спорить и давать обратную связь, которая улучшает решение.

Зрение: увеличенное в 3 раза разрешение и новые сценарии

Мультимодальное улучшение — не маркетинговая фича. Разрешение выросло втрое: до 2,576 пикселей по длинной стороне (~3.75 мегапикселей). Это не API-параметр, а модельное изменение — изображения просто обрабатываются с более высокой точностью.

Sanj Ahilan из Solve Intelligence приводит конкретику: чтение химических структур, интерпретация сложных технических диаграмм. Для life sciences-патентных workflow — от drafting до infringement detection — это меняет качество работы.

Aj Orbach из Lovable говорит прямо: "Лучшая в мире модель для построения дашбордов и data-rich интерфейсов. Вкус в дизайне по-настоящему удивляет — делает выборы, которые я бы реально задеплоил".

Кибербезопасность: Project Glasswing в действии

Важный контекст, который легко упустить: Opus 4.7 — первая модель, выпущенная в рамках Project Glasswing. Неделю назад Anthropic объявила об этом проекте, признавая риски и выгоды AI-моделей для кибербезопасности.

Ключевые детали:

  • Намеренное снижение кибер-возможностей. Во время обучения экспериментировали с дифференциальным снижением этих способностей. Opus 4.7 не так продвинут в кибер-домене, как Mythos Preview.
  • Автоматические защиты. Модель выпущена с safeguards, которые автоматически обнаруживают и блокируют запросы, указывающие на запрещённое или высокорискованное кибер-использование.
  • Cyber Verification Program. Легитимные security-специалисты (vulnerability research, penetration testing, red-teaming) могут подать заявку на доступ через отдельную программу.

Это тестовая площадка. То, что Anthropic узнаёт из реального развёртывания этих защит, поможет работать к широкому релизу Mythos-класса моделей.

Новые инструменты управления

С релизом модели появились и новые возможности:

  • xhigh effort level. Между high и max теперь есть промежуточный уровень xhigh ("extra high") для более тонкого контроля баланса между рассуждениями и задержкой. В Claude Code для всех планов теперь дефолт — xhigh. Для кодинга и агентских сценариев рекомендуется начинать с high или xhigh.
  • Task budgets (beta). Разработчики могут направлять токен-затраты Claude, чтобы модель приоритизировала работу на длинных запусках.
  • /ultrareview. Новая команда в Claude Code создаёт отдельную review-сессию, которая просматривает изменения и отмечает баги и проблемы дизайна. Pro и Max-пользователи получают три бесплатных ultrareview.
  • Auto mode для Max. Режим, где Claude принимает решения от имени пользователя — можно запускать длинные задачи с меньшим количеством прерываний.

Миграция: что меняется в токенах и цене

Цена не изменилась: $5 за миллион входных токенов, $25 за миллион выходных. Но есть нюансы при миграции с Opus 4.6:

  • Новый токенизатор. Текст теперь мапится в большее количество токенов — примерно 1.0–1.35× в зависимости от типа контента. Это tradeoff за улучшенную обработку текста.
  • Больше рассуждений на высоких effort-уровнях. Особенно на поздних шагах агентских сессий. Это повышает надёжность на сложных задачах, но увеличивает выходные токены.
  • Буквальное следование инструкциям. Интересный эффект: промпты, написанные для предыдущих моделей, могут давать неожиданные результаты. Где раньше модели интерпретировали инструкции вольно или пропускали части, Opus 4.7 воспринимает их буквально. Нужно перенастроить промпты и harnesses.

Anthropic рекомендует измерить разницу на реальном трафике. На внутренних кодинговых оценках токен-использование улучшилось при всех уровнях effort — но это может варьироваться в зависимости от задачи.

Что это значит для рабочих процессов

Несколько практических выводов из отзывов партнёров:

  • Меньше корректировок посреди задачи. Caitlin Colgrove из Hex: "Низко-усилийный Opus 4.7 примерно эквивалентен средне-усилийному Opus 4.6".
  • Лучшая работа с долгим контекстом. Michal Mucha из General Finance: самая консистентная long-context производительность из всех протестированных моделей. На их largest module (General Finance) — 0.813 против 0.767 у Opus 4.6.
  • Устойчивость к диссонантным данным. Hex отмечает: модель корректно сообщает, когда данных не хватает, вместо того чтобы выдавать правдоподобные, но неверные fallback'и. Сопротивляется ловушкам диссонантных данных, на которые попадался даже Opus 4.6.
  • Честность о своих лимитах. Joe Haddad из Vercel: "Заметно более честен о собственных лимитах. Даже делает доказательства на systems code перед началом работы — новое поведение, которого мы не видели от ранних Claude-моделей".

Когда стоит переключаться

Если вы используете Opus 4.6 для:

  • Сложных многоэтапных задач — переход имеет смысл сразу. Партнёры фиксируют меньше ошибок инструментов, лучшее следование инструкциям и способность доводить работу до конца.
  • Работы с изображениями и диаграммами — 3x разрешение открывает новые сценарии.
  • Длинных агентских сессий — улучшенная работа с файловой памятью, модель помнит важные заметки между сессиями.

Если вы сильно завязаны на токен-экономику и работаете с большими объёмами текста — протестируйте сначала. Новый токенизатор может повлиять на затраты, хотя Anthropic утверждает, что на агентских кодинговых задачах эффективность выросла.

Если вы уже работали с Claude Opus 4.7 — поделитесь в комментариях, на каких задачах заметили разницу с 4.6. Интересует ли вас новый effort‑уровень xhigh или вы предпочитаете контролировать глубину рассуждений вручную?