Claude Opus 4.7 не просто быстрее или точнее. Он пересекает порог, после которого разработчики могут отдавать сложные многоэтапные задачи без постоянного присмотра. 28 компаний из раннего доступа фиксируют одно и то же: модель держит длинные контексты, проверяет свою работу и не сдаётся посреди процесса. Цена не изменилась, но взаимодействие с AI — да.
Почему это не очередной инкремент
Anthropic выпустила Claude Opus 4.7 16 апреля, и первое, что бросается в глаза — формулировка в официальном анонсе: "пользователи сообщают, что могут передать свою самую сложную работу по кодингу — ту, которая раньше требовала пристального надзора — Opus 4.7 с уверенностью".
Это не про "лучше понимает запросы" или "генерирует чище код". Это про смену режима взаимодействия: от pair programming, где вы постоянно корректируете курс, к делегированию, где вы ставите задачу и ждёте результата.
Что конкретно позволяет такое делегирование? Три вещи, которые отличают 4.7 от 4.6:
- Длительная автономия. Модель работает часами, не теряя нить. Scott Wu из Devin (Cognition) пишет: "Opus 4.7 последовательно работает часами, продавливается через сложные проблемы вместо того, чтобы сдаться". Для агентов, которые расследуют инциденты или проводят deep research, это меняет всё — раньше модели застревали посреди задачи.
- Самопроверка. Opus 4.7 "придумывает способы проверить свои собственные результаты, прежде чем отчитаться". Sean Ward из Sesame приводит пример: модель самостоятельно построила полный Rust-движок text-to-speech (нейросеть, SIMD-ядра, браузерное демо), затем пропустила выход через распознаватель речи, чтобы убедиться, что результат совпадает с Python-референсом. "Месяцы работы senior-инженера, выполненные автономно", — его оценка.
- Сопротивляемость циклам. Кай Жу из Genspark выделяет "сопротивление циклам" как критический фактор: модель, которая зацикливается на каждом 18-м запросе, блокирует пользователей и сжигает вычислительный бюджет. Opus 4.7 показывает лучшее соотношение качества к количеству вызовов инструментов.
Что говорят метрики и партнёры
Цифры от 28 компаний из раннего доступа показывают системный прогресс:
- Replit: +13% на 93-задачном кодинговом бенчмарке, включая четыре задачи, которые не решили ни Opus 4.6, ни Sonnet 4.6.
- XBOW (автономное пентестирование): 98.5% на бенчмарке зрительной чёткости против 54.5% у Opus 4.6. "Наш главный pain point с Opus практически исчез".
- Rakuten: в 3 раза больше решённых production-задач на Rakuten-SWE-Bench.
- Notion: +14% на многошаговых workflow, в три раза меньше ошибок инструментов. "Первый прошедший наши тесты на неявные потребности".
- Cursor: 70% на CursorBench против 58% у Opus 4.6.
- CodeRabbit (code review): recall вырос на 10%+ на сложных PR, при этом precision остался стабильным.
- Qodo: прошёл три TBench-задачи, которые не могли пройти предыдущие модели Claude, включая race condition.
Igor Ostrovsky из Replay подчёркивает неочевидный момент: "Он думает глубже о проблемах и приносит более категоричную точку зрения, а не просто соглашается с пользователем". Это важно — многие модели тренируются на похвале, а Opus 4.7, по отзывам, способен спорить и давать обратную связь, которая улучшает решение.
Зрение: увеличенное в 3 раза разрешение и новые сценарии
Мультимодальное улучшение — не маркетинговая фича. Разрешение выросло втрое: до 2,576 пикселей по длинной стороне (~3.75 мегапикселей). Это не API-параметр, а модельное изменение — изображения просто обрабатываются с более высокой точностью.
Sanj Ahilan из Solve Intelligence приводит конкретику: чтение химических структур, интерпретация сложных технических диаграмм. Для life sciences-патентных workflow — от drafting до infringement detection — это меняет качество работы.
Aj Orbach из Lovable говорит прямо: "Лучшая в мире модель для построения дашбордов и data-rich интерфейсов. Вкус в дизайне по-настоящему удивляет — делает выборы, которые я бы реально задеплоил".
Кибербезопасность: Project Glasswing в действии
Важный контекст, который легко упустить: Opus 4.7 — первая модель, выпущенная в рамках Project Glasswing. Неделю назад Anthropic объявила об этом проекте, признавая риски и выгоды AI-моделей для кибербезопасности.
Ключевые детали:
- Намеренное снижение кибер-возможностей. Во время обучения экспериментировали с дифференциальным снижением этих способностей. Opus 4.7 не так продвинут в кибер-домене, как Mythos Preview.
- Автоматические защиты. Модель выпущена с safeguards, которые автоматически обнаруживают и блокируют запросы, указывающие на запрещённое или высокорискованное кибер-использование.
- Cyber Verification Program. Легитимные security-специалисты (vulnerability research, penetration testing, red-teaming) могут подать заявку на доступ через отдельную программу.
Это тестовая площадка. То, что Anthropic узнаёт из реального развёртывания этих защит, поможет работать к широкому релизу Mythos-класса моделей.
Новые инструменты управления
С релизом модели появились и новые возможности:
- xhigh effort level. Между high и max теперь есть промежуточный уровень xhigh ("extra high") для более тонкого контроля баланса между рассуждениями и задержкой. В Claude Code для всех планов теперь дефолт — xhigh. Для кодинга и агентских сценариев рекомендуется начинать с high или xhigh.
- Task budgets (beta). Разработчики могут направлять токен-затраты Claude, чтобы модель приоритизировала работу на длинных запусках.
- /ultrareview. Новая команда в Claude Code создаёт отдельную review-сессию, которая просматривает изменения и отмечает баги и проблемы дизайна. Pro и Max-пользователи получают три бесплатных ultrareview.
- Auto mode для Max. Режим, где Claude принимает решения от имени пользователя — можно запускать длинные задачи с меньшим количеством прерываний.
Миграция: что меняется в токенах и цене
Цена не изменилась: $5 за миллион входных токенов, $25 за миллион выходных. Но есть нюансы при миграции с Opus 4.6:
- Новый токенизатор. Текст теперь мапится в большее количество токенов — примерно 1.0–1.35× в зависимости от типа контента. Это tradeoff за улучшенную обработку текста.
- Больше рассуждений на высоких effort-уровнях. Особенно на поздних шагах агентских сессий. Это повышает надёжность на сложных задачах, но увеличивает выходные токены.
- Буквальное следование инструкциям. Интересный эффект: промпты, написанные для предыдущих моделей, могут давать неожиданные результаты. Где раньше модели интерпретировали инструкции вольно или пропускали части, Opus 4.7 воспринимает их буквально. Нужно перенастроить промпты и harnesses.
Anthropic рекомендует измерить разницу на реальном трафике. На внутренних кодинговых оценках токен-использование улучшилось при всех уровнях effort — но это может варьироваться в зависимости от задачи.
Что это значит для рабочих процессов
Несколько практических выводов из отзывов партнёров:
- Меньше корректировок посреди задачи. Caitlin Colgrove из Hex: "Низко-усилийный Opus 4.7 примерно эквивалентен средне-усилийному Opus 4.6".
- Лучшая работа с долгим контекстом. Michal Mucha из General Finance: самая консистентная long-context производительность из всех протестированных моделей. На их largest module (General Finance) — 0.813 против 0.767 у Opus 4.6.
- Устойчивость к диссонантным данным. Hex отмечает: модель корректно сообщает, когда данных не хватает, вместо того чтобы выдавать правдоподобные, но неверные fallback'и. Сопротивляется ловушкам диссонантных данных, на которые попадался даже Opus 4.6.
- Честность о своих лимитах. Joe Haddad из Vercel: "Заметно более честен о собственных лимитах. Даже делает доказательства на systems code перед началом работы — новое поведение, которого мы не видели от ранних Claude-моделей".
Когда стоит переключаться
Если вы используете Opus 4.6 для:
- Сложных многоэтапных задач — переход имеет смысл сразу. Партнёры фиксируют меньше ошибок инструментов, лучшее следование инструкциям и способность доводить работу до конца.
- Работы с изображениями и диаграммами — 3x разрешение открывает новые сценарии.
- Длинных агентских сессий — улучшенная работа с файловой памятью, модель помнит важные заметки между сессиями.
Если вы сильно завязаны на токен-экономику и работаете с большими объёмами текста — протестируйте сначала. Новый токенизатор может повлиять на затраты, хотя Anthropic утверждает, что на агентских кодинговых задачах эффективность выросла.
Если вы уже работали с Claude Opus 4.7 — поделитесь в комментариях, на каких задачах заметили разницу с 4.6. Интересует ли вас новый effort‑уровень xhigh или вы предпочитаете контролировать глубину рассуждений вручную?