Claude Opus 4.7: Anthropic выпустила модель, которая справляется с «невозможными» задачами без присмотра

18 апреля18 апр

7 мин

Claude Opus 4.7 не просто быстрее или точнее. Он пересекает порог, после которого разработчики могут отдавать сложные многоэтапные задачи без постоянного присмотра. 28 компаний из раннего доступа фиксируют одно и то же: модель держит длинные контексты, проверяет свою работу и не сдаётся посреди процесса. Цена не изменилась, но взаимодействие с AI — да. Anthropic выпустила Claude Opus 4.7 16 апреля, и первое, что бросается в глаза — формулировка в официальном анонсе: "пользователи сообщают, что могут передать свою самую сложную работу по кодингу — ту, которая раньше требовала пристального надзора — Opus 4.7 с уверенностью". Это не про "лучше понимает запросы" или "генерирует чище код". Это про смену режима взаимодействия: от pair programming, где вы постоянно корректируете курс, к делегированию, где вы ставите задачу и ждёте результата. Что конкретно позволяет такое делегирование? Три вещи, которые отличают 4.7 от 4.6: Цифры от 28 компаний из раннего доступа показывают системный прогрес

Оглавление

Почему это не очередной инкремент
Что говорят метрики и партнёры
Зрение: увеличенное в 3 раза разрешение и новые сценарии

Почему это не очередной инкремент

Anthropic выпустила Claude Opus 4.7 16 апреля, и первое, что бросается в глаза — формулировка в официальном анонсе: "пользователи сообщают, что могут передать свою самую сложную работу по кодингу — ту, которая раньше требовала пристального надзора — Opus 4.7 с уверенностью".

Это не про "лучше понимает запросы" или "генерирует чище код". Это про смену режима взаимодействия: от pair programming, где вы постоянно корректируете курс, к делегированию, где вы ставите задачу и ждёте результата.

Что конкретно позволяет такое делегирование? Три вещи, которые отличают 4.7 от 4.6:

Длительная автономия. Модель работает часами, не теряя нить. Scott Wu из Devin (Cognition) пишет: "Opus 4.7 последовательно работает часами, продавливается через сложные проблемы вместо того, чтобы сдаться". Для агентов, которые расследуют инциденты или проводят deep research, это меняет всё — раньше модели застревали посреди задачи.
Самопроверка. Opus 4.7 "придумывает способы проверить свои собственные результаты, прежде чем отчитаться". Sean Ward из Sesame приводит пример: модель самостоятельно построила полный Rust-движок text-to-speech (нейросеть, SIMD-ядра, браузерное демо), затем пропустила выход через распознаватель речи, чтобы убедиться, что результат совпадает с Python-референсом. "Месяцы работы senior-инженера, выполненные автономно", — его оценка.
Сопротивляемость циклам. Кай Жу из Genspark выделяет "сопротивление циклам" как критический фактор: модель, которая зацикливается на каждом 18-м запросе, блокирует пользователей и сжигает вычислительный бюджет. Opus 4.7 показывает лучшее соотношение качества к количеству вызовов инструментов.

Что говорят метрики и партнёры

Цифры от 28 компаний из раннего доступа показывают системный прогресс:

Replit: +13% на 93-задачном кодинговом бенчмарке, включая четыре задачи, которые не решили ни Opus 4.6, ни Sonnet 4.6.
XBOW (автономное пентестирование): 98.5% на бенчмарке зрительной чёткости против 54.5% у Opus 4.6. "Наш главный pain point с Opus практически исчез".
Rakuten: в 3 раза больше решённых production-задач на Rakuten-SWE-Bench.
Notion: +14% на многошаговых workflow, в три раза меньше ошибок инструментов. "Первый прошедший наши тесты на неявные потребности".
Cursor: 70% на CursorBench против 58% у Opus 4.6.
CodeRabbit (code review): recall вырос на 10%+ на сложных PR, при этом precision остался стабильным.
Qodo: прошёл три TBench-задачи, которые не могли пройти предыдущие модели Claude, включая race condition.

Igor Ostrovsky из Replay подчёркивает неочевидный момент: "Он думает глубже о проблемах и приносит более категоричную точку зрения, а не просто соглашается с пользователем". Это важно — многие модели тренируются на похвале, а Opus 4.7, по отзывам, способен спорить и давать обратную связь, которая улучшает решение.

Зрение: увеличенное в 3 раза разрешение и новые сценарии

Мультимодальное улучшение — не маркетинговая фича. Разрешение выросло втрое: до 2,576 пикселей по длинной стороне (~3.75 мегапикселей). Это не API-параметр, а модельное изменение — изображения просто обрабатываются с более высокой точностью.

Sanj Ahilan из Solve Intelligence приводит конкретику: чтение химических структур, интерпретация сложных технических диаграмм. Для life sciences-патентных workflow — от drafting до infringement detection — это меняет качество работы.

Aj Orbach из Lovable говорит прямо: "Лучшая в мире модель для построения дашбордов и data-rich интерфейсов. Вкус в дизайне по-настоящему удивляет — делает выборы, которые я бы реально задеплоил".

Кибербезопасность: Project Glasswing в действии

Важный контекст, который легко упустить: Opus 4.7 — первая модель, выпущенная в рамках Project Glasswing. Неделю назад Anthropic объявила об этом проекте, признавая риски и выгоды AI-моделей для кибербезопасности.

Ключевые детали:

Намеренное снижение кибер-возможностей. Во время обучения экспериментировали с дифференциальным снижением этих способностей. Opus 4.7 не так продвинут в кибер-домене, как Mythos Preview.
Автоматические защиты. Модель выпущена с safeguards, которые автоматически обнаруживают и блокируют запросы, указывающие на запрещённое или высокорискованное кибер-использование.
Cyber Verification Program. Легитимные security-специалисты (vulnerability research, penetration testing, red-teaming) могут подать заявку на доступ через отдельную программу.

Это тестовая площадка. То, что Anthropic узнаёт из реального развёртывания этих защит, поможет работать к широкому релизу Mythos-класса моделей.

Новые инструменты управления

С релизом модели появились и новые возможности:

xhigh effort level. Между high и max теперь есть промежуточный уровень xhigh ("extra high") для более тонкого контроля баланса между рассуждениями и задержкой. В Claude Code для всех планов теперь дефолт — xhigh. Для кодинга и агентских сценариев рекомендуется начинать с high или xhigh.
Task budgets (beta). Разработчики могут направлять токен-затраты Claude, чтобы модель приоритизировала работу на длинных запусках.
/ultrareview. Новая команда в Claude Code создаёт отдельную review-сессию, которая просматривает изменения и отмечает баги и проблемы дизайна. Pro и Max-пользователи получают три бесплатных ultrareview.
Auto mode для Max. Режим, где Claude принимает решения от имени пользователя — можно запускать длинные задачи с меньшим количеством прерываний.

Миграция: что меняется в токенах и цене

Цена не изменилась: $5 за миллион входных токенов, $25 за миллион выходных. Но есть нюансы при миграции с Opus 4.6:

Новый токенизатор. Текст теперь мапится в большее количество токенов — примерно 1.0–1.35× в зависимости от типа контента. Это tradeoff за улучшенную обработку текста.
Больше рассуждений на высоких effort-уровнях. Особенно на поздних шагах агентских сессий. Это повышает надёжность на сложных задачах, но увеличивает выходные токены.
Буквальное следование инструкциям. Интересный эффект: промпты, написанные для предыдущих моделей, могут давать неожиданные результаты. Где раньше модели интерпретировали инструкции вольно или пропускали части, Opus 4.7 воспринимает их буквально. Нужно перенастроить промпты и harnesses.

Anthropic рекомендует измерить разницу на реальном трафике. На внутренних кодинговых оценках токен-использование улучшилось при всех уровнях effort — но это может варьироваться в зависимости от задачи.

Что это значит для рабочих процессов

Несколько практических выводов из отзывов партнёров:

Меньше корректировок посреди задачи. Caitlin Colgrove из Hex: "Низко-усилийный Opus 4.7 примерно эквивалентен средне-усилийному Opus 4.6".
Лучшая работа с долгим контекстом. Michal Mucha из General Finance: самая консистентная long-context производительность из всех протестированных моделей. На их largest module (General Finance) — 0.813 против 0.767 у Opus 4.6.
Устойчивость к диссонантным данным. Hex отмечает: модель корректно сообщает, когда данных не хватает, вместо того чтобы выдавать правдоподобные, но неверные fallback'и. Сопротивляется ловушкам диссонантных данных, на которые попадался даже Opus 4.6.
Честность о своих лимитах. Joe Haddad из Vercel: "Заметно более честен о собственных лимитах. Даже делает доказательства на systems code перед началом работы — новое поведение, которого мы не видели от ранних Claude-моделей".

Когда стоит переключаться

Если вы используете Opus 4.6 для:

Сложных многоэтапных задач — переход имеет смысл сразу. Партнёры фиксируют меньше ошибок инструментов, лучшее следование инструкциям и способность доводить работу до конца.
Работы с изображениями и диаграммами — 3x разрешение открывает новые сценарии.
Длинных агентских сессий — улучшенная работа с файловой памятью, модель помнит важные заметки между сессиями.

Если вы сильно завязаны на токен-экономику и работаете с большими объёмами текста — протестируйте сначала. Новый токенизатор может повлиять на затраты, хотя Anthropic утверждает, что на агентских кодинговых задачах эффективность выросла.

Если вы уже работали с Claude Opus 4.7 — поделитесь в комментариях, на каких задачах заметили разницу с 4.6. Интересует ли вас новый effort‑уровень xhigh или вы предпочитаете контролировать глубину рассуждений вручную?