Шестнадцатого апреля 2026 года компания Anthropic выпустила в открытый доступ свежую версию флагманской языковой модели. Claude Opus 4.7 стал прямым наследником Opus 4.6, который дебютировал всего двумя месяцами ранее. Разработчики всё чаще задавались вопросом. Способен ли ИИ взять на себя действительно сложные инженерные задачи без постоянного надзора? Новинка, судя по первым отзывам, отвечает утвердительно.
Выпуск модели пришёлся на непростой момент для самой компании. Неделями ранее соцсети и платформы вроде GitHub захлестнула волна претензий к предыдущей версии. Пользователи жаловались на регресс, потерю фокуса при сложных задачах, циклические ошибки. Один из высокопоставленных инженеров AMD в публичном посте заявил, что Claude перестал справляться с серьёзной инженерной работой. Скептики подозревали скрытое урезание вычислительных ресурсов ради других проектов Anthropic. Компания эти обвинения отрицает, а новый релиз отвечает критикам на языке цифр и тестов.
Прорыв в задачах автономной разработки программного обеспечения показал внушительный отрыв от конкурентов
Главная гордость разработчиков кроется в метриках кодинга. На эталонном тесте SWE-bench Verified модель набрала 87.6 процента, тогда как предшественница выдавала 80.8. Прирост почти семь пунктов за два месяца - редкий случай в мире языковых моделей, где рост обычно измеряется долями процента. На более сложной версии теста SWE-bench Pro, где задачи выбраны из реальных опенсорсных репозиториев и охватывают несколько языков программирования, разрыв с предыдущим поколением составил почти одиннадцать пунктов (64.3 против 53.4).
Конкуренты остались позади. GPT-5.4 от OpenAI на SWE-bench Pro показывает 57.7 процента, Gemini 3.1 Pro от Google задерживается на отметке 54.2. В CursorBench, популярном тесте внутри одноимённой IDE, новичок берёт планку в 70 процентов против 58 у Opus 4.6. По внутренним данным японского ритейлера Rakuten, модель справляется с тройным объёмом реальных производственных задач по сравнению с предшественницей. Цифры, которые разработчики привыкли видеть на бенчмарках, впервые начинают совпадать с ощущениями в реальных рабочих процессах.
Технически под капотом произошли три ключевые перемены. Появился новый токенизатор, который обрабатывает текст эффективнее, но увеличивает расход токенов на тот же входной материал примерно в 1.0 - 1.35 раза в зависимости от содержания. Пороги размышления расширились за счёт уровня xhigh, расположенного между high и max и дающего тонкий контроль над соотношением глубины мышления и задержки ответа. Разрешение изображений, с которыми умеет работать модель, выросло более чем в три раза. Теперь ассистент принимает картинки до 2576 пикселей по длинной стороне, что составляет около 3.75 мегапикселя против прежних 1.15.
Способность перепроверять собственные выводы стала одной из самых интересных новинок
Anthropic описывает эту черту термином "rigor" - дисциплинированность. Модель не просто выдаёт ответ и замолкает. Она планирует, отмечает потенциально слабые места в логике, затем изобретает собственные способы верификации. Один из внутренних примеров компании звучит почти как сцена из научной фантастики. Модель получила задание собрать движок синтеза речи на Rust с нуля. Написав код, она самостоятельно прогнала сгенерированный аудиосигнал через отдельный распознаватель речи и сверила результат с эталоном на Python. Замкнутая петля самопроверки, где система сама выступает и автором, и рецензентом собственной работы.
Такой подход решает одну из хронических болячек агентных систем. Галлюцинации при многошаговых задачах. Раньше модель могла уверенно сообщить об успешном выполнении, хотя часть работы оставалась незавершённой или выполненной неверно. Новая версия честнее. Когда данных не хватает, она прямо указывает на пробел вместо того, чтобы выдумать правдоподобное на вид, но некорректное решение. Команда Hex, одного из партнёров Anthropic, особо отметила эту черту. Модель сопротивляется ловушкам с противоречивыми данными, в которые регулярно попадала предшественница.
Среди технических новшеств, которые получили разработчики, стоит выделить главные:
- Уровень усилий xhigh для гибкого баланса между скоростью и глубиной анализа, система бюджетов задач в публичной бете для жёсткого контроля расхода токенов автономными агентами, команда /ultrareview в среде Claude Code для имитации вдумчивого ревью опытным инженером, авторежим для подписчиков тарифа Max, позволяющий ИИ принимать автономные решения без постоянных запросов разрешения, а также улучшенная работа с памятью на файловой системе, благодаря которой ассистент сохраняет важные заметки между сессиями и возвращается к задачам с меньшим объёмом предварительного контекста.
Вопросы безопасности и связь с загадочным проектом Mythos
Параллельно с выпуском модели Anthropic открыто признала существование более мощной системы - Claude Mythos Preview. Эта разработка пока недоступна широкой аудитории и распространяется среди избранного круга партнёров в рамках инициативы Project Glasswing. Список ограничен дюжиной корпоративных и государственных структур с возможностью расширения до сорока с лишним проверенных организаций по приглашению. Mythos значительно превосходит Opus 4.7 в кибербезопасности, а именно этот профиль способностей заставил компанию подходить к распространению с предельной осторожностью.
Opus 4.7 в этом контексте играет роль полигона. Модель получила автоматические защитные механизмы, распознающие и блокирующие запросы, которые указывают на запрещённые или высокорисковые сценарии. Специалисты по защите информации, которым нужны расширенные возможности для легитимных целей вроде исследования уязвимостей или пентестинга, могут пройти верификацию через программу Cyber Verification Program. Цифра в бенчмарке воспроизведения уязвимостей у новой модели даже немного снизилась. 73.1 процента против 73.8. Anthropic подтверждает, что во время обучения применялись методы избирательного снижения именно этих способностей. Технологический прогресс иногда требует шага назад в отдельных направлениях ради общей безопасности экосистемы.
Цены остались прежними но расход токенов вырос из-за обновлённого токенизатора
Стоимость использования через API составляет пять долларов за миллион входных токенов и двадцать пять долларов за миллион выходных. Точно так же, как у Opus 4.6. На первый взгляд приятный сюрприз. Более мощная модель по той же цене встречается нечасто. Однако обновлённый токенизатор добавляет 1.0 - 1.35 раза к фактическому расходу токенов на том же объёме текста. Эффективная стоимость запроса выросла, даже если каждый отдельный токен стоит столько же.
Для интенсивной работы компания предлагает механизмы оптимизации. Кэширование промптов даёт экономию до девяноста процентов при повторных обращениях. Batch API режет расходы вдвое как на вход, так и на выход. Опубликованная стратегия Advisor предлагает гибридный подход, при котором Sonnet 4.6 выполняет основную работу, а Opus подключается только к самым сложным подзадачам. По внутренним замерам Anthropic такая схема снижает расходы на агентную задачу примерно на двенадцать процентов.
Модель доступна через официальный API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, Snowflake Cortex AI и GitHub Copilot Enterprise. Подписчики Claude Pro, Max, Team и Enterprise получили обновление автоматически. Контекстное окно осталось на уровне миллиона входных токенов и 128 тысяч выходных. Один из неожиданных моментов - полная замена прежних бюджетов мышления на адаптивный режим. Параметр budget_tokens теперь возвращает ошибку 400, вместо него система сама подстраивает глубину размышления под сложность запроса.
Что этот релиз означает для разработчиков и индустрии ИИ в целом
Картина получается любопытная. На пике капитализации Anthropic выпускает модель, которую сама называет "менее широко способной" чем её собственный топовый продукт. Стратегия необычная, но рабочая. Mythos остаётся инструментом для избранных, а разработчики и корпоративные клиенты получают модель, доведённую до состояния, в котором ей можно доверить самую сложную работу. Rakuten отмечает трёхкратный рост решённых задач, CodeRabbit фиксирует прирост recall более чем на десять процентов при стабильной точности, Hex хвалит честность модели в признании пробелов в данных.
Конкуренция обостряется. GPT-5.4 от OpenAI удерживает лидерство в веб-поиске (BrowseComp 89.3 против 79.3 у Opus 4.7). Gemini 3.1 Pro остаётся сильнее в задачах с длинным контекстом и существенно дешевле - примерно два доллара за миллион входных токенов. Однако на корпоративных тестах знаниевой работы GDPVal-AA Opus 4.7 демонстрирует Elo-рейтинг 1753 против 1674 у GPT-5.4 и 1314 у Gemini. Разрыв с Google в этой нише не просто ощутим - он драматичен.
Команды, работающие с кодовыми агентами, финансовой аналитикой или автоматизацией действий на компьютере, получили повод для апгрейда. Тем, кому важна работа с веб-исследованиями, стоит присмотреться к GPT-5.4. Выбор модели перестаёт быть выбором одной универсальной системы на все случаи жизни. Каждая из них становится специалистом в своей области, и грамотный инженер теперь подбирает инструмент под задачу. Похоже, следующая волна развития ИИ-ассистентов будет двигаться именно в эту сторону. К узкой специализации и всё более дисциплинированному, предсказуемому поведению на длинных автономных задачах.