26 подписчиков

Новый Opus 4.8: что изменилось и почему это важно

28 мая28 мая

1 мин

Anthropic выпустила Opus 4.8 — обновление, которое не выглядит революционным, но заметно подчищает углы и добавляет несколько полезных функций. Главная перемена — модель стала в четыре раза реже пропускать баги в собственном коде. Раньше Opus мог «не заметить» ошибку и бодро сообщить об успехе, теперь с этим стало строже. Важное направление — алайнмент. Команда отмечает, что Opus 4.8 показывает новые максимумы по просоциальным чертам: поддержка автономии пользователя и действия в его интересах теперь реализованы лучше. Это не просто слова — модель действительно стала аккуратнее в сложных ситуациях. На бенчмарках тоже есть сдвиг. На Online-Mind2Web (тест для браузерных агентов) Opus 4.8 набирает 84% — ощутимый рост по сравнению с предыдущей версией и даже с GPT-5.5. На Legal Agent Benchmark — первая модель, которая преодолела 10% по строгому all-pass стандарту. Остальные показатели тоже немного выросли. Цены остались прежними, fast-режим стоит вдвое дороже обычного. В целом, Opus 4.8 —

Оглавление

Что улучшили
Новые функции

Anthropic выпустила Opus 4.8 — обновление, которое не выглядит революционным, но заметно подчищает углы и добавляет несколько полезных функций. Главная перемена — модель стала в четыре раза реже пропускать баги в собственном коде. Раньше Opus мог «не заметить» ошибку и бодро сообщить об успехе, теперь с этим стало строже.

Что улучшили

Важное направление — алайнмент. Команда отмечает, что Opus 4.8 показывает новые максимумы по просоциальным чертам: поддержка автономии пользователя и действия в его интересах теперь реализованы лучше. Это не просто слова — модель действительно стала аккуратнее в сложных ситуациях.

На бенчмарках тоже есть сдвиг. На Online-Mind2Web (тест для браузерных агентов) Opus 4.8 набирает 84% — ощутимый рост по сравнению с предыдущей версией и даже с GPT-5.5. На Legal Agent Benchmark — первая модель, которая преодолела 10% по строгому all-pass стандарту. Остальные показатели тоже немного выросли.

Новые функции

Effort control — теперь в claude.ai и Cowork рядом с выбором модели появился ползунок «усилия». На высоких значениях модель думает глубже, на низких — отвечает быстрее и экономит лимиты. По умолчанию стоит high, для сложных задач есть extra и max.
Dynamic workflows в Claude Code (research preview): модель сама планирует работу, запускает сотни параллельных сабагентов, верифицирует результат и только потом отчитывается. Это рассчитано на задачи вроде миграции больших кодовых баз.
Fast mode — скорость выросла в 2,5 раза, а стоимость снизилась втрое по сравнению с предыдущими моделями.
Messages API теперь поддерживает system-записи внутри массива messages. Это позволяет обновлять инструкции агенту прямо по ходу задачи, не ломая prompt cache.

Цены остались прежними, fast-режим стоит вдвое дороже обычного. В целом, Opus 4.8 — не про громкие анонсы, а про аккуратную работу над ошибками и полезные доработки для тех, кто пользуется моделью каждый день.

Нейро Отличник www.neurootlichnik.ru