11,5 тыс подписчиков

⚡️ Anthropic выкатили Opus 4.7

16 апреля16 апр

~1 мин

⚡️ Anthropic выкатили Opus 4.7 Что поменялось: - лучше держит длинные задачи - точнее следует инструкциям - валидирует ответы перед выдачей То есть меньше «галлюцинаций на уверенном лице» и меньше необходимости перепроверять руками По бенчмаркам относительно 4.6: - SWE Bench Pro +11% - SWE Bench Verified +7% - Terminal Bench 2.0 +4% Без сюрпризов, но стабильный рост. Модель явно двигают в сторону автономной работы где её можно дольше держать в цикле без постоянного контроля Цифры ниже, чем у Mythos но это ожидаемо, там другая история с метриками и позиционированием https://x.com/claudeai/status/2044785261393977612 @machinelearning

Что поменялось:

- лучше держит длинные задачи

- точнее следует инструкциям

- валидирует ответы перед выдачей

То есть меньше «галлюцинаций на уверенном лице»

и меньше необходимости перепроверять руками

По бенчмаркам относительно 4.6:

- SWE Bench Pro +11%

- SWE Bench Verified +7%

- Terminal Bench 2.0 +4%