Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

⚡️ Anthropic выкатили Opus 4.7

⚡️ Anthropic выкатили Opus 4.7 Что поменялось: - лучше держит длинные задачи - точнее следует инструкциям - валидирует ответы перед выдачей То есть меньше «галлюцинаций на уверенном лице» и меньше необходимости перепроверять руками По бенчмаркам относительно 4.6: - SWE Bench Pro +11% - SWE Bench Verified +7% - Terminal Bench 2.0 +4% Без сюрпризов, но стабильный рост. Модель явно двигают в сторону автономной работы где её можно дольше держать в цикле без постоянного контроля Цифры ниже, чем у Mythos но это ожидаемо, там другая история с метриками и позиционированием https://x.com/claudeai/status/2044785261393977612 @machinelearning

⚡️ Anthropic выкатили Opus 4.7

Что поменялось:

- лучше держит длинные задачи

- точнее следует инструкциям

- валидирует ответы перед выдачей

То есть меньше «галлюцинаций на уверенном лице»

и меньше необходимости перепроверять руками

По бенчмаркам относительно 4.6:

- SWE Bench Pro +11%

- SWE Bench Verified +7%

- Terminal Bench 2.0 +4%

Без сюрпризов, но стабильный рост.

Модель явно двигают в сторону автономной работы

где её можно дольше держать в цикле без постоянного контроля

Цифры ниже, чем у Mythos

но это ожидаемо, там другая история с метриками и позиционированием

https://x.com/claudeai/status/2044785261393977612

@machinelearning