Добавить в корзинуПозвонить
Найти в Дзене
НИИ Антропогенеза

Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека с бюджетом 4-8 часов на 5 из 6 задач

Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека с бюджетом 4-8 часов на 5 из 6 задач Провалила только создание нового компилятора, человеку требовалось 40 часов Anthropic выпустила Opus 4.5. Релиз содержит несколько неожиданных находок в системной карте, которые указывают на качественные сдвиги в поведении фронтир -моделей Насколько близко к автоматизации AI R&D? Внутренний опрос 18 активных пользователей Claude Code: - Медианное ускорение работы: 2x - Ни один участник не считает, что модель может полностью заменить младшего исследователя Opus 4.5 набрала больше баллов, чем любой человек-кандидат за всю историю компании, на внутреннем двухчасовом техническом экзамене для performance engineer Opus 4.5 — первая публичная модель, где лаборатория официально признаёт: «Наши бенчмарки больше не работают, и мы держимся от ASL-4 только на человеческом экспертном мнении»

Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека с бюджетом 4-8 часов на 5 из 6 задач

Провалила только создание нового компилятора, человеку требовалось 40 часов

Anthropic выпустила Opus 4.5. Релиз содержит несколько неожиданных находок в системной карте, которые указывают на качественные сдвиги в поведении фронтир -моделей

Насколько близко к автоматизации AI R&D?

Внутренний опрос 18 активных пользователей Claude Code:

- Медианное ускорение работы: 2x

- Ни один участник не считает, что модель может полностью заменить младшего исследователя

Opus 4.5 набрала больше баллов, чем любой человек-кандидат за всю историю компании, на внутреннем двухчасовом техническом экзамене для performance engineer

Opus 4.5 — первая публичная модель, где лаборатория официально признаёт:

«Наши бенчмарки больше не работают, и мы держимся от ASL-4 только на человеческом экспертном мнении»