Исследовательская организация METR опубликовала новые результаты для модели Claude Opus 4.5. Последняя версия ИИ от Anthropic показала рекордный результат — 50-процентный временной горизонт составил около 4 часов 49 минут. Этот показатель отражает, насколько продолжительной может быть задача, которую модель способна решить с заданной вероятностью успеха (в данном случае 50 процентов). Разница между уровнями сложности заметна. На уровне успешности 80 процентов временной горизонт сокращается до 27 минут, это примерно столько же, сколько у предыдущих моделей. Лучшие показатели Opus 4.5 проявляются на длинных заданиях. Теоретический максимум свыше 20 часов, вероятно, связан с небольшим объемом тестовых данных, отметили в… Подробнее
Claude Opus 4.5 от Anthropic решает задачи до пяти часов
21 декабря 202521 дек 2025
~1 мин