Mythos Preview показал рекордный горизонт выполнения задач

9 мая9 мая

~1 мин

metr протестировали mythos preview на бенчмарке для оценки горизонта выполнения задач. Модель превзошла предыдущие результаты: для 50% вероятности успеха требуется не менее 16 часов работы (у opus 4.6 — 12 часов). Для 80% вероятности — 3 часа, что вдвое больше, чем у gemini 3.1 pro (1,5 часа). В бенчмарке мало задач, требующих 16+ часов работы, поэтому точные цифры ограничены. metr сообщают о работе над новым набором более длинных задач, но отмечают сложность регулярного создания задач длительностью 50 часов и более. «— Даже если собрать такие задачи, всего два удвоения горизонта (16→32→64 часа) снова приведут к ограничению по выборке». https://dzen.ru/id/5c0e38ff46ef5c00aaa80527

В бенчмарке мало задач, требующих 16+ часов работы, поэтому точные цифры ограничены. metr сообщают о работе над новым набором более длинных задач, но отмечают сложность регулярного создания задач длительностью 50 часов и более.

«— Даже если собрать такие задачи, всего два удвоения горизонта (16→32→64 часа) снова приведут к ограничению по выборке».

https://dzen.ru/id/5c0e38ff46ef5c00aaa80527