Найти в Дзене
IT Vibe

​​ИИ ускоряется — но измерять этот прогресс становится всё сложнее

Epoch AI выпустила годовой отчёт за 2025 год, посвящённый своему Epoch Capabilities Index — индексу, который пытается количественно измерить «умственные способности» передовых ИИ-моделей. Главный вывод звучит впечатляюще: в 2024 году рост возможностей ИИ резко ускорился. Если в предыдущие годы лучшие модели прибавляли около 8 баллов в год, то с весны 2024 года темп вырос почти вдвое — до 15 баллов в год. Причём ускорение началось примерно в апреле, а не постепенно. Исследователи связывают это с двумя трендами: ростом популярности моделей интерпретации и тем, что ведущие лаборатории всё активнее делают ставку на обучение с подкреплением (RL), а не просто масштабирование данных и параметров. Но вместе с ускорением пришла новая проблема — сравнимость результатов. Epoch AI прямо говорит: даже если тест называется одинаково, это вовсе не означает, что результаты можно честно сравнивать. Мелкие детали вроде ключевых слов, параметров выборки, «скелетов» задач или даже способа подключения к

​​ИИ ускоряется — но измерять этот прогресс становится всё сложнее.

Epoch AI выпустила годовой отчёт за 2025 год, посвящённый своему Epoch Capabilities Index — индексу, который пытается количественно измерить «умственные способности» передовых ИИ-моделей. Главный вывод звучит впечатляюще: в 2024 году рост возможностей ИИ резко ускорился.

Если в предыдущие годы лучшие модели прибавляли около 8 баллов в год, то с весны 2024 года темп вырос почти вдвое — до 15 баллов в год. Причём ускорение началось примерно в апреле, а не постепенно. Исследователи связывают это с двумя трендами: ростом популярности моделей интерпретации и тем, что ведущие лаборатории всё активнее делают ставку на обучение с подкреплением (RL), а не просто масштабирование данных и параметров.

Но вместе с ускорением пришла новая проблема — сравнимость результатов. Epoch AI прямо говорит: даже если тест называется одинаково, это вовсе не означает, что результаты можно честно сравнивать. Мелкие детали вроде ключевых слов, параметров выборки, «скелетов» задач или даже способа подключения к API могут радикально менять итоговые оценки.

Особенно сильно это проявляется при измерении агентских и инструментальных способностей. Так называемые «скелеты» тестов иногда влияют на результат сильнее, чем реальные улучшения модели. А нестабильность и ошибки у поставщиков API вообще становятся одним из главных источников шума — иногда они искажают оценки сильнее, чем архитектурные различия между моделями.

ИИ действительно развивается быстрее, однако наши инструменты измерения за этим прогрессом не поспевают. А значит, любые рейтинги и сравнения нужно читать с большой долей скепсиса — особенно когда речь идёт о «прорывах».

#ИИ #AIResearch #EpochAI

🔳 IT Vibe News