24 подписчика

ИИ достиг переломного момента: рост производительности и проблемы оценки

27 декабря 202527 дек 2025

1 мин

В отчете Epoch AI за 2025 год зафиксировано значительное ускорение развития искусственного интеллекта. Аналитики отмечают, что отрасль достигла «переломного момента»: скорость улучшения моделей, демонстрирующих наилучшие результаты (SOTA), увеличилась почти вдвое, с 8 до 15 пунктов индекса производительности в год. Основными факторами роста являются широкое внедрение ризонинг-моделей и усиленное внимание к обучению с подкреплением (RL), что позволяет ИИ достигать новых уровней логического мышления и адаптивности. В то же время, отчет указывает на серьезные проблемы с достоверностью бенчмарков. Прямое сравнение моделей затруднено из-за различий в используемых запросах, параметрах сэмплирования и программном обеспечении, несмотря на применение одинаковых тестовых данных. Особенно это заметно при оценке ИИ-агентов, где нестабильность API провайдеров вносит дополнительную погрешность в результаты. В результате, метрики новых моделей становятся подвержены ошибкам измерения и теряют свою объ

В то же время, отчет указывает на серьезные проблемы с достоверностью бенчмарков. Прямое сравнение моделей затруднено из-за различий в используемых запросах, параметрах сэмплирования и программном обеспечении, несмотря на применение одинаковых тестовых данных. Особенно это заметно при оценке ИИ-агентов, где нестабильность API провайдеров вносит дополнительную погрешность в результаты. В результате, метрики новых моделей становятся подвержены ошибкам измерения и теряют свою объективность, что подрывает доверие к традиционным методам оценки производительности ИИ.

Аналитики Epoch AI подчеркивают, что индустрия сейчас переживает период стремительного технологического прогресса, но при этом испытывает недостаток общепринятых стандартов тестирования. Это создает риск того, что успехи отдельных команд могут быть восприняты как преувеличенные или некорректно сопоставленные. Эксперты советуют разработчикам и исследователям уделять больше внимания возможности проверки и воспроизведения результатов, а также создавать универсальные методики оценки, которые будут отражать реальную эффективность моделей в различных ситуациях.