Исследование Epoch AI показало, что результаты тестов производительности ИИ сильно зависят от того, как именно проводится испытание. Во многих случаях важные детали редко раскрываются, но именно они заметно влияют на итоговые оценки. Специалисты делят источники ошибок на две части: настройка самого теста и способы обращения к модели. По данным Epoch AI, оба направления часто допускают неоднозначности, которые искажают финальные цифры. На примере публичного теста GPQA-Diamond исследование выявило: разные библиотеки используют разные параметры — например, температуру генерации. В одной библиотеке EleutherAI она равна 0.0, в OpenAI simple-evals — 0.5, а gpt-oss по умолчанию ставит 1.0. Разница в… Подробнее
Исследование: индустрия ИИ продолжает использовать устаревшие бенчмарки
10 января10 янв
~1 мин