В процессе оценки производительности модели часто используется показатель количества ошибок, который обычно снижается с ростом производительности.Хайтек+

Однако в 2018 году исследователи обнаружили, что некоторые модели показывают другое поведение, называемое двойным спуском или W-образной кривой.Хайтек+

Год спустя исследователи, показали, что феномен двойного спуска встречается чаще не только с увеличением размера моделей, но и при использовании больших объемов обучающих данных или долгом обучении.Хайтек+

Ученым важно, подкреплен ли ИИ классической статистикой, поскольку лучшее теоретическое понимание поможет создать более эффективные и предсказуемые инструменты.Хайтек+

Дуглас Хэвен: «Никто толком не знает, почему работают большие языковые модели»