Дуглас Хэвен: «Никто толком не знает, почему работают большие языковые модели»

В процессе оценки производительности модели часто используется показатель количества ошибок, который обычно снижается с ростом производительности.Хайтек+
Однако в 2018 году исследователи обнаружили, что некоторые модели показывают другое поведение, называемое двойным спуском или W-образной кривой.Хайтек+
Год спустя исследователи, показали, что феномен двойного спуска встречается чаще не только с увеличением размера моделей, но и при использовании больших объемов обучающих данных или долгом обучении.Хайтек+
Ученым важно, подкреплен ли ИИ классической статистикой, поскольку лучшее теоретическое понимание поможет создать более эффективные и предсказуемые инструменты.Хайтек+