Найти в Дзене
ProGorodSamara

Российские ученые из МФТИ научились определять идеальный объем данных для ИИ

   freepik
freepik

Учёные из МФТИ разработали два подхода для определения оптимального объёма данных для машинного обучения. Они предлагают оценивать изменение «уверенности» модели в параметрах при добавлении или удалении данных с помощью двух математических критериев: KL-дивергенции и s-score.

Эти методы основаны на анализе апостериорных распределений параметров. При нормальном распределении KL-дивергенция стремится к нулю, а s-score — к единице с увеличением выборки, что указывает на стабильность модели. Эксперименты на синтетических и реальных данных подтвердили эти выводы. Метод на основе KL-дивергенции требует больше данных, чем s-score.

Понимание момента достаточности данных экономит ресурсы на этапах сбора и обучения моделей, а также помогает планировать и мониторить процесс разработки систем ИИ, пишет science.