От разработчиков часто можно услышать, что успех решения напрямую зависит от количества и качества исходных данных. Но как понять, сколько данных нужно и каких? Рассказывает ведущий разработчик машинного обучения Иван Меньших в новом выпуске авторской колонки «Data science в реальном мире».
Плохие и хорошие данные
Любое DS-решение критически зависит от данных. В их отсутствии решить проблему, как правило, невозможно (но, конечно, бывают и исключения). Возникает вопрос: а как понять, насколько «хороши» те данные, которыми мы располагаем?
Как ни странно, чтобы ответить на него, поделитесь данными с теми, кто планирует внедрить вам ML-based решение и попросите их оценить. Таким образом, вы получите:
● Конкретные комментарии, что хорошо/плохо
● Вопросы о том, как вы их собираете и обрабатываете, что может повлечь рациональные предложения со стороны подрядчика по улучшению данного процесса — они заинтересованы, чтобы их решение работало хорошо
● Если повезёт — демо с комментариями, как именно текущие проблемы с данными влияют на результат.
Очень важно делиться наиболее репрезентативными данными, ведь вас интересует решение, которое сможет работать с реальными данными. Это поможет избежать популярной проблемы «решение хорошо работает на демо, но в ‘диком мире' выдаёт совершенно непригодный результат».
Сколько данных нужно
Следующий возникающий вопрос: а сколько нужно данных, чтобы получить достоверное понимание о качестве решения? Короткий ответ: чем больше — тем лучше, и это сильно зависит от поставленной задачи.
На практике же, процесс происходит итерационно:
● Вы делитесь данными с подрядчиком. Как правило, это небольшой кусок данных, например 100-200 примеров
● Подрядчик готовит решение на основе этих данных
● На демо показываются как формальные метрики, так и качество работы решения «на глаз» (не стоит недооценивать популярную метрику wtf)
● Вы даёте подрядчику новые данные и процесс повторяется до тех пор, пока вы не будете довольны результатом или подрядчик сдастся.
Как правило, именно такой подход позволяет получить наилучшее решение, а также лучше понять ваши данные.
Колонка автора выходит регулярно в телеграм-канале Embedika. Хотите обсудить тему с автором или задать вопрос — пишите на info@embedika.ru, мы читаем почту каждый день.