Найти тему
Embedika

Какие данные нужны разработчикам

Оглавление

​​​​От разработчиков часто можно услышать, что успех решения напрямую зависит от количества и качества исходных данных. Но как понять, сколько данных нужно и каких? Рассказывает ведущий разработчик машинного обучения Иван Меньших в новом выпуске авторской колонки «Data science в реальном мире».

Плохие и хорошие данные

Любое DS-решение критически зависит от данных. В их отсутствии решить проблему, как правило, невозможно (но, конечно, бывают и исключения). Возникает вопрос: а как понять, насколько «хороши» те данные, которыми мы располагаем?

Как ни странно, чтобы ответить на него, поделитесь данными с теми, кто планирует внедрить вам ML-based решение и попросите их оценить. Таким образом, вы получите:

● Конкретные комментарии, что хорошо/плохо

● Вопросы о том, как вы их собираете и обрабатываете, что может повлечь рациональные предложения со стороны подрядчика по улучшению данного процесса — они заинтересованы, чтобы их решение работало хорошо

● Если повезёт — демо с комментариями, как именно текущие проблемы с данными влияют на результат.

Очень важно делиться наиболее репрезентативными данными, ведь вас интересует решение, которое сможет работать с реальными данными. Это поможет избежать популярной проблемы «решение хорошо работает на демо, но в ‘диком мире' выдаёт совершенно непригодный результат».

Сколько данных нужно

Следующий возникающий вопрос: а сколько нужно данных, чтобы получить достоверное понимание о качестве решения? Короткий ответ: чем больше — тем лучше, и это сильно зависит от поставленной задачи.

На практике же, процесс происходит итерационно:

● Вы делитесь данными с подрядчиком. Как правило, это небольшой кусок данных, например 100-200 примеров

● Подрядчик готовит решение на основе этих данных

● На демо показываются как формальные метрики, так и качество работы решения «на глаз» (не стоит недооценивать популярную метрику wtf)

● Вы даёте подрядчику новые данные и процесс повторяется до тех пор, пока вы не будете довольны результатом или подрядчик сдастся.

Как правило, именно такой подход позволяет получить наилучшее решение, а также лучше понять ваши данные.

Колонка автора выходит регулярно в телеграм-канале Embedika. Хотите обсудить тему с автором или задать вопрос — пишите на info@embedika.ru, мы читаем почту каждый день.