От разработчиков часто можно услышать, что успех решения напрямую зависит от количества и качества исходных данных. Но как понять, сколько данных нужно и каких? Рассказывает ведущий разработчик машинного обучения в Embedika Иван Меньших. Плохие и хорошие данные Любое DS-решение критически зависит от данных. В их отсутствии решить проблему, как правило, невозможно (но, конечно, бывают и исключения). Возникает вопрос: а как понять, насколько «хороши» те данные, которыми мы располагаем? Как ни странно, чтобы ответить на него, поделитесь данными с теми, кто планирует внедрить вам ML-based решение и попросите их оценить. Таким образом, вы получите: ● Конкретные комментарии, что хорошо/плохо ● Вопросы о том, как вы их собираете и обрабатываете, что может повлечь рациональные предложения со стороны подрядчика по улучшению данного процесса — они заинтересованы, чтобы их решение работало хорошо ● Если повезёт — демо с комментариями, как именно текущие проблемы с данными влияют на результа