Машинное обучение очень интересная и крайне полезная сфера. Как и в любом деле, в разработке моделей возникают сложности, проблемы. Посмотрим как примерно должно распределяться время на этапы разработки.
- определить бизнес-требования - 5%
- сбор данных и их предобработка - 80%
- разработка модели и её обучение - 10%
- тестирование модели - 2%
- внедрение модели - 2%
Теперь поговорим о возможных проблемах при разработке:
У нас есть примерное представление как должно распределяться время на каждый этап. Но. Никогда не угадаешь как будет на самом деле, сколько времени на какой этап понадобится. Это первая проблема - заранее не ясно сколько времени закладывать на разработку.
Сделать лучшую рабочую модель с первого раза невозможно. При этом настоящую пользу для бизнеса модель будет приносить только после внедрения. Это еще две проблемы.
Так же может возникнуть проблема, если предобработке было уделено мало времени и внимания. В таком случае мы получим плохие данные.
Иногда, когда вам кажется, что процесс занимает мало времени стоит ещё раз всё перепроверить. Возможно были учтены не все бизнес-требования, данные были плохо исследованы, может быть просто недостаточно данных.
Как можно помочь при разработке модели?
Очень здорово, если у вас есть команда разработчиков и внутри неё распределены роли. Так каждый занимается своим делом, у каждого своя специализация. Хорошо начинать исследование с большого количества маленьких гипотез. Важно выбрать подходящую именно под вашу модель метрику. Очень удобно и полезно искать уже готовые решения и лишь подгонять их под ваши нужды. Не нужно усложнять, а нужно быть терпеливым.
P.S. Если, нашли ошибки, недочёты или хотите дополнить сказанное, всегда рада конструктивному мнению специалистов.