По какому же алгоритмы разрабатывают задачи в ML? Есть две методологии. В основной идее они очень схожи, но имеют одно важное отличие. Это отличие и разделило их на "до" и "после".
Общая схема одинакова. Самое первое - это мы определяем бизнес требования, здесь необходимо пообщаться с заказчиком, а может быть и не раз, выяснить все нюансы и разобрать все данные. Вторым шагом проектируется система, выдвигаем гипотезы, проверяем их и делаем готовый продукт. Когда проект готов мы его реализуем, затем, четвёртым шагом, тестируем. После отправляем в продакшн и осуществляем поддержку нашего продукта.
Методологии разработки задач:
- Каскадная методология waterfall
- Гибкая методология agil
В случае каскадной метрологии мы четко следуем всем этапам. Идём шаг за шагом по схеме и не можем возвращаться обратно ни на шаг. А выбирая гибкую методологию мы можем возвращаться назад хоть к первому пункту схемы, тут мы можем и добирать данные, и выдвигать новые гипотезы и здесь мы имеем более тесное общение с заказчиком.
Именно из-за этого колоссального различия каскадная методология waterfall устарела и больше не используется. В настоящее время применяют только гибкую методологию agil.
Почему?
Потребность в новой методологии возникла из-за того, что вообще сам Data Science это проверка гипотез, первые гипотезы после проверки могут быть неверны и тогда мы возвращаемся обратно и разрабатываем новые гипотезы или новые гипотезы могут возникнуть в ходе проверок других гипотез. Так же не представляется возможным заранее определить все требования к предварительному анализу данных. Опять же может понадобиться вернуться к данным, что-то уточнить, где-то дополнить.
P.S. Если, нашли ошибки, недочёты или хотите дополнить сказанное, всегда рада конструктивному мнению специалистов.