В описательной методологии Data Science Джона Роллинза структура проведения исследования предназначена для выполнения трёх задач:
- во-первых, понять поставленный вопрос,
- во-вторых, выбрать аналитический подход или метод решения проблемы,
- в-третьих, получить, понять, подготовить и смоделировать данные.
Конечная цель - привести специалиста Data Science в точку, где можно построить модель, дающую актуальные ответы.
Modeling
Моделирование — это этап в методологии науки о данных, на котором дата сайентист имеет возможность создать модель и проверить её на предмет соответствия поставленной исследовательской задаче.
Моделирование фокусируется на разработке моделей четырёх типов:
1. Описательные (Descriptive).
2. Диагностические (Diagnostic).
4. Предписывающие (Prescriptive).
Их соотношение в структуре аналитики представлено на рисунке.
Описывая модели, попробуем ответить на два ключевых вопроса:
1. Какова цель моделирования данных.
2. Каковы характеристики этого процесса?
Описательная модель собирает прошлые данные для ответа на вопрос: «Что случилось?». Цель этой модели в том, чтобы выявлять события и формировать данные для последующего анализа.
Диагностическая модель, отвечая на вопрос: «Почему это случилось?», служит цели поиска тенденции, закономерности, причинно-следственных связей исходя из статистического анализа имеющихся прошлых данных. Она даёт результат в виде: если человек сделал событие А, то с определённой вероятностью, он предпочтёт событие Б.
Прогнозная модель отвечает на вопрос: «Что случится?». На основании найденных закономерностей прогнозная модель делает предсказание о будущих событиях. Она базируется на статистике и машинном обучении, и даёт результат в виде ответов: «будет - не будет», «да-нет», «стой-иди».
Предписывающая модель отвечает на вопрос «Как можно это сделать?». Модель при помощи машинного обучения и алгоритмов искусственного интеллекта анализирует накопленные данные, чтобы найти оптимальные решения, которые приведут в будущем к желаемому результату.
Моделирование в науке о данных предназначено для того, чтобы ответить на основные вопросы Герцена: «Кто виноват?» и «Что делать?». Возможно, если бы искусственный интеллект существовал 150 лет назад, то декабристы не разбудили Герцена, и революции не произошло.
Следующие этапы методологии: оценка модели, развёртывание и цикл обратной связи, гарантируют, что ответ близок и актуален. Эта актуальность имеет решающее значение для исследования в области науки о данных.