Найти в Дзене
Дата Сайентист

Построение модели в Data Science

Моделирование — это этап в методологии науки о данных, на котором дата сайентист имеет возможность создать модель и проверить её на предмет соответствия поставленной исследовательской задаче.

В описательной методологии Data Science Джона Роллинза структура проведения исследования предназначена для выполнения трёх задач:

  • во-первых, понять поставленный вопрос,
  • во-вторых, выбрать аналитический подход или метод решения проблемы,
  • в-третьих, получить, понять, подготовить и смоделировать данные.

Конечная цель - привести специалиста Data Science в точку, где можно построить модель, дающую актуальные ответы.

Modeling

Моделирование — это этап в методологии науки о данных, на котором дата сайентист имеет возможность создать модель и проверить её на предмет соответствия поставленной исследовательской задаче.

Моделирование фокусируется на разработке моделей четырёх типов:

1. Описательные (Descriptive).

2. Диагностические (Diagnostic).

3. Прогнозные (Predictive).

4. Предписывающие (Prescriptive).

Их соотношение в структуре аналитики представлено на рисунке.

Data Science Analytics
Data Science Analytics

Описывая модели, попробуем ответить на два ключевых вопроса:

1. Какова цель моделирования данных.

2. Каковы характеристики этого процесса?

Описательная модель собирает прошлые данные для ответа на вопрос: «Что случилось?». Цель этой модели в том, чтобы выявлять события и формировать данные для последующего анализа.

Диагностическая модель, отвечая на вопрос: «Почему это случилось?», служит цели поиска тенденции, закономерности, причинно-следственных связей исходя из статистического анализа имеющихся прошлых данных. Она даёт результат в виде: если человек сделал событие А, то с определённой вероятностью, он предпочтёт событие Б.

Прогнозная модель отвечает на вопрос: «Что случится?». На основании найденных закономерностей прогнозная модель делает предсказание о будущих событиях. Она базируется на статистике и машинном обучении, и даёт результат в виде ответов: «будет - не будет», «да-нет», «стой-иди».

Предписывающая модель отвечает на вопрос «Как можно это сделать?». Модель при помощи машинного обучения и алгоритмов искусственного интеллекта анализирует накопленные данные, чтобы найти оптимальные решения, которые приведут в будущем к желаемому результату.

Моделирование в науке о данных предназначено для того, чтобы ответить на основные вопросы Герцена: «Кто виноват?» и «Что делать?». Возможно, если бы искусственный интеллект существовал 150 лет назад, то декабристы не разбудили Герцена, и революции не произошло.

Следующие этапы методологии: оценка модели, развёртывание и цикл обратной связи, гарантируют, что ответ близок и актуален. Эта актуальность имеет решающее значение для исследования в области науки о данных.