Анализ данных бывает описательный, диагностический, исследовательский, основанный на выводах, прогностический, причинно-следственный, механистический и предписывающий. Вот что вам нужно знать о каждом из них.
Анализ данных — это аспект науки о данных и аналитики данных, который сводится к анализу для различных целей. Процесс анализа данных включает в себя проверку, очистку, преобразование и моделирование данных для извлечения из них полезной информации.
Благодаря своим многочисленным аспектам, методологиям и техникам анализ данных используется в самых разных областях, включая бизнес, науку и социологию. Поскольку предприятия процветают под влиянием технологических достижений в области анализа данных, анализ данных играет огромную роль в принятии решений, обеспечивая лучшую, более быструю и действенную систему, которая минимизирует риски и уменьшает предубеждения человека.
Тем не менее, существуют разные виды анализа данных, предназначенные для разных целей. Мы рассмотрим каждый из них ниже.
Два лагеря анализа данных
Анализ данных можно разделить на два лагеря:
- Генерация гипотез — это глубокий анализ данных и объединение ваших знаний в предметной области для генерации гипотез о том, почему данные ведут себя именно так.
- Подтверждение гипотезы — использование точной математической модели для создания ошибочных прогнозов с использованием статистической изощренности для проверки ваших предположений.
Типы анализа данных
Анализ данных может быть разделен и организован по типам, расположенным в порядке возрастания сложности.
- Описательный анализ
- Диагностический анализ
- Исследовательский анализ
- Логический анализ
- Прогнозный анализ
- Причинно-следственный анализ
- Механистический анализ
- Предписывающий анализ
1. ОПИСАТЕЛЬНЫЙ АНАЛИЗ
Целью описательного анализа является описание или обобщение набора данных. Вот что вам нужно знать:
- Описательный анализ — это самый первый анализ, выполняемый в процессе анализа данных.
- Он генерирует простые сводки об образцах и измерениях.
- Он включает в себя общие описательные статистические данные, такие как показатели центральной тенденции, изменчивости, частоты и положения.
Пример описательного анализа
Возьмем, к примеру, любую страницу статистики, где линейный график представляет собой сводную информацию о случаях и их описание (например, статистика по заболеваниям в любой стране).
Описательный анализ — это первый шаг в анализе, на котором вы суммируете и описываете имеющиеся у вас данные с помощью описательной статистики, и результатом является простое представление ваших данных.
2. ДИАГНОСТИЧЕСКИЙ АНАЛИЗ
Диагностический анализ направлен на то, чтобы ответить на вопрос “Почему это произошло?” путем более глубокого изучения данных для выявления тонких закономерностей. Вот что вам нужно знать.:
- Диагностический анализ обычно проводится после описательного анализа, на основе первоначальных выводов и изучения причин возникновения определенных закономерностей в данных.
- Диагностический анализ может включать анализ других связанных источников данных, включая прошлые данные, чтобы получить более полное представление о текущих тенденциях в области обработки данных.
- Диагностический анализ идеально подходит для дальнейшего изучения закономерностей в данных с целью объяснения аномалий.
Пример диагностического анализа
Обувной магазин хочет проанализировать уровень посещаемости своего веб-сайта за предыдущие 12 месяцев. После сбора и оценки данных маркетинговая команда компании обнаружила, что в июне уровень трафика был выше среднего, в то время как в июле и августе уровень трафика был несколько ниже.
Чтобы выяснить, почему произошло это различие, команда маркетинга изучает его глубже. Члены команды разбивают данные, чтобы сосредоточиться на конкретных категориях обуви. В июне они обнаружили, что страницы с сандалиями и другой пляжной обувью набрали большое количество просмотров, в то время как в июле и августе эти показатели снизились.
Маркетологи могут также проанализировать другие факторы, такие как сезонные изменения и события, связанные с продажами компании, чтобы понять, могли ли другие переменные повлиять на эту тенденцию.
3. ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ (EDA)
Исследовательский анализ включает в себя изучение данных и нахождение взаимосвязей между переменными, которые ранее были неизвестны. Вот что вам нужно знать:
- EDA помогает вам обнаруживать взаимосвязи между показателями в ваших данных, которые не являются доказательством существования корреляции, как обозначается фразой “Корреляция не подразумевает причинно-следственную связь”.
- Это полезно для обнаружения новых связей и формирования гипотез. Это стимулирует планирование проекта и сбор данных.
Пример поискового анализа
Изменение климата становится все более важной темой, поскольку с годами глобальная температура постепенно повышается. Один из примеров предварительного анализа данных об изменении климата включает в себя анализ повышения температуры за период с 1950 по 2020 год и увеличения человеческой деятельности и индустриализации для выявления взаимосвязей на основе данных.
Например, вы можете увеличить количество заводов, автомобилей на дорогах и рейсов самолетов, чтобы увидеть, как это коррелирует с повышением температуры.
Исследовательский анализ исследует данные для нахождения взаимосвязей между показателями без определения причины. Он наиболее полезен при формулировании гипотез.
4. ЛОГИЧЕСКИЙ АНАЛИЗ
Логический анализ предполагает использование небольшой выборки данных для вывода информации о большей совокупности данных.
Цель статистического моделирования сама по себе заключается в использовании небольшого объема информации для экстраполяции и обобщения информации на большую группу. Вот что вам нужно знать.:
- Логический анализ предполагает использование оценочных данных, которые являются репрезентативными для совокупности и дают меру неопределенности или стандартное отклонение для вашей оценки.
- Точность выводов в значительной степени зависит от вашей схемы выборки. Если выборка не является репрезентативной для генеральной совокупности, обобщение будет неточным. Это известно как центральная предельная теорема.
Пример логического вывода
Идея сделать вывод о населении в целом при меньшем размере выборки интуитивно понятна. Многие статистические данные, которые вы видите в СМИ и Интернете, основаны на выводах; прогноз события на основе небольшой выборки. Например, в психологическом исследовании о пользе сна может быть задействовано в общей сложности 500 человек. Когда они наблюдали за кандидатами, те сообщили, что у них улучшилась общая концентрация внимания и самочувствие при семи-девяти часах сна, в то время как те, у кого было меньше сна и больше сна, чем в заданном диапазоне, страдали от снижения концентрации внимания и энергии. Это исследование, проведенное с участием 500 человек, составляло лишь крошечную часть из 7 миллиардов человек в мире и, таким образом, является выводом о большей численности населения.
Логический анализ экстраполирует и обобщает информацию большей группы на меньшую выборку для получения анализа и прогнозов.
5. ПРОГНОЗНЫЙ АНАЛИЗ
Прогнозный анализ включает в себя использование исторических или текущих данных для поиска закономерностей и составления прогнозов на будущее. Вот что вам нужно знать:
- Точность прогнозов зависит от входных переменных.
- Точность также зависит от типов моделей. Линейная модель может хорошо работать в некоторых случаях, а в других - нет.
- Использование переменной для прогнозирования другой не указывает на причинно-следственную связь.
Пример прогностического анализа
Выборы в США 2020 года — популярная тема, и многие модели прогнозирования построены для прогнозирования победившего кандидата. FiveThirtyEight сделали это, чтобы спрогнозировать выборы 2016 и 2020 годов. Для анализа прогнозирования выборов потребуются входные переменные, такие как исторические данные опроса, тенденции и текущие данные опроса, чтобы получить хороший прогноз. В чем-то таком крупном, как выборы, будет использоваться не просто линейная модель, а сложная модель с определенными настройками, которые наилучшим образом соответствуют ее назначению.
Прогнозный анализ использует данные из прошлого и настоящего, чтобы делать прогнозы на будущее.
6. ПРИЧИННО-СЛЕДСТВЕННЫЙ АНАЛИЗ
Причинно-следственный анализ рассматривает причинно-следственные связи между переменными и направлен на поиск причины корреляции. Вот что вам нужно знать:
- Чтобы найти причину, вы должны усомниться в достоверности наблюдаемых корреляций, определяющих ваш вывод. Простой просмотр поверхностных данных не поможет вам обнаружить скрытые механизмы, лежащие в основе корреляций.
- Причинно-следственный анализ применяется в рандомизированных исследованиях, направленных на выявление причинно-следственной связи.
- Причинно-следственный анализ — это золотой стандарт в анализе данных и научных исследованиях, где причина явления должна быть извлечена и выделена, подобно отделению зерен от шелухи.
- Надежные данные трудно найти, и они требуют дорогостоящих исследований. Эти исследования анализируются в совокупности (несколькими группами) и наблюдаемые взаимосвязи представляют собой всего лишь усредненные эффекты (mean) для всей совокупности. Это означает, что результаты могут быть применимы не ко всем.
Пример причинно-следственного анализа
Допустим, вы хотите проверить, улучшает ли новый препарат силу человека и концентрацию внимания. Для этого вы проводите рандомизированные контрольные испытания препарата для проверки его эффекта. Вы сравниваете выборку кандидатов на ваш новый препарат с кандидатами, получившими макет контрольного препарата, с помощью нескольких тестов, ориентированных на силу и общую сосредоточенность. Это позволит вам увидеть, как препарат влияет на результат.
Причинно-следственный анализ заключается в выявлении причинно-следственной связи между переменными и изучении того, как изменение одной переменной влияет на другую.
7. МЕХАНИСТИЧЕСКИЙ АНАЛИЗ
Механистический анализ используется для понимания точных изменений в переменных, которые приводят к другим изменениям в других переменных. Вот что вам нужно знать:
- Применяется в физических или инженерных науках, в ситуациях, требующих высокой точности и небольшого права на ошибку, только шум в данных является ошибкой измерения.
- Оно предназначено для понимания биологического или поведенческого процесса, патофизиологии заболевания или механизма действия вмешательства.
Пример механистического анализа
Многие исследования на уровне выпускников и сложные темы являются подходящими примерами, но, проще говоря, допустим, проводится эксперимент по имитации безопасного и эффективного ядерного синтеза для обеспечения энергией мира.
Механистический анализ исследования повлек бы за собой точный баланс контроля переменных и манипулирования ими с высокоточными показателями обеих переменных и желаемых результатов. Именно такой сложный и скрупулезный подход к этим важным темам позволяет совершать научные прорывы и развивать общество.
Механистический анализ в некотором смысле является прогностическим анализом, но модифицированным для проведения исследований, требующих высокой точности и тщательных методологий для физических или инженерных наук.
8. ПРЕДПИСЫВАЮЩИЙ АНАЛИЗ
Директивный анализ собирает информацию из других предыдущих анализов данных и определяет действия, которые команды или компании могут предпринять для подготовки к прогнозируемым тенденциям. Вот что вам нужно знать:
- Предписывающий анализ может проводиться сразу после прогностического анализа, но он может включать в себя объединение множества различных анализов данных.
- Компаниям нужны передовые технологии и множество ресурсов для проведения директивного анализа. Системы искусственного интеллекта, обрабатывающие данные и корректирующие автоматизированные задачи, являются примером технологии, необходимой для выполнения директивного анализа.
Пример предписывающего анализа
Предписывающий анализ широко распространен в повседневной жизни, стимулируя потребление пользователями кураторского контента в социальных сетях. На таких платформах, как TikTok и Instagram, алгоритмы могут применять предписывающий анализ для анализа прошлого контента, с которым взаимодействовал пользователь, и типов поведения, которое они проявляли при размещении конкретных постов. На основе этих факторов алгоритм ищет похожий контент, который, вероятно, вызовет такой же отклик, и рекомендует его в личной ленте пользователя.
Когда использовать различные типы анализа данных
- Описательный анализ обобщает имеющиеся данные и представляет их в понятном виде.
- Диагностический анализ позволяет более детально изучить данные, чтобы выявить, почему возникают определенные закономерности, что делает его хорошим методом для объяснения аномалий.
- Предварительный анализ данных поможет вам обнаружить корреляции и взаимосвязи между переменными в ваших данных.
- Логический анализ предназначен для обобщения большей совокупности данных при меньшем размере выборки.
- Прогнозный анализ помогает вам делать прогнозы на будущее с помощью данных.
- Причинно-следственный анализ подчеркивает поиск причины корреляции между переменными.
- Механистический анализ предназначен для измерения точных изменений в переменных, которые приводят к другим изменениям в других переменных.
- Директивный анализ объединяет выводы из различных анализов данных для разработки плана действий, который команды и компании могут предпринять, чтобы извлечь выгоду из прогнозируемых результатов.
Несколько важных советов по анализу данных:
- Корреляция не подразумевает причинно-следственной связи.
- EDA помогает обнаруживать новые связи и формировать гипотезы.
- Точность вывода зависит от схемы выборки.
- Хороший прогноз зависит от правильных входных переменных.
- Простая линейная модель с достаточным количеством данных обычно делает свое дело.
- Использование переменной для прогнозирования другой не указывает на причинно-следственные связи.
- Надежные данные трудно найти, и для их получения требуются дорогостоящие исследования.
- Результаты исследований представлены в совокупности, являются усредненными эффектами и могут применяться не ко всем.