Найти в Дзене

Анализ данных - приступаем к процессу

Оглавление

Если достаточно долго мучить данные, они признаются. Во всем.

Рональд Коуз - экономист, лауреат Нобелевской премии

Как провести результативный анализ? Какие существуют виды анализа? Какие показатели использовать?

Как оформить грамотную презентацию?

Отвечая на эти вопросы в статье, я разберу не способы анализа и технические аспекты, а цель самого анализа: к какому результату мы стремимся и какими средствами статистики и визуализации пользуемся.

Что такое анализ данных?

Само слово анализ происходит от греческого ἀνά [ana] + λύω [luō], означает освобождать/распутывать.

Современное определение:

Анализ — преобразование данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий.

Аналитические выводы - это понимание конкретных причин и следствий в контексте событий. В Digital-сфере их часто называют Insight . Сегодня само слово инсайт используется не по назначению очень часто, но если разобраться в синонимах, простое обобщение и использование его где ни попадя, исчезнет. Синонимы инсайта в английском языке:

  • информация
  • озарение
  • самоанализ
  • проницательность
  • причинно-следственность

Данные, информация, знания - что такое анализ?

Следующий пример с просторов интернета, но дает хорошее объяснение:

  • Данные - представляют собой сырые, необработанные факты об окружающем мире.
  • Информация - собранные, обработанные данные, в то время как
  • Знания - набор ментальных моделей и убеждений об окружающем мире, который сформировался на основе информации, полученной на протяжении какого-то периода времени.
Температура на данный момент составляет 6 °С. - Это количественный факт. Он существует и соответствует действительности вне зависимости от того, зафиксировал ли его кто-то. К сожалению, этот факт бесполезен из-за отсутствия контекста (когда? где?), он не позволяет сделать никаких выводов.
В Москве 2 ноября 2022 года в 10 утра температура составила 6 °С.* - У этих данных есть контекст. Однако это по-прежнему лишь констатация факта без интерпретации.
Температура 6 °С гораздо ниже климатической нормы. - Это информация. Мы обработали данные и объединили их с другими данными, чтобы определить понятие климатической нормы и оценить, как соотносятся значения.
При температуре 6 °С на улице прохладно, я надену пальто. -Теперь мы объединили информацию за какой-то период времени и построили мыслительную модель, что это означает. Это знания.

Конечно, все эти модели относительны. Например, житель Якутии может посчитать температуру 6 °С в ноябре не по сезону теплой. Исходя из глубины информации выстраивается понимание и контекст. Это и есть концептуальное представление анализа.

Виды анализа данных

Все виды анализа можно разделить на 6 типов, ни один из них не может существовать в отрыве от другого. Каждый будет компилироваться с любым другим из списка:

  • описательный
  • разведочный
  • индуктивный
  • прогностический
  • каузальный
  • механистический

Последний, механистический анализ мы не будем рассматривать, он чаще всего относится к фундаментальным наукам, когда на протяжении многих лет изучается стабильная система с помощью экспериментов, а на основе полученных данных строится механистическое моделирование.

-2

Описательный анализ

Описательный анализ обычно бывает первым шагом - возможностью познакомиться с данными перед переходом к более глубокому анализу.

Считается самым простым анализом, обеспечивает нас количественными данными и их описанием, на его основе формируются данные в дашбордах, например: количество кликов, сессий на сайте, выручка и т.д.

На этом уровне анализа, проводящий его специалист должен знать, по какому критерию следует группировать данные, и понимать, когда какие-то данные выделяются из общей массы и представляют интерес.

Например: вам интересно выяснить, почему настолько велика доля женщин возраста 25-35 лет, совершающих покупки, в западном регионе страны.

При работе с вашими показателями, описательный анализ может включать меры ассоциации, например вычисление коэффициентов корреляции двух или нескольких метрик. Об этом поговорим позже.

Разведочный анализ

Применение графиков для визуализации и изучения данных получило название разведочного анализа данных, подтверждающего или опровергающего ваши предположения. Помните фразу Аршавина: "Ваши ожидания ваши проблемы" :) - чтобы не столкнуться с ней в реальности разведочный анализ устраняет факторы плохого качества и достоверности данных, дает интуитивное понимание ситуации и способы взаимоотношений этих данных.

Весь этот набор луп для изучения системы данных: круговые диаграммы, линейные графики, графики плотности и др. - инструменты разедочного анализа. Используйте их грамотно в каждом случае, типы визуализаций выбирайте только для концептуально подходящих под них метрик.

Это помогает специалисту по анализу данных выдвинуть новые гипотезы, понять какими рычагами вы можете воспользоваться для улучшения показателей, например выручки или конверсии. Кроме того, разведочный анализ способен показать пробелы в наших знаниях и определить, что можно сделать для их ликвидации.

Индуктивный анализ

Очень важное направление - статистические исследования. Но моя статья не учебное пособие по статистике, поэтому просто разберем индуктивный анализ и его применение.

Цель индуктивного анализа - логическое извлечение информации. Кроме того, он обеспечивают основу для тестирования гипотез, на основе которых можно разрабатывать и проводить эксперименты, A/B тестирования и т.д.

Зачем нужны статистические выводы индуктивного анализа? Как правило, мы делаем выводы обо всей совокупности данных на основе небольшой статистической выборки, так как полный сбор данных бывает слишком дорогим, непрактичным, а иногда и просто невозможным.

Например: если вы обеспечиваете проверку качества производимой продукции и проводите испытания с разрушением опытного образца, очевидно, что вы не сможете протестировать подобным образом абсолютно всю продукцию, иначе вам просто нечего будет продавать.

Статистические выводы обеспечивают ответы на следующие вопросы (но не ограничиваются ими):

  • статистическая погрешность - насколько можно быть уверенным в этой выгрузке или в ее части? Насколько будет отличаться значение, если провести повторный анализ?
  • математическое ожидание - насколько полученное среднее значение отличается от ожидаемого?
  • разница средних значений - насколько сильно отличаются средние значения по двум выборкам?
  • размер выборки - Каким должен быть минимальный размер выборки, учитывая, что мне уже известно о процессе, чтобы достигнуть определенного уровня уверенности в качестве данных?
  • распределение данных - соответствует ли распределение значений в этой выборке нормальному распределению?
  • критерий ассоциированности - в случае с метриками количества покупок и выручки по конкретной категории продукта, соответствует ли частота или число (например, покупок) ожидаемой частоте? Наблюдается ли взаимосвязь между двумя метриками?

Прогностический анализ

Для малого и среднего бизнеса построить статистическую прогнозную модель не составит никакого труда используя Excel. Загружаете готовую выборку и он делает вам прогноз на необходимый период времени вперед. Я не буду вдаваться в подробности, на площадке youtube много роликов по запросу как строить прогнозы в Excel.

Разберемся в практической пользе прогнозного анализа.

Прогнозы относительно будущего, дело неблагодарное, но крайне необходимое. Прогностический анализ строится на индуктивном. Разработать прогнозную модель можно только на четко выверенных статистических данных полученных после индукции.

На первый взгляд прогнозы представляются нам магией гидрометцентра или вуду, не меньше. Никто не знает, пойдет ли завтра дождь в центре Новосибирска 100% или нет, будет ли землетрясение в Турции и сможем ли мы продать 100 пакетов молока в своем супермаркете в ближайшую пятницу. А если сюда еще привязать "Черных лебедей", которые навещают нас каждые пол года, то вообще строить прогнозы кажется просто глупым занятием.

К счастью суть природы такова, что она всегда хочет вернуться к скользящей средней (термин из трейдинга). Жизнь продолжает идти, люди делают покупки, ходят на фитнес, живут, невзирая на катаклизмы, потери близких, войны и политические решения. Да, стрессы бывают, но они занимают малую долю на графике продаж если вы не сдаетесь.

Какие бывают прогнозы?

  • формирующие основу сервиса (разработка сайта знакомств, приложения для фитнеса и т.д.)
  • обеспечивающие более высокий уровень обслуживания для клиентов (качество менеджмента, лояльность)
  • Прогнозы, способные обеспечить более высокий уровень конверсии и размер корзины (кросс-продажи, улучшение юзабилити сайта)
  • прогнозы, способствующие улучшению стратегии (корректировка работы вашей системы бизнеса)

Прогностический анализ весьма эффективен, но не обязательно сложен. Намного сложнее получить качественный набор данных на этапе индуктивного анализа.

Каузальный, причинно-следственный анализ

Если вы проведете сбор данных, а затем разведочный анализ, чтобы выявить интересные взаимосвязи, то, скорее всего, что-нибудь обнаружите. Однако не стоит думать, что каждая связь двух метрик существует по принципу - одна обуславливает другую.

Если вы видите корреляцию между количеством заказов и количеством кликов по рекламе, то это не значит, что завтра прибавив бюджета в кабинете Яндекс директа пойдет рост продаж. Скорее будет банальный перерасход. Возможно причина корреляции была в сезонности продаж, а клики просто совпали с реальной конверсией в продажу.

В другом случае вы видите зависимость между отказами (оборванная сессия на сайте) и добавлением в арсенал рекламных кампаний РСЯ по геолокации. Тут вы точно столкнулись с некачественным трафиком и устраните причину.

-3

Заключение

С точки зрения ведения бизнеса, все это выглядит как имитация бурной деятельности по анализу данных и разработке моделей. Важно понять, делается это не по прихоти руководства! Цель анализа - поддержка основных показателей, таких как уровни просмотров, конверсии, выручка и другие критические метрики.

На этапе создания аналитической системы нужно правильно выстроить фокус и анализируемые метрики. В противном случае вы будете оптимизировать не то, что надо.

Объемный получился материал :) Удачи в анализе!