Найти тему
Фабрика данных

Что такое Data-driven?

Если отвечать на вопрос, что такое Data-driven к, то дословно это «Движимый данными», то есть принимать решения на основе данных. Так или иначе все решения принимаются в бизнесе на основе данных, но здесь суть именно в том, что решения принимаются всеми и на основании единого источника данных, которому все доверяют, исходя из следующих определений:

  • Мы готовы инвестировать в работу с данными: извлечение, хранение, анализ, интерпретацию, визуализацию и прочее. Готовы тратить деньги и время
  • Мы готовы слушать данные. Т.е. когда нужно принять бизнес-решение мы останавливаемся и говорим сами себе — давайте посмотрим на числа.
  • Мы умеем понимать данные. Действительно, бывает ужасающе просто сделать неправильный вывод, имея на руках все необходимые цифры. Как ни крути, есть некоторые минимальные требования к аналитическому мышлению лиц, принимающих решения, чтобы извлечь смысл из таблиц, графиков и диаграмм.
  • Мы доверяем данным и руководствуемся ими при принятии решений. Когда менеджер, глядя на подготовленный аналитический отчет, говорит, что он лучше сделает так, как ему подсказывает опыт, а не отчет, то он необязательно не прав. А вдруг аналитики не учли сезональность, результаты грядущих выборов или еще что-то? Тут важен диалог между менеджерами и аналитиками, доверие друг к другу.

Если говорить про путь построения Data-Driven компании, то здесь можно выделить следующие шаги:

  1. Аудит текущих решений и понимание  отправной точки
  2. Организация хранения данных
  3. Организация правильных интеграций\ETL для корректного получения и отправки данных
  4. Гармонизация и обработка мастер-данных
  5. Валидация используемых данных
  6. Визуализация используемых данных
  7. Обогащение новыми данными
  8. *Построение новых моделей для data-mining

Теперь чуть подробнее про каждый из этих этапов:

Аудит текущих решений и понимания отправной точки

На первоначальном этапе нужно понять с чем мы вообще имеем дело на данный момент и от чего мы будем стартовать. Здесь нужно будет понять все информационные системы, которые мы используем в процессе работы, где генерируется какая-либо полезная информация (полезная она или нет определять сейчас не важно, лучше чтобы информация началась собираться заранее, чем когда она понадобится какое-то время спустя, а возможности быстро получить ее не будет). Изучите все системы учёта, бухгалтерские и финансовые системы, Excel Файлы с которыми работают Ваши коллеги - важно знать все.

Организация хранения данных

На данном этапе нужно определить как и где будут храниться Ваши данные: это может быть локальные парк серверов или арендованный сервер в ЦОД (если Вы не готовы сразу инвестировать в инфраструктуру). Плюсы своей инфраструктуры: это в первую очередь безопасность. В плане надёжности все же хороший Центр Обработки Данных выиграет, там как никак существенно больше денег вложено в оборудование, это их профиль деятельности. Также, нужно определить что будет являться Системой Управления Базами Данных: здесь выбор от коммерческих платформ от глобальных производителей до бесплатных решений с открытым кодом

Организация правильных интеграций и ETL для корректного получения и отправки данных

Есть, где хранить данные и принято решение строить Data-driven компанию? Настройте правильное получение данных - их интеграцию из программ, файлов или хранилищ от Ваших клиентов, от софта, который вы используете. Запустите правильное обновление данных и их передачу в Ваше хранилище. ETL - extract, transfer, load (извлечь, передать, загрузить). Можно настроить как своими силами, так и привлечь компании, которые берут данный процесс на аутсорс. Есть неплохие решения для процесса загрузки любых файлов в Ваше хранилище, например решение SellOut+ от компании ICS

Гармонизация и обработка мастер-данных

Мастер-данные это вообще одна из важнейших вещей в работе с данными. Если у Вас много показателей о продажах, цифры обновляются ежедневно, а вы не можете точно ответить в каком именно городе Вы видите всплеск продаж или какое правильное название клиента, который генерирует эти продажи Вам, потому что в Вашем справочнике данных совсем нет порядка, это не очень в стиле Data-Driven компании. Мастер-данные нужно содержать в идеальном порядке: при получении сразу обрабатывать, текущие данные содержать в актуальном состоянии, архивные и неиспользуемые своевременно удалять. Есть даже специальные сервисы, например MDT (Master-Data Tool) от компании ICS

Валидация используемых данных

Используемые данные нужно регулярно проверять (валидировать). Здесь может быть как настроена некая автовалидация  самой системой хранения: сравнение получаемых значений с предыдущими на предмет наличия полного набора или сравнение с эталонными значениями. 

Либо же вовлечь сам бизнес в этот процесс самым простым путём - отдать данные в использование и у Вас будет несколько пар глаз, которые их будут регулярно проверять при ежедневной работе.

Визуализация используемых данных

Да, безусловно, есть всевозможные инструменты для быстрого получения нужных ответов из данных такие как кубы и сводные таблицы, но бывают ситуации, когда один и тот же взгляд на данные нужен нескольким сотрудникам, тогда здесь уже рождаются отчёты и дэшбоарды, работа которых строится на BI системах. Здесь снова можно взять как глобальное решение либо посмотреть в сторону гибких отечественных решений на базе open-source вроде DataFabrika BI, которое сможете очень тонко заточить под потребности любого бизнеса.

Обогащение новыми данными

Когда-то наступает момент, что Вы понимаете, что тех данных, с которыми Вы работаете, Вам мало. Например, Вы хотите знать информацию о конкурентах, а она не рождается внутри 1С, которую использует Ваша организация или хотите получать своевременно информацию о появлении новых тендеров на Госзакупках или видеть движение алкогольной продукции из системы ЕГАИС. Оцените качество этих данных, оцените их полезность, сделайте несколько тестов, используя эти данные и определите какие точно смогут принести пользу. На данном этапе мы уже взрослые и понимаем какие данные могут представлять ценность. Всегда ищите новые источники данных - это может быть все что угодно: данные РосСтата о плотности населения и уровню дохода, База данных института Джона Хопкинса с данными о Короновирусе, web-site Вашего конкурента, где представлены его товары и цены. Не забывайте про настройку ETL и обработку мастер-данных.

*Построение новых моделей для data-mining.

Высший пилотаж. Специально поставили под звездочкой как опциональный шаг, но это уже не выглядит как чудо, а про искусственный интеллект и машинное обучение трубят уже и так из каждого утюга.  Здесь мы уже начинаем получать выгоду из Ваших данных: либо получением новых инсайтов для получения дополнительной прибыли на основе работе нашего алгоритма искусственного интеллекта и мы делаем шаг быстрее конкурентов, либо путём оптимизации каких-то рабочих процессов путём применения машинного обучения и сокращаем таким образом затраты. 

Если ко все этому ещё добавить процесс непрерывного совершенствования ваших систем, регулярного возвращения к тому или иному шагу из этого списка, понимание того, что поддержка данных систем требует инвестиций, но и помогает заработать прибыль и вы хотите двигаться дальше - это точно Data-driven компания. 

Вы можете как пройти данный путь сами, используя свой внутренний штат из команды ИТ, в можете обратиться к профессионалам - мы поможем вам пройти этот путь вместе

Фабрика Данных