Дата-инженер международной компании Михаил Мокшанов рассказал об инновационных инструментах, которые помогают усовершенствовать сбор и аналитику больших данных.
Глобальная датасфера – единое информационное пространство – неуклонно расширяется. В 2011 году было сгенерировано 1,8 зеттабайт информации. К 2025-му, по прогнозам аналитических агентств, общий объем данных в мире составит от 175 до 200 зеттабайт. Данные представляют собой исключительную ценность для бизнеса, они необходимы для стратегического планирования и достижения конкурентных преимуществ. Но чтобы воспользоваться этими преимуществами, требуется владение современными инструментами сбора, хранения и анализа данных, говорит эксперт в этой области Михаил Мокшанов. В прошлом Михаил разрабатывал и внедрял проекты, обеспечивающие работу с большими данными, для «Внуковских авиалиний» и федеральных государственных ведомств, включая МЧС России, а сегодня занимает позицию дата-инженера в израильском стартапе Maelys со штаб-квартирой в Нью-Йорке.
Хранение и целостность данных
Для сбора данных компании использует внешние и внутренние источники: во-первых, – это СМИ, соцсети, блоги, форумы и т. п., во-вторых, – свои собственные архивы, базы данных, хранилища. Обеспечение целостности данных и управление их объемом – один из главных вызовов, с которыми сегодня сталкиваются дата-инженеры. Для этого цифровые активы могут переноситься в облако, объясняет Михаил Мокшанов.
В зону ответственности Михаила входит руководство присутствием данных компании на облачных платформах, обеспечивающих их сохранность и удобство доступа для аналитики. Он также управляет их миграцией: своевременное обновление системы хранения данных необходимо для эффективной работы бизнеса.
«В зависимости от потребностей бизнеса, моя команда и я занимаемся миграцией данных, – рассказывает Михаил. – Год назад было принято стратегическое решение об уходе из локальных хранилищ данных и Microsoft Azure. В результате было перенесено центральное аналитическое хранилище и все связанные с ним пайплайны в Google Cloud Platform. Теперь на очереди миграция транзакционной системы из Azure SQL Server на Amazon RDS».
Михаил Мокшанов создал и внедрил решения, обеспечившие миграцию данных, целью которой была централизация хранения данных компании и аналитики, собираемой с сайта Maelys при помощи Google Analytics. Чтобы обеспечить возможность обработки данных в новой технологической среде, Михаил решил сложную задачу по переписыванию кода. Благодаря его участию данные Google Analytics были успешно интегрированы с остальной частью системы, что сыграло ключевую роль в бизнес-решениях компании, позволив более оперативно и точно реагировать на изменения рынка.
Контроль качества данных
Анализ больших данных может давать ошибочные результаты, если в систему попадают данные плохого качества, – ситуация, достаточно вероятная из-за постоянно растущего объема и разнообразия собираемых данных. Чтобы обеспечить безошибочность интерпретации результатов, Михаил Мокшанов применяет в своей работе инструменты с использованием машинного обучения, повышающие качество анализируемых данных. Этот подход используется в том числе при работе с веб-сайтом Maelys.
«Каждое действие пользователя отслеживается, фиксируется и собирается с сайта с помощью скрипта Google Analytics, а затем транслируется в хранилище данных на BigQuery в таблицу events, – объясняет эксперт. – Задача состоит в извлечении из этих данных полезной информации. Например, бизнесу хочется построить на основании этих данных собственную модель атрибуции. Первый шаг к этому – выделить из полученных данных уникальных пользователей, покупателей».
Для этого Михаил применяет разнообразные методы идентификации – от id-сессии, геолокации, содержимого корзины и временного интервала до версии используемого программного обеспечения и cookies. После успешной идентификации следует присвоение каждому пользователю уникальных идентификаторов, отбраковка неполных или «рваных» данных и удаление дубликатов.
Операция, называемая «повышением качества» анализируемых данных, направлена на улучшение точности интерпретации результатов. В маркетинге этот процесс имеет высокое значение: качество данных напрямую влияет на принятие решений о показе рекомендаций, что, в свою очередь, сказывается на эффективности рекламных кампаний.
В результате автоматизации и точной обработки сырых данных с использованием внедренных Михаилом инструментов...