Здравствуйте!
Сегодня поговорим о данных, их качестве, способах и видах проверок, используемых для этого инструментах и последствиях некачественных данных.
Если верить википедии, данные – это зарегистрированная информация, представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств.
Для правильной интерпретации и предоставления заказчиками корректных данных, необходимо убедиться в их качестве. Это является необходимым этапом любого проекта, подразумевающего любой анализ данных, потому что иначе алгоритмы будут давать некорректные результаты.
Если планируется любое переиспользование данных, их нужно проверять, ведь их качество влияет и на принятие решений о дальнейших действиях, и на инвестиции, и на адаптацию к изменениям извне, и помогает понимать клиентов, и распределять ресурсы, и еще много чего.
А если переиспользовать данные не планируется – то зачем они вам вообще?
Качество данных - Data Quality - характеристика, показывающая степень пригодности данных к дальнейшему использованию, их соответствие предъявленным требованиям.
Например, если внезапно телефон покажет, что сегодня – сентябрь 2007 года, а доллар стоит 25 рублей, это будут однозначно некачественные данные. Ну или подтверждение работоспособности машины времени 😊
Обычно качество измеряют по нескольким критериям, чаще всего в совокупности: достоверность, точность, полнота, согласованность, доступность, надежность, своевременность, актуальность, уникальность и другие.
На пригодность данных для работы влияет сфера применения или направление отдела, который с ними работает, а также критерии оценки. Одни и те же данные могут быть пригодны для работы маркетинга, а для аналитиков – нет.
Данные в одной организации могут использоваться по-разному: для построения хранилищ данных, для дальнейшей переработки и построения витрин данных, для построения дашбордов с метриками качества данных, ведения справочников и предоставления информации конечному потребителю.
Один из основных вопросов, который появляется, когда принято решение о необходимости проверки данных – на что их проверять?
Для начала, рекомендуется провести профилирование имеющихся данных – узнать, какие данные есть, из каких источников поступают, как часто обновляются. Закрыты ли этими данными все требования, или их не хватает.
После профилирования становится понятно, где есть «просадки», «выбросы», на что нужно обратить особое внимание.
Обычно, начинают с проверок на дубликаты, на аномальные выбросы, на полноту данных, их целостность, точность, актуальность, уникальность и достоверность.
Затем добавляют уже точечно, нужные именно вашему процессу проверки – на объем, своевременность, доступность, согласованность и другие.
Список проверок может быть огромным, и какие именно данные и на что именно проверять – зависит от процессов, в которых эти данные используются и как часто обновляются, а еще от того, где, как и кем проверяются до вас.
Проверять данные можно по-разному.
Самый простой, но и самый затратный и не очень надёжный способ – смотреть глазами. Простой, потому что не требует никакого ПО или специальных навыков. Любой человек может сравнить дату, стоимость, количество строк, объем (например, в накладной 10 кг, а фактически 1 – это будет заметно), названия и другие важные параметры. Другое дело, что это занимает рабочее время, а человеческие ошибки никто не отменял.
Следующий способ – доверить проверки программе. Если в организации есть разработчик, можно его попросить написать несложные проверки по заданным параметрам, особенно если налажен электронный документооборот. Критерии проверок определяются обычно совместно, бизнес-подразделением и разработчиками, с учетом возможностей поставщиков данных.
На рынке предоставлено огромное количество готовых продуктов для проверки качества данных (Data Quality Software), открывается простор для выбора решений. Это и отечественные разработки, например, Platform V SDP DataQuality от Сбера, и IBM InfoSphere Information Server, и OpenRefine (он же Google Refine), и Informatica Data Quality, и Oracle Data Quality, и Microsoft Data Quality Services, и SAP Data Services, и Talend Data Fabric (Qlik), и Ab Initio, и множество других. Выбор зависит от того, какие задачи нужно решать, бюджета, критичности и особенностей проверяемых данных.
Кстати, нужно понимать, что любые автоматизированные проверки нужно тщательно настраивать, и на это тоже нужно время.
Что же будет, если не проверять данные, а просто использовать их?
В лучшем случае – вам повезет и данные будут проверены на стороне источника, например, если это какие-то официальные данные или поставщик данных берет на себя ответственность.
А в худшем – вы будете принимать решения, опираясь на некорректные данные, и можете понести финансовые и репутационные потери. Если в прогнозе погоды из раза в раз будет обещано солнышко, а фактически – холодный ветер с дождём, скорее всего вы перестанете доверять этому источнику. Если на ценнике написано 100 рублей, а на кассе выясняется, что 150 – неприятненько и можно начать обходить магазин стороной. Если вам обещали построить дом за месяц, вы продали квартиру и уже готовы въезжать, а от дома готов только фундамент – вероятно, впереди судебные тяжбы и поиск жилья.
Особенно важно проверять данные, если их используете не только вы сами, но и на основе ваших результатов строит свои стратегии кто-то другой. Именно от ваших решений и качества предоставляемых вами данных будет зависеть достижение результата конечным получателем данных.
Какая ситуация с некачественными данными вспоминается? Может, когда одноклассники пошутили и сказали, что ничего не задано, а вы получили двойку? А может, когда в магазине не хватило денег из-за изменения цен? Или вам понравилась красивая фотография, а на свидании ждал сюрприз? Что было у вас? 😉
Знакомы ли вы с этим направлением деятельности? Есть ли в вашей организации подразделение, занимающееся качеством данных?
Проверяете ли вы данные, которые используете? Поделитесь своим опытом.