О качестве вообще – как оценивать
Под качеством все понимают разное. Поэтому прежде всего надо определить критерии, по которым мы будем оценивать качество данных. Этот один из возможных подходов (который мы увидели логичным и осмысленным), возможны и другие варианты. Оставляйте свои комментарии, давайте обсудим!
Зачем оценивать? После проведения тестов на уровень качества данных в той или иной базе, можно легко составить список системных недостатков и ошибок, которые становятся основаниями для планирования проектов по улучшению проверяемой базы.
Оценка качества данных не решает проблему, она лишь её диагностирует и помогает найти решение.
Итак, рассмотрим информационные системы в разрезах следующих характеристик:
· Полнота
· Достоверность
· Актуальность
· Уникальность
· Согласованность
1. Полнота
Полноту данных можно оценить по следующим показателям:
· Доля заполненности – процент внесённых атрибутов.
· Доля объектов учета – процент внесённых в информационный ресурс объектов от общей массы учёта.
· Доля территории – процент площади территории (от всей декларируемой), реально отражённой в информационном ресурсе.
Хорошо, когда можно сравнить выборку из одной информационной системы с аналогичной из другой. Так, например, адресная база Яндекс.Карт примерно на 15% больше Федеральной адресной системы (ФИАС), кроме того ФИАС имеет ряд дублирующихся записей, поэтому реальная разница в количестве внесённых домов больше.
При этом необходимо помнить, что поля, кажущиеся обязательными к заполнению, могут совершенно легитимно быть пустыми, например, поле «улица». Оказывается, бывают адреса без улиц: «г. Москва, г. Зеленоград, корпус 416» – это совершенно корректный адрес.
2. Достоверность
Частными показателями, характеризующими достоверность данных, являются:
· Корректность записи - доля несоответствия атрибутов реальным значениям, выявленным по результатам исследования.
· Соответствие данных эталонному источнику, определённому в документе «Реестр видов данных».
· Достоверность данных в произвольный момент времени.
Если говорить про ФИАС, то бывает, что в нём присутствует дом, которого нет в действительности. Часто такая ситуация может быть связана с актуальностью данных: дома может не быть в реальности, потому что он сгорел, но данные не были обновлены.
В реальности в основу записей в ФИАС кладутся данные представителей ЖКХ и муниципальных властей, которые могут искажаться из-за ручного ввода данных, невнимательности/неопытности ответственных сотрудников.
Проверять достоверность данных ФИАС можно, например, по данным ГИС ЖКХ, Яндекс.Картам и, в случае расхождений, – осуществлять инвентаризацию на месте.
3. Актуальность
Актуальность данных в информационном ресурсе можно оценивать по следующим показателям:
· Периодичность актуализации данных.
· Доля формально актуальных данных/записей данных в составе массива данных.
· Коэффициент готовности информационного ресурса/массива данных (отношение времени пребывания в актуальном/нормативном состоянии к времени пребывания в неактуальном или неопределенном состоянии).
· Коэффициент длительности обработки, проверки ошибок, согласования и внесения данных в информационный ресурс.
· Среднее время ожидания обслуживания/средняя продолжительность операции синхронизации изменений в реплицируемом ресурсе.
В ФИАС есть большое количество архивных данных (они именуются там «историческими»), например, в Московской области доля исторических записей составляет 75% от всех записей, т.е. на каждую актуальную запись приходится около трёх исторических.
Понятно, что инвентаризовать все записи каждый год-два невозможно, а актуальность поддерживать необходимо. Выход – тесная работа с другими системами и организациями, которые обладают оперативной информацией.
4. Уникальность
Уникальность, понимаемая как отсутствие дублирования данных, определяется по следующим показателям:
· Доля дублирующихся записей, содержащих сведения об одних и тех же идентифицируемых объектах учета, различающихся значениями единичных атрибутов, не несущих идентифицирующей нагрузки.
· Доля дублирующихся записей, содержащих сведения об одних и тех же идентифицируемых объектах учета, незначительно различающихся атрибутивным составом.
· Доля записей, содержащих противоречивые сведения об одних и тех же идентифицируемых объектах учета.
· Доля дублирующихся атрибутов, имеющих одинаковую или близкую семантику.
В ФИАС чаще всего дубликаты имеют незначительно различающийся атрибутивный состав, например, один и тот же дом номер «3» в ФИАС может отражаться несколькими вариантами: «3», «3/1», «3/2» и т.д. При обнаружении таких записей их нужно сверять с фактическим положением и данными других систем, содержащих адреса.
5. Согласованность
Данные должны логически или по смыслу «сочетаться» друг с другом. Тут можно выделить такие показатели:
· Доля использования альтернативного обозначения для атрибутов, снабженных стандартизованным обозначением (требования ФЛК).
· Доля нестандартных наименований объектов учета (наличие или отсутствие справочников).
· Формальная точность (определяется разностью значения атрибута и возможно допустимого значения атрибута, установленного на этапе проектирования).
В ФИАС, ввиду слабого автоматизированного контроля ввода данных на начальных этапах формирования, есть много дублирующих записей, которые отличаются, например, нестандартными наименованиями объекта учёта: может быть заведено несколько записей на один и тот же объект, который будет то «В. Волошиной 9/24», то «Веры Волошиной, 9 к.24», то «ул. Волошиной 9 к.24», то «ул. Волошиной 9/24». Скачут корпуса, дроби, «ул»/«улица» и прочие значения обязательных полей.