Найти в Дзене
Дай знать!

ОЦЕНКА КАЧЕСТВА ДАННЫХ В ИНФОРМСИСТЕМАХ

О качестве вообще – как оценивать Под качеством все понимают разное. Поэтому прежде всего надо определить критерии, по которым мы будем оценивать качество данных. Этот один из возможных подходов (который мы увидели логичным и осмысленным), возможны и другие варианты. Оставляйте свои комментарии, давайте обсудим! Зачем оценивать? После проведения тестов на уровень качества данных в той или иной базе, можно легко составить список системных недостатков и ошибок, которые становятся основаниями для планирования проектов по улучшению проверяемой базы. Оценка качества данных не решает проблему, она лишь её диагностирует и помогает найти решение. Итак, рассмотрим информационные системы в разрезах следующих характеристик: · Полнота · Достоверность · Актуальность · Уникальность · Согласованность 1. Полнота Полноту данных можно оценить по следующим показателям: · Доля заполненности – процент внесённых атрибутов. · Доля объектов учета – процент внесённых в информационный ресурс объектов от общей м
Оглавление
Иллюстрация: сайт Depositphotos
Иллюстрация: сайт Depositphotos

О качестве вообще – как оценивать

Под качеством все понимают разное. Поэтому прежде всего надо определить критерии, по которым мы будем оценивать качество данных. Этот один из возможных подходов (который мы увидели логичным и осмысленным), возможны и другие варианты. Оставляйте свои комментарии, давайте обсудим!

Зачем оценивать? После проведения тестов на уровень качества данных в той или иной базе, можно легко составить список системных недостатков и ошибок, которые становятся основаниями для планирования проектов по улучшению проверяемой базы.

Оценка качества данных не решает проблему, она лишь её диагностирует и помогает найти решение.

Итак, рассмотрим информационные системы в разрезах следующих характеристик:

· Полнота

· Достоверность

· Актуальность

· Уникальность

· Согласованность

1. Полнота

Полноту данных можно оценить по следующим показателям:

· Доля заполненности – процент внесённых атрибутов.

· Доля объектов учета – процент внесённых в информационный ресурс объектов от общей массы учёта.

· Доля территории – процент площади территории (от всей декларируемой), реально отражённой в информационном ресурсе.

Хорошо, когда можно сравнить выборку из одной информационной системы с аналогичной из другой. Так, например, адресная база Яндекс.Карт примерно на 15% больше Федеральной адресной системы (ФИАС), кроме того ФИАС имеет ряд дублирующихся записей, поэтому реальная разница в количестве внесённых домов больше.

При этом необходимо помнить, что поля, кажущиеся обязательными к заполнению, могут совершенно легитимно быть пустыми, например, поле «улица». Оказывается, бывают адреса без улиц: «г. Москва, г. Зеленоград, корпус 416» – это совершенно корректный адрес.

2. Достоверность

Частными показателями, характеризующими достоверность данных, являются:

· Корректность записи - доля несоответствия атрибутов реальным значениям, выявленным по результатам исследования.

· Соответствие данных эталонному источнику, определённому в документе «Реестр видов данных».

· Достоверность данных в произвольный момент времени.

Если говорить про ФИАС, то бывает, что в нём присутствует дом, которого нет в действительности. Часто такая ситуация может быть связана с актуальностью данных: дома может не быть в реальности, потому что он сгорел, но данные не были обновлены.

В реальности в основу записей в ФИАС кладутся данные представителей ЖКХ и муниципальных властей, которые могут искажаться из-за ручного ввода данных, невнимательности/неопытности ответственных сотрудников.

Проверять достоверность данных ФИАС можно, например, по данным ГИС ЖКХ, Яндекс.Картам и, в случае расхождений, – осуществлять инвентаризацию на месте.

3. Актуальность

Актуальность данных в информационном ресурсе можно оценивать по следующим показателям:

· Периодичность актуализации данных.

· Доля формально актуальных данных/записей данных в составе массива данных.

· Коэффициент готовности информационного ресурса/массива данных (отношение времени пребывания в актуальном/нормативном состоянии к времени пребывания в неактуальном или неопределенном состоянии).

· Коэффициент длительности обработки, проверки ошибок, согласования и внесения данных в информационный ресурс.

· Среднее время ожидания обслуживания/средняя продолжительность операции синхронизации изменений в реплицируемом ресурсе.

В ФИАС есть большое количество архивных данных (они именуются там «историческими»), например, в Московской области доля исторических записей составляет 75% от всех записей, т.е. на каждую актуальную запись приходится около трёх исторических.

Понятно, что инвентаризовать все записи каждый год-два невозможно, а актуальность поддерживать необходимо. Выход – тесная работа с другими системами и организациями, которые обладают оперативной информацией.

4. Уникальность

Уникальность, понимаемая как отсутствие дублирования данных, определяется по следующим показателям:

· Доля дублирующихся записей, содержащих сведения об одних и тех же идентифицируемых объектах учета, различающихся значениями единичных атрибутов, не несущих идентифицирующей нагрузки.

· Доля дублирующихся записей, содержащих сведения об одних и тех же идентифицируемых объектах учета, незначительно различающихся атрибутивным составом.

· Доля записей, содержащих противоречивые сведения об одних и тех же идентифицируемых объектах учета.

· Доля дублирующихся атрибутов, имеющих одинаковую или близкую семантику.

В ФИАС чаще всего дубликаты имеют незначительно различающийся атрибутивный состав, например, один и тот же дом номер «3» в ФИАС может отражаться несколькими вариантами: «3», «3/1», «3/2» и т.д. При обнаружении таких записей их нужно сверять с фактическим положением и данными других систем, содержащих адреса.

Форма поиска ФИАС  https://fias.nalog.ru/ExtendedSearchPage.aspx
Форма поиска ФИАС https://fias.nalog.ru/ExtendedSearchPage.aspx

5. Согласованность

Данные должны логически или по смыслу «сочетаться» друг с другом. Тут можно выделить такие показатели:

· Доля использования альтернативного обозначения для атрибутов, снабженных стандартизованным обозначением (требования ФЛК).

· Доля нестандартных наименований объектов учета (наличие или отсутствие справочников).

· Формальная точность (определяется разностью значения атрибута и возможно допустимого значения атрибута, установленного на этапе проектирования).

В ФИАС, ввиду слабого автоматизированного контроля ввода данных на начальных этапах формирования, есть много дублирующих записей, которые отличаются, например, нестандартными наименованиями объекта учёта: может быть заведено несколько записей на один и тот же объект, который будет то «В. Волошиной 9/24», то «Веры Волошиной, 9 к.24», то «ул. Волошиной 9 к.24», то «ул. Волошиной 9/24». Скачут корпуса, дроби, «ул»/«улица» и прочие значения обязательных полей.