Найти в Дзене
Дай знать!

ФИАС ЛЕНИНГРАДСКОЙ ОБЛАСТИ: ОЦЕНКА КАЧЕСТВА ДАННЫХ

Ранее мы рассказывали об архитектуре Федеральной информационной адресной системы (ФИАС) и проводили тестовую оценку качества данных на основе записей Московской области. Сегодня мы займёмся экспресс-обследованием данных по Ленинградской области. Подготовка к обследованию Обозначим, что поле «Результат» в таблице будет содержать оценку на основе шкалы из "Методических рекомендаций по оценке параметров качества данных": Как и ранее, мы используем DBF выгрузку для проведения следующих тестов: Оценивать мы будем только актуальные записи, для чего отберём записи, имеющие статус (поле «ACTSTATUS») «Актуальный» и окончание действия записи (поле «ENDDATE») – где-то в далёком будущем. Тут мы сталкиваемся с аналогичной историей, которую видели в Московской области: у ряда «актуальных» записей срок действия уже в прошлом: У нас есть ещё 21 запись (что ничтожно мало, но факт), где срок действия ещё не истёк, но стоит атрибут «Историческая», что нелогично, однако: Оцениваем полноту данных в се
Оглавление

Ранее мы рассказывали об архитектуре Федеральной информационной адресной системы (ФИАС) и проводили тестовую оценку качества данных на основе записей Московской области.

Сегодня мы займёмся экспресс-обследованием данных по Ленинградской области.

Подготовка к обследованию

Обозначим, что поле «Результат» в таблице будет содержать оценку на основе шкалы из "Методических рекомендаций по оценке параметров качества данных":

  • более 30% ошибок- низкое;
  • меньше 30% ошибок, но более 2% - среднее;
  • менее 2% ошибок - высокое.

Как и ранее, мы используем DBF выгрузку для проведения следующих тестов:

  • Тест на полноту: - оценим долю заполненных обязательных полей в сегменте региона.
  • Тест на согласованность данных – постараемся оценить соответствие данных требованиям форматно-логического контроля (ФЛК) и здравому смыслу.

Оценивать мы будем только актуальные записи, для чего отберём записи, имеющие статус (поле «ACTSTATUS») «Актуальный» и окончание действия записи (поле «ENDDATE») – где-то в далёком будущем.

Отбираем актуальные записи сегмента ФИАС  по Ленинградской области
Отбираем актуальные записи сегмента ФИАС по Ленинградской области

Тут мы сталкиваемся с аналогичной историей, которую видели в Московской области: у ряда «актуальных» записей срок действия уже в прошлом:

  • 97 011 записей всего;
  • 50 159 неактуальных исторических записей;
  • 46 852 записей с флагом «Актуальный»;
  • 45 312 записей с флагом «Актуальный» и сроком действия в будущем.
Соотношение актуальных и исторических адресных записей
Соотношение актуальных и исторических адресных записей

У нас есть ещё 21 запись (что ничтожно мало, но факт), где срок действия ещё не истёк, но стоит атрибут «Историческая», что нелогично, однако:

"Историческая" адресная запись со сроком окончания в будущем
"Историческая" адресная запись со сроком окончания в будущем

Оцениваем полноту данных в сегменте

Оцениваем данные, за основу полагая обязательность наличие в адресной строке ФИАС шести элементов: почтовый индекс, название субъекта РФ, наименования муниципальной территории, название улицы, номер дома и кадастровый номер (ПП РФ №492 от 22 мая 2015 г).

В своей оценке мы исходим из того факта, что адресная запись ФИАС должна обязательно содержать следующие шесть элементов: индекс (от Почты России), название субъекта РФ, название муниципальной территории, наименования улицы, номер дома и кадастровый номер (всё согласно ПП РФ №492 от 22 мая 2015 г). Будем проверять:

Сводная таблица показателей
Сводная таблица показателей

Оцениваем согласованность данных

А теперь самое красивое. Поищем адресные записи с неправильными названиями улиц – проводим очередной тест на соответствие ФЛК.

Некорректные названия

Адресных элементов с некорректным названием улиц (типа «5-я улица Улица») в Ленобласти немного: всего 66. Некорректных названий переулков (типа «улица Кедровый переулок») – 22. Это ничтожно малые величины в масштабе всех записей – тут смело можно говорить о высоком качестве данных об улицах.

Тем не менее, есть несколько занятных адресов:

  • Ленинградская область, Гатчинский район, Корписалово деревня, Переулок улица (AOGUID=«cdde8ffb-38ec-410a-b179-d501fd26aeb1»)
Улица Переулок или переулок Улица?
Улица Переулок или переулок Улица?
  • Ленинградская область, Тихвинский район, Цвылево поселок, Кедровый переулок улица (AOGUID=«9bcd77b7-9bc7-45da-9208-411db9d7c303»)
Улица Кедровый переулок
Улица Кедровый переулок
  • Ленинградская область, Всеволожский район, Дунай массив, Самойловец территория садоводческого некоммерческого товарищества, 5-я улица улица (AOGUID=«2fa6f655-1dc4-4aae-9148-d27da592a6fd»)
Улица 5-я Улица
Улица 5-я Улица
  • Ленинградская область, Тосненский район, Любань город, 85-й км перегон Бабино-Любань улица (AOGUID=« 3efb4c74-b7e6-4bca-95f8-17ffe2eee895»)
Улица 85-й км перегон Бабино-Любань
Улица 85-й км перегон Бабино-Любань

Расхождение с Яндекс.Картами

Есть в рассматриваемом регионе такая запись:

  • Ленинградская область, Гатчинский район, Вырица городской поселок, Первый Овраг улица

и пять домов по этой улице (AOGUID=«34079ffb-c7f9-4fc9-a416-4c5f1f090e42), но эти объекты не удаётся найти на Яндекс.Картах. Однако есть такой адрес на:

  • Ленинградская область, Гатчинский район, посёлок городского типа Вырица, улица Первого Оврага
Первый Овраг улица или улица Первого Оврага?
Первый Овраг улица или улица Первого Оврага?

В идеале хорошо настроить сверку названий улиц в государственных базах с негосударственными геобазами: это позволит повысить точность всех вовлечённых систем, только нужно проработать правильный регламент (возможно, включая поправки в законодательство) и не забывать инвентаризировать фактическую ситуацию на местах (таблички, местные ориентиры и т.п.).

Таким-то образом вкралось целых два расхождения.

Расхождение дат актуализации

В некоторых записях дата актуализации исторической записи позже, нежели дата актуализации актуальной записи – совершенно непонятно, как такое могло произойти – явное отсутствие или сбой в работе алгоритмов форматно-логического контроля.

Пример дат актуализации записей сегмента ФИАС  по Ленинградской области
Пример дат актуализации записей сегмента ФИАС по Ленинградской области

Вывод – результат оценки

Методические рекомендации к оценке качества государственных данных предлагают до 50 оценок по 23 метрикам, но мы получили 9 оценок.

Сводное количество оценок адресных записей ФИАС по Ленинградской области
Сводное количество оценок адресных записей ФИАС по Ленинградской области

По результатам проведённых оценок получается, что адресные данные в сегменте Ленинградской области имеют высокое качество и могут быть смело использованы для дальнейшей обработки. Но некоторые инциденты и коллизии в данных встречаются (нужно усиливать автоматический форматно-логический контроль), а также остро стоит необходимость обогащения анализируемых записей кадастровыми номерами из данных Росреестра.

Индексы Почты России присутствуют в 90% записях, однако вопрос их актуальности открыт – для этого требуется обновить регламент обмена данными и настроить сервис передачи данных.