Ранее мы рассказывали об архитектуре Федеральной информационной адресной системы (ФИАС) и проводили тестовую оценку качества данных на основе записей Московской области.
Сегодня мы займёмся экспресс-обследованием данных по Ленинградской области.
Подготовка к обследованию
Обозначим, что поле «Результат» в таблице будет содержать оценку на основе шкалы из "Методических рекомендаций по оценке параметров качества данных":
- более 30% ошибок- низкое;
- меньше 30% ошибок, но более 2% - среднее;
- менее 2% ошибок - высокое.
Как и ранее, мы используем DBF выгрузку для проведения следующих тестов:
- Тест на полноту: - оценим долю заполненных обязательных полей в сегменте региона.
- Тест на согласованность данных – постараемся оценить соответствие данных требованиям форматно-логического контроля (ФЛК) и здравому смыслу.
Оценивать мы будем только актуальные записи, для чего отберём записи, имеющие статус (поле «ACTSTATUS») «Актуальный» и окончание действия записи (поле «ENDDATE») – где-то в далёком будущем.
Тут мы сталкиваемся с аналогичной историей, которую видели в Московской области: у ряда «актуальных» записей срок действия уже в прошлом:
- 97 011 записей всего;
- 50 159 неактуальных исторических записей;
- 46 852 записей с флагом «Актуальный»;
- 45 312 записей с флагом «Актуальный» и сроком действия в будущем.
У нас есть ещё 21 запись (что ничтожно мало, но факт), где срок действия ещё не истёк, но стоит атрибут «Историческая», что нелогично, однако:
Оцениваем полноту данных в сегменте
Оцениваем данные, за основу полагая обязательность наличие в адресной строке ФИАС шести элементов: почтовый индекс, название субъекта РФ, наименования муниципальной территории, название улицы, номер дома и кадастровый номер (ПП РФ №492 от 22 мая 2015 г).
В своей оценке мы исходим из того факта, что адресная запись ФИАС должна обязательно содержать следующие шесть элементов: индекс (от Почты России), название субъекта РФ, название муниципальной территории, наименования улицы, номер дома и кадастровый номер (всё согласно ПП РФ №492 от 22 мая 2015 г). Будем проверять:
Оцениваем согласованность данных
А теперь самое красивое. Поищем адресные записи с неправильными названиями улиц – проводим очередной тест на соответствие ФЛК.
Некорректные названия
Адресных элементов с некорректным названием улиц (типа «5-я улица Улица») в Ленобласти немного: всего 66. Некорректных названий переулков (типа «улица Кедровый переулок») – 22. Это ничтожно малые величины в масштабе всех записей – тут смело можно говорить о высоком качестве данных об улицах.
Тем не менее, есть несколько занятных адресов:
- Ленинградская область, Гатчинский район, Корписалово деревня, Переулок улица (AOGUID=«cdde8ffb-38ec-410a-b179-d501fd26aeb1»)
- Ленинградская область, Тихвинский район, Цвылево поселок, Кедровый переулок улица (AOGUID=«9bcd77b7-9bc7-45da-9208-411db9d7c303»)
- Ленинградская область, Всеволожский район, Дунай массив, Самойловец территория садоводческого некоммерческого товарищества, 5-я улица улица (AOGUID=«2fa6f655-1dc4-4aae-9148-d27da592a6fd»)
- Ленинградская область, Тосненский район, Любань город, 85-й км перегон Бабино-Любань улица (AOGUID=« 3efb4c74-b7e6-4bca-95f8-17ffe2eee895»)
Расхождение с Яндекс.Картами
Есть в рассматриваемом регионе такая запись:
- Ленинградская область, Гатчинский район, Вырица городской поселок, Первый Овраг улица
и пять домов по этой улице (AOGUID=«34079ffb-c7f9-4fc9-a416-4c5f1f090e42), но эти объекты не удаётся найти на Яндекс.Картах. Однако есть такой адрес на:
- Ленинградская область, Гатчинский район, посёлок городского типа Вырица, улица Первого Оврага
В идеале хорошо настроить сверку названий улиц в государственных базах с негосударственными геобазами: это позволит повысить точность всех вовлечённых систем, только нужно проработать правильный регламент (возможно, включая поправки в законодательство) и не забывать инвентаризировать фактическую ситуацию на местах (таблички, местные ориентиры и т.п.).
Таким-то образом вкралось целых два расхождения.
Расхождение дат актуализации
В некоторых записях дата актуализации исторической записи позже, нежели дата актуализации актуальной записи – совершенно непонятно, как такое могло произойти – явное отсутствие или сбой в работе алгоритмов форматно-логического контроля.
Вывод – результат оценки
Методические рекомендации к оценке качества государственных данных предлагают до 50 оценок по 23 метрикам, но мы получили 9 оценок.
По результатам проведённых оценок получается, что адресные данные в сегменте Ленинградской области имеют высокое качество и могут быть смело использованы для дальнейшей обработки. Но некоторые инциденты и коллизии в данных встречаются (нужно усиливать автоматический форматно-логический контроль), а также остро стоит необходимость обогащения анализируемых записей кадастровыми номерами из данных Росреестра.
Индексы Почты России присутствуют в 90% записях, однако вопрос их актуальности открыт – для этого требуется обновить регламент обмена данными и настроить сервис передачи данных.