16 подписчиков

Зачем большие данные официальной статистике

27 мая 202027 мая 2020

2 мин

Казалось бы, технология big data буквально создана для статистики. Но проблема в том, что государственная статистика отлично работает с традиционным форматом данных, а что делать с новой технологией пока до конца непонятно.

Обещал рассказать про большие — рассказываю. Точнее даже не про сами большие данные, а про то, как использовать эту технологию в государственной статистике, а об этом сейчас очень много говорят и спорят.

Для начала, что мы имеем в виду, когда говорим о больших данных? Это способ анализа и извлечения информации из наборов данных, которые являются слишком большими или сложными для обработки традиционными методами. Например, магазин оборудован системой видеонаблюдения и при помощи технологии распознавания лиц мы знаем маршруты покупателей в торговом зале и их покупки. Чтобы обработать информацию о тысячах посетителей в день нужно или посадить за компьютеры сотни человек, или нанять т.н. data scientist, который хорошенько подумает и напишет программу.

Причем здесь государственная статистика? Да в том-то и проблема, что он тут вообще ни при чем: вся информация, которую собирает Росстат, Национальная статистическая служба Великобритании или любое другое ведомство изначально отлично структурирована и описана, а значит поддается анализу «традиционными» методами. Но большие данные — настолько «вкусная» технология, что государственным статистикам, конечно, тоже хочется ее использовать.

Что же делать? В России пока поступают достаточно оригинально и, скорее всего, верно.

Первейшее решение — все возможные данные публиковать открыто, причем в машиночитаемом виде. Это не только привычная всем информация от Росстата. Например, администрация Ростова-на-Дону знает, где в городе находятся площадки для отдыха водителей — и этот набор данных опубликован на сайте data.gov.ru. Если владелец данных не знает что с ними делать — нужно их опубликовать, найдутся люди, которые сделают с этим что-то интересное и полезное, причем бесплатно.

Второе решение — формирование единой технологической политики в области открытых государственных данных, чтобы если Москва решила публиковать свои данные отдельно, то делала это в понятном для всех и удобном формате.

Департамент информатизации Москвы сейчас набирает большое количество аналитиков данных, потому что статистики по людям накапливается очень много и она многокритериальная — то есть о каждом человеке, о каждой группе людей собрана статистика по очень большому количеству критериев. Практика показывает, что лучше всего закономерности умеют находить математики с IT-образованием.

Практика же показала, что пока что для оперативного госуправления применять «IT-штучки» рановато — чего только стоит программа «социальный мониторинг», которая, кажется, просто не способна работать нормально.

Что из этого выйдет в итоге? Увидим через несколько лет.