Найти тему
образуйся сам

Курс по аналитике данных помог подготовить огромный отчет, на который могло уйти 2 недели

Оглавление
Электронные таблицы - незаменимый инструмент для администратора
Электронные таблицы - незаменимый инструмент для администратора

Вчера применил знания в аналитике данных для срочного заполнения отчета. Чего я больше всего не люблю в административной работе — это появление отчета, который нужно заполнить прямо сейчас. А отчеты бывают очень большие, непонятные, с большим количеством разных данных. Случается вчера вот такой звонок:

- Здравствуйте. Вы не заполнили отчет! Срок - сегодня!
- Я заполнил и отправил! - отвечаю я.
- На - первые 10 пунктов ответили, а на последний нет!
-Упс!

Оказывается последним пунктом нужно заполнить актуальную информацию о кружках технической направленности в регионе, по определенной тематике: с названием кружка, ФИО руководителя кружка, адресом организации, телефоном организации, электронным адресом и заслугах учащихся. И вот такие моменты могут очень сильно тебя выбить из колеи. Ужасно расстроился.

Вот такую таблицу нужно было заполнить
Вот такую таблицу нужно было заполнить

Но, с другой стороны, психологи говорят, что подобные задачи, делают нашу жизнь интереснее и динамичнее, развивают смекалку.

Сразу начал думать, как решить эту задачу. Самым понятным решением было бы - составить письмо запрос в муниципалитеты и попросить прислать информацию по каждой организации. В регионе их более 400. Думаю, муниципалитеты сделали бы свой запрос в образовательные учреждения и этот процесс продлился бы несколько дней, а времени у меня нет! Плюс нужно было бы сводить информацию. Интересная задача, правда?

Мне нравится, что в такие моменты мозг начинает думать и быстро оценивать возможные варианты и находить самое оптимальное решение.

Вот что я сделал, чтобы решить эту задачу.

1. Региональная информационная система “Навигатор”.

В ней есть информация о всех образовательных программах, которые реализуются в регионе. Зашел, сделал выборку программ технической направленности - результат 940 (слишком много)

Региональная система записи в кружки и секции, все дополнительное образование - там. Изображение с сайта https://xn--45-kmc.xn--80aafey1amqq.xn--d1acj3b/
Региональная система записи в кружки и секции, все дополнительное образование - там. Изображение с сайта https://xn--45-kmc.xn--80aafey1amqq.xn--d1acj3b/

2. Фильтр

Постарался выбрать важные данные, сделал сортировку по профилям, в запросе нужно было исключить некоторые направления, выбрал программы только “Опубликованные” (исключил архивные, программы на модерации). Получил таблицу в 270 записей. Выгрузил ее в редактор электронных таблиц в формате csv.

Окно выгрузки программ, изображение с сайта https://xn--45-kmc.xn--80aafey1amqq.xn--d1acj3b/
Окно выгрузки программ, изображение с сайта https://xn--45-kmc.xn--80aafey1amqq.xn--d1acj3b/

3. Работа с CSV файлом

Получил таблицу с такой разметкой. Данных много, но есть не все что нужно.

Таблицу вот с такими графами я получил
Таблицу вот с такими графами я получил

Выделил нужные графы, остальное отбросил. Столбец форма обучения позволил оставить только очные программы, а столбец число обучающихся, выделить те программы, на которых зачислены обучающиеся.

4. Ищем дубли

В редакторе электронных таблиц есть функция подсвечивать повторяющихся выражений. Это позволило исключить из таблицы данные с разными программами одного педагога. Итог - 168 записей.

5. API

Самое интересное для меня. В данной таблице не было адресов образовательных учреждений их номеров телефонов и т.д., но я точно знал, что эта информация обязательно есть на сайтах организаций. Но мне хотелось сделать все побыстрее. У меня был список ИНН организаций - решил получить сразу доступ ко всем данным через API сайта Федеральной налоговой службы.

Сервис доступа к данным налоговой службы по системе API
Сервис доступа к данным налоговой службы по системе API
Сервис доступа к данным налоговой службы по системе API
Сервис доступа к данным налоговой службы по системе API

Не зря я учился выкачивать данные с подобных сайтов на одном из обучений, которое проходил (конечно, детали уже забыл). Зарегистрировался, получил на почту ключ доступа к сервису. Как сделать запрос на Python я уже не помнил, но сделал запрос по списку ИНН сразу в web-сервисе. Ура! Радости не было предела! Получил данные по ИНН, которые были в базе ФНС. Но был момент - данные были в виде JSON файла.

Скриншот сервиса конвертации файла json
Скриншот сервиса конвертации файла json

Да, в Python это можно сделать парой сторон, но нужно было поднять старые блокноты и вспомнить, что к чему. Я же нашел сервис, который быстро создает из файла json эксель-таблицу. И тут я уже получил заветный список из адресов и телефонов по моим ИНН, правда некоторые ячейки пришлось соединить (индекс + адрес), но это мелочи.

6. Шлифуем и дорабатываем таблицу

Согласен, не все данные были получены при работе с различными базами данных, но большая часть работы была проведена. Нам осталось найти ссылки на сайты образовательных организаций или самих кружков и самые значимые достижения. Достижения мы взяли из отчетов организаций, а часть электронных адресов нашли в ручную. Но это несопоставимо с той работой, которую пришлось бы проделать вручную.

Да понимаю, что не совершил, чего-то невообразимого для аналитика данных, но вот для административного работника это уже не тривиальная, а интересная задача. Если статья понравилась - подписывайтесь. Будем образовываться дальше.