Вчера применил знания в аналитике данных для срочного заполнения отчета. Чего я больше всего не люблю в административной работе — это появление отчета, который нужно заполнить прямо сейчас. А отчеты бывают очень большие, непонятные, с большим количеством разных данных. Случается вчера вот такой звонок:
- Здравствуйте. Вы не заполнили отчет! Срок - сегодня!
- Я заполнил и отправил! - отвечаю я.
- На - первые 10 пунктов ответили, а на последний нет!
-Упс!
Оказывается последним пунктом нужно заполнить актуальную информацию о кружках технической направленности в регионе, по определенной тематике: с названием кружка, ФИО руководителя кружка, адресом организации, телефоном организации, электронным адресом и заслугах учащихся. И вот такие моменты могут очень сильно тебя выбить из колеи. Ужасно расстроился.
Но, с другой стороны, психологи говорят, что подобные задачи, делают нашу жизнь интереснее и динамичнее, развивают смекалку.
Сразу начал думать, как решить эту задачу. Самым понятным решением было бы - составить письмо запрос в муниципалитеты и попросить прислать информацию по каждой организации. В регионе их более 400. Думаю, муниципалитеты сделали бы свой запрос в образовательные учреждения и этот процесс продлился бы несколько дней, а времени у меня нет! Плюс нужно было бы сводить информацию. Интересная задача, правда?
Мне нравится, что в такие моменты мозг начинает думать и быстро оценивать возможные варианты и находить самое оптимальное решение.
Вот что я сделал, чтобы решить эту задачу.
1. Региональная информационная система “Навигатор”.
В ней есть информация о всех образовательных программах, которые реализуются в регионе. Зашел, сделал выборку программ технической направленности - результат 940 (слишком много)
2. Фильтр
Постарался выбрать важные данные, сделал сортировку по профилям, в запросе нужно было исключить некоторые направления, выбрал программы только “Опубликованные” (исключил архивные, программы на модерации). Получил таблицу в 270 записей. Выгрузил ее в редактор электронных таблиц в формате csv.
3. Работа с CSV файлом
Получил таблицу с такой разметкой. Данных много, но есть не все что нужно.
Выделил нужные графы, остальное отбросил. Столбец форма обучения позволил оставить только очные программы, а столбец число обучающихся, выделить те программы, на которых зачислены обучающиеся.
4. Ищем дубли
В редакторе электронных таблиц есть функция подсвечивать повторяющихся выражений. Это позволило исключить из таблицы данные с разными программами одного педагога. Итог - 168 записей.
5. API
Самое интересное для меня. В данной таблице не было адресов образовательных учреждений их номеров телефонов и т.д., но я точно знал, что эта информация обязательно есть на сайтах организаций. Но мне хотелось сделать все побыстрее. У меня был список ИНН организаций - решил получить сразу доступ ко всем данным через API сайта Федеральной налоговой службы.
Не зря я учился выкачивать данные с подобных сайтов на одном из обучений, которое проходил (конечно, детали уже забыл). Зарегистрировался, получил на почту ключ доступа к сервису. Как сделать запрос на Python я уже не помнил, но сделал запрос по списку ИНН сразу в web-сервисе. Ура! Радости не было предела! Получил данные по ИНН, которые были в базе ФНС. Но был момент - данные были в виде JSON файла.
Да, в Python это можно сделать парой сторон, но нужно было поднять старые блокноты и вспомнить, что к чему. Я же нашел сервис, который быстро создает из файла json эксель-таблицу. И тут я уже получил заветный список из адресов и телефонов по моим ИНН, правда некоторые ячейки пришлось соединить (индекс + адрес), но это мелочи.
6. Шлифуем и дорабатываем таблицу
Согласен, не все данные были получены при работе с различными базами данных, но большая часть работы была проведена. Нам осталось найти ссылки на сайты образовательных организаций или самих кружков и самые значимые достижения. Достижения мы взяли из отчетов организаций, а часть электронных адресов нашли в ручную. Но это несопоставимо с той работой, которую пришлось бы проделать вручную.
Да понимаю, что не совершил, чего-то невообразимого для аналитика данных, но вот для административного работника это уже не тривиальная, а интересная задача. Если статья понравилась - подписывайтесь. Будем образовываться дальше.