Найти тему
Urban Life

Проблема извлечения данных и их анализ. Будни нищего студента.

Казалось бы извлечение открытых данных не должно было составлять никаких проблем. Однако API не всегда нам дает возможность сделать это бесплатно...

Для моего студенческого проекта требовалось проанализировать заголовки новостных статей и миграцию граждан в соответствии с годом выпуска статьи. Для машинного обучения и с точки зрения кода в целом эта задача нетривиальна. Но получить заголовки страниц из поиска оказалось непростым делом, а порой и практически невыполнимым по тем временам. Немного о проекте и о том, что получилось...

Мировоззренческие формы осмысления связи человека со своей страной, городом, народом, безусловно, включают в себя вопросы как социального, так и антропологического восприятия «общественной реальности». Человек адаптируется в стране, в городе, буквально, «читая его как текст», оценивая его культурные и технологические мощности, анализируя события, чтобы впоследствии выстроить перспективу будущего развития.

«Человек будущего по Э. Тоффлеру, может адаптироваться к новому миру только если сам трансформируется изнутри, сознательно выбрав позицию вечного странника или «чужака». В этом смысле необходимо понимание миграционных процессов, происходящих в обществе.

-2

На протяжении всего существования люди находится в поисках лучшего места для своего бытия. В трансформировавшемся мире под беспрецедентную индивидуальную свободу, движение населения стало особенно ярко выражено. Однако избыток людей на одном территориальном пространстве может принести серьезные проблемы там: экологические бедствия, безопасность коренного населения, причинение вреда культурному наследию и другие. Так, «миграционный-туризм» в восьмидесятые годы двадцатого века нанес значительный урон в городах Коста-Дель-Сол (Испания) и Барке (Франция), где из-за большого количества гостей ряд показателей стандартов безопасности и гигиены понизились относительно установленной нормы. В результате, в конце девяностых годов поднялся протест из-за пренебрежения экологической ситуацией в городах с наибольшей привлекательностью для туристов.

-3

Согласно данным Росстата, отток граждан из России начал происходить с 2011 года. В 2017 году количество выехавших из страны составило 377155 человек. Самыми популярными странами дальнего зарубежья для миграции являются Китай и Германия. Одним из основных источников формирования мнения о стране являются новостные порталы на родном языке потенциального эмигранта. Именно из-за их доминирующего присутствия создается первоначальный образ о стране. Не последнюю роль здесь играют и поисковые системы, выдающие по запросам те или иные новостные ресурсы.

-4

Согласно данным Statcounter , лидирующими поисковыми системами в России являются Yandex и Google. Если проанализировать количество запросов на русском языке с ключевым словом «название страны» и выбрать раздел «новости», то статистика в «Google Trends» выдаст заинтересованность русскоязычных пользователей новостями о КНР и США в большей степени. Германия находится в среднем диапазоне. Однако данная статистика не говорит, какое мнение о стране формируется у пользователей. Сравнение запросов «Китай» и «США» дает практически одинаковый диапазон, однако граждане РФ в большей степени эмигрируют в Китай, а не в США: в 2017 году 7600 человек против 1452. Поэтому поднимается вопрос о необходимости анализа информационных настроений в русскоязычной сети и их влияния на миграцию населения.

-5

Для проведения синтаксического и лингвистического анализа необходим сбор данных за 8 лет, поскольку Ростат представил отчет об эмиграции за год по страном. Здесь необходим набор заголовков, относящихся к странам-лидерам по эмиграции граждан из РФ и менее приоритетным странам для миграции. Для этого есть фильтры как в Google поисковике, так и в Yandex.

-6

Однако автоматизировать данный процесс целиком не получится, поскольку компания Google, как и Facebook «стала придерживаться правил, прописанных в «General Data Protection Regulation». Поисковая система Yandex построена таким образом, что открытые API в ней недоступны, поэтому автоматизировать сбор данных не получится и в этом поисковике. Несмотря на это можно извлечь необходимые заголовки неэффективным способов – в «ручном режиме». Однако проблемы не заканчиваются, ведь необходимо провести саму лингвистическую оценку заголовков. Для англоязычных источников существуют разные библиотеки, которые способны провести подобный анализ.

-7

Так, например, использование пакета «scikit-learn» для Python. С помощью данного пакета можно создать необходимую нейросеть с учителем, которая выстраивает дерево взаимосвязей и формирует оценочную характеристику, возвращая результаты в процентах . Тем не менее, работать с русифицированными данными он не может.

-8

Таким образом, на сегодняшний день основными проблемами при выявления взаимосвязи влияния новостей на потенциальных эмигрантов в автоматизированном режиме заключаются в отсутствие открытого API у поисковых систем и неумение работать оценочных библиотек с русифицированными источниками. Однако гипотетическое влияние информационных настроений значительно сказывается на потенциальной миграции.

-9

Спасибо, что дочитали эту статью до конца. Если у вас есть вопросы или идеи, то оставляйте комментарии под статьей. Скоро выйдет еще несколько интересных статей и исследований.