Казалось бы извлечение открытых данных не должно было составлять никаких проблем. Однако API не всегда нам дает возможность сделать это бесплатно...
Для моего студенческого проекта требовалось проанализировать заголовки новостных статей и миграцию граждан в соответствии с годом выпуска статьи. Для машинного обучения и с точки зрения кода в целом эта задача нетривиальна. Но получить заголовки страниц из поиска оказалось непростым делом, а порой и практически невыполнимым по тем временам. Немного о проекте и о том, что получилось...
Мировоззренческие формы осмысления связи человека со своей страной, городом, народом, безусловно, включают в себя вопросы как социального, так и антропологического восприятия «общественной реальности». Человек адаптируется в стране, в городе, буквально, «читая его как текст», оценивая его культурные и технологические мощности, анализируя события, чтобы впоследствии выстроить перспективу будущего развития.
«Человек будущего по Э. Тоффлеру, может адаптироваться к новому миру только если сам трансформируется изнутри, сознательно выбрав позицию вечного странника или «чужака». В этом смысле необходимо понимание миграционных процессов, происходящих в обществе.
На протяжении всего существования люди находится в поисках лучшего места для своего бытия. В трансформировавшемся мире под беспрецедентную индивидуальную свободу, движение населения стало особенно ярко выражено. Однако избыток людей на одном территориальном пространстве может принести серьезные проблемы там: экологические бедствия, безопасность коренного населения, причинение вреда культурному наследию и другие. Так, «миграционный-туризм» в восьмидесятые годы двадцатого века нанес значительный урон в городах Коста-Дель-Сол (Испания) и Барке (Франция), где из-за большого количества гостей ряд показателей стандартов безопасности и гигиены понизились относительно установленной нормы. В результате, в конце девяностых годов поднялся протест из-за пренебрежения экологической ситуацией в городах с наибольшей привлекательностью для туристов.
Согласно данным Росстата, отток граждан из России начал происходить с 2011 года. В 2017 году количество выехавших из страны составило 377155 человек. Самыми популярными странами дальнего зарубежья для миграции являются Китай и Германия. Одним из основных источников формирования мнения о стране являются новостные порталы на родном языке потенциального эмигранта. Именно из-за их доминирующего присутствия создается первоначальный образ о стране. Не последнюю роль здесь играют и поисковые системы, выдающие по запросам те или иные новостные ресурсы.
Согласно данным Statcounter , лидирующими поисковыми системами в России являются Yandex и Google. Если проанализировать количество запросов на русском языке с ключевым словом «название страны» и выбрать раздел «новости», то статистика в «Google Trends» выдаст заинтересованность русскоязычных пользователей новостями о КНР и США в большей степени. Германия находится в среднем диапазоне. Однако данная статистика не говорит, какое мнение о стране формируется у пользователей. Сравнение запросов «Китай» и «США» дает практически одинаковый диапазон, однако граждане РФ в большей степени эмигрируют в Китай, а не в США: в 2017 году 7600 человек против 1452. Поэтому поднимается вопрос о необходимости анализа информационных настроений в русскоязычной сети и их влияния на миграцию населения.
Для проведения синтаксического и лингвистического анализа необходим сбор данных за 8 лет, поскольку Ростат представил отчет об эмиграции за год по страном. Здесь необходим набор заголовков, относящихся к странам-лидерам по эмиграции граждан из РФ и менее приоритетным странам для миграции. Для этого есть фильтры как в Google поисковике, так и в Yandex.
Однако автоматизировать данный процесс целиком не получится, поскольку компания Google, как и Facebook «стала придерживаться правил, прописанных в «General Data Protection Regulation». Поисковая система Yandex построена таким образом, что открытые API в ней недоступны, поэтому автоматизировать сбор данных не получится и в этом поисковике. Несмотря на это можно извлечь необходимые заголовки неэффективным способов – в «ручном режиме». Однако проблемы не заканчиваются, ведь необходимо провести саму лингвистическую оценку заголовков. Для англоязычных источников существуют разные библиотеки, которые способны провести подобный анализ.
Так, например, использование пакета «scikit-learn» для Python. С помощью данного пакета можно создать необходимую нейросеть с учителем, которая выстраивает дерево взаимосвязей и формирует оценочную характеристику, возвращая результаты в процентах . Тем не менее, работать с русифицированными данными он не может.
Таким образом, на сегодняшний день основными проблемами при выявления взаимосвязи влияния новостей на потенциальных эмигрантов в автоматизированном режиме заключаются в отсутствие открытого API у поисковых систем и неумение работать оценочных библиотек с русифицированными источниками. Однако гипотетическое влияние информационных настроений значительно сказывается на потенциальной миграции.
Спасибо, что дочитали эту статью до конца. Если у вас есть вопросы или идеи, то оставляйте комментарии под статьей. Скоро выйдет еще несколько интересных статей и исследований.