Найти в Дзене

Потенциал вычислительного лингвистического анализа социальных сетей для демографических исследований

Оглавление
https://c.pxhere.com/photos/cb/37/zurich_pedestrian_age_demography_old_support_man-893410.jpg!d
https://c.pxhere.com/photos/cb/37/zurich_pedestrian_age_demography_old_support_man-893410.jpg!d

В статье представлен обзор возможностей для синергии между компьютерным лингвистическим анализом и демографическими исследованиями. В ней рассматриваются демографические исследования с точки зрения использования данных социальных сетей. Демографы входят в царство больших данных. Однако, как утверждается в данной статье, демографические исследования могут много выиграть от компьютерного лингвистического анализа, особенно с точки зрения объяснения движущих сил демографических процессов. Приводятся два примера того, как этот метод может быть применен, и в заключение дается принципиальная оговорка. Да, вычислительный лингвистический анализ является возможным ключом для интеграции микротеории в любой демографический анализ данных социальных сетей. Однако результаты могут иметь малое значение в той мере, в какой неизвестны знания об основных характеристиках выборки.

Незавершенность демографической революции в области сбора данных

Демография - это изучение населения. Демография традиционно связана с измерением и оценкой демографических изменений по рождаемости, смертности и миграции. Демография уходит корнями в количественные методы, в основе которых лежат данные. По мере того, как поле проходило через различные эпохи доступности данных, демографические данные всегда были "большими". Начиная с картирования тенденций на макроуровне с помощью параметров уровня народонаселения, основанных главным образом на переписях и административных данных, по мере поступления индивидуальных данных работа на местах стала в большей степени основываться на теории. Справедливости ради следует отметить, что с резким увеличением объема имеющихся данных обследования произошла революция в демографических исследованиях. Сегодня демографы не просто описывают демографические модели, а в равной степени заинтересованы в понимании как движущих сил, так и последствий демографических процессов.

При этом демографы собрали чрезвычайно богатый массив данных для объяснения не только демографических процессов, но и мотивационных и поведенческих факторов, лежащих в основе этих процессов. Однако данные, полученные в ходе обследований, возможно, достигли своего пика. По мере того, как опросные и избирательные органы испытывают трудности с ростом расходов и снижением доли ответивших на опрос, производители статистики все чаще обращаются к большим массивам данных.

Лингвистический анализ социальных сетей как промежуточное звено между качественным и количественным анализом

Одной из важных причин медленного прогресса в этой области, возможно, является то, что демографы более уверены в результатах анализа цифр, чем текста: т.е. количественного, а не качественного анализа. Или, возможно, все еще существует неопределенность и подозрения в отношении того, в какой степени данные из социальных сетей могут быть использованы для надлежащего вывода теоретических представлений о демографии.

Тот факт, что тексты в социальных сетях являются результатом бесед между отдельными лицами, группами и организациями, а не ответов на вопросы исследователей (которые обычно имеют лишь пост-интуицию о соответствующих факторах при формировании смысла), актуален и дает представление о том, как восприятия, ценности и т.д. развиваются в режиме реального времени. Количество материалов, напротив, может создать проблемы для социологов. Часто лингвистический анализ ищет положительные или отрицательные выражения чувств. Однако этого, само по себе, недостаточно.

Аналитический подход: важность кодирования

Когда концепции, представляющие интерес, основаны на теории, они часто бывают сложными, многогранными и не всегда поддаются непосредственному измерению. Поэтому для получения значимых результатов классификации необходимо приложить значительно больше усилий для аннотирования текстов. Это, однако, относится и к демографическому анализу, и к семейным исследованиям.

Метод классификации в качественных социальных науках (т.е. кодирование вручную), с алгоритмической классификацией с использованием контролируемого машинного обучения. После сбора текстов в социальных сетях в течение определенного периода времени и в данном географическом районе, первым шагом будет получение информации о текстах, содержащих актуальные темы для вопроса исследования. Исследования такого рода не могут основываться только на хэштэгах или других подобных целостных инструментах, позволяющих идентифицировать тексты и сообщения. Фильтрация должна основываться на теоретически обоснованных ключевых словах (с использованием хэштэгов, если таковые имеются), или пользователями: т.е. в некоторых случаях нас интересуют отдельные лица, но не компании, учреждения или газеты. Дубликаты (например, повторные твиты) могут быть удалены. В результате фильтрации получается корпус потенциально релевантных текстов.

Характеристики и предостережения при изучении демографического поведения

Растущий поток генерируемых в цифровом формате текстов и разработка вычислительных алгоритмов их анализа создают беспрецедентную возможность для изучения социально-демографического поведения. Во-первых, тексты в социальных сетях позволяют собирать информацию о мнениях, которые выражаются спонтанно, без ответа на конкретный вопрос и часто в качестве реакции на некоторые эмоционально мотивированные наблюдения. Во-вторых, освещение событий в социальных сетях во времени и пространстве обеспечивает преемственность, которую невозможно обеспечить с помощью обследований. Эти две особенности очень важны и предоставляют уникальную возможность узнать о пользователях социальных сетей и, следовательно, открыть новые перспективы социально-демографического поведения.

Тем не менее, фундаментальный вопрос заключается в том, кто эти пользователи. Какую группу населения они представляют? Поскольку данные генерируются с платформ социальных сетей, они обязательно должны основываться на предвзятой или непредставительной базе пользователей. Несмотря на использование данных с миллионами точек, мы сосредоточиваем внимание на небольших предвзятых подгруппах населения, которые в противном случае должны быть отобраны по таким параметрам, как пол, раса, география, возраст, доход и образование. Например, исследования показывают, что в Нидерландах пользователями Twitter являются молодые люди и женщины с особыми личностными качествами.

В настоящее время предпринимаются усилия для решения этой проблемы. Исследования пытаются сопоставить непредставленные цифровые данные с достоверной официальной статистикой, тем самым оценивая и моделируя возможные отклонения, или, при отсутствии официальной статистики, сравнивая относительные тенденции.

Конец теории еще не наступил

Послание этой статьи носит двуединый характер. Во-первых, вычислительный лингвистический анализ обладает большим потенциалом в развитии социальных наук и демографического анализа. Для этого, однако, необходимо разработать процедуру аннотации, включающую ключевые теоретические концепции социальных наук. В этом отношении социальные науки и демография способны обеспечить огромный прогресс в компьютерном лингвистическом анализе. Во-вторых, пока нет возможности (пока) игнорировать вопрос о представительности. Для того чтобы данные социальных сетей имели смысл для демографического анализа или, в более общем плане, для социальных наук, необходимо что-то знать о выборке, используемой для анализа. Возможно, однажды будет достигнут такой уровень, когда объем больших массивов данных будет настолько велик, настолько обширен и всеобъемлющий, что они смогут охватить все возможные социальные вопросы и дать на них ответы. В защиту классического подхода, однако, всегда можно утверждать, что такие данные приведут к перекосам и что будут существовать цифровые различия как в способах получения информации, так и в технологиях. Несмотря на огромные объемы цифровых данных и разработку статистических инструментов, предназначенных для критического анализа данных, социологи, по крайней мере в обозримом будущем, будут задавать вопросы и разрабатывать программы исследований, искать причинную связь и разрабатывать полезные теории для демографического анализа.

Таким образом, мы все еще находимся на некотором расстоянии от превосходства неконтролируемого машинного обучения, где сила корреляции вытесняет причинную связь, и где эпистемологическая революция фактически положит конец социальной теории, просто позволив данным говорить за себя. По крайней мере, для исследования социодемографического поведения социологи и демографы, вместе с коллегами по компьютерным наукам, еще некоторое время будут исследовать данные, пока конечные результаты не будут получены.