Большие данные – как работать с большими объемами текстов в социальных сетях и как на их основе прийти к прикладным результатам – представил участникам круглого стола, организованного при содействии Школы молодого этнополитолога в РБ в рамках Уфимского гуманитарного научного форума, к.и.н. Руслан Бакаев 15 июля 2020 года.
На круглом столе, организованном в сотрудничестве Школы молодого этнополитолога и Института стратегических инициатив РБ 15 июля 2020 года обсуждалось перспективное соотношение фундаментальных и прикладных направлений гуманитарных наук, насколько они востребованы в Республике Башкортостан и проблематика гуманитарной сферы.
Одна из проблем, по мнению участников, заключается в том, что утверждения, находящиеся в гуманитарно-научном поле становятся абстрактно-гипотетическими без возможности определить их точность и соответствие объективной реальности.
— На наш взгляд корень этой проблемы лежит в области выявления, агрегирования и интерпретация фактов. Именно, отсутствие внятного корпуса фактов приводит к отрыву от реальности и снижению ценности гуманитарного знания, - отмечает Руслан Бакаев.
Как пример он приводит исследование коллег из МГУ им. М. Ломоносова, которые опубликовали в 3 номере 2019 года в журнале «Национальный психологический журнал» статью, где задаются вопросом о перспективах использования анализа социальных сетей для изучения этнокультурной идентичности подростков в интернет-сообществах.
Для того, чтобы ответить на него авторы статьи провели анализ 47 сообществ из социальной сети «ВКонтакте» из восьми субъектов Российской Федерации. Сообщества по каждому субъекту федерации были подобраны в соответствии с пятью аспектами этнокультурной идентичности: региональным, этническим, религиозным, культурным и общероссийским (от двух до шести групп по каждому аспекту).
В каждом сообществе было проанализировано 300 последних постов. Итого мы имеем примерно: 14 100 постов для анализа. Обращается на себя внимание то, какие параметры анализировались исследователями:
1) общая численность сообщества;
2) численность в нем подростков;
3) Количество постов в день;
4) Медиана лайков;
5) Медиана комментариев.
Иными словами параметры можно разделить на параметры сообщества и параметры контента. И то и другое носит динамический характер.
— Очевидно, что подобное исследование в отношении динамических фактов не может быть проведено «вручную», поскольку подобный объем данных к моменту завершения его анализа может устареть, - подчеркивает ученый. – В следствие этого необходимым условием осуществления подобных исследований является использование цифровых технологий.
В указанном исследовании анализ был выполнен посредством создания кода на языке R (R 3.6.1 +R Studio 1.2.1335). Мной сейчас делается все необходимое для того, чтобы воспроизвести данный код, надеюсь в ближайшее время я смогу вам его показать и продемонстрировать его возможности.
— Хотел бы указать на то, что данное исследование является промежуточным, поскольку авторы не демонстрировали анализ содержательной части контента и комментариев к нему. Можно предположить, что объем текстовой информации огромен, более миллиона знаков, что тоже исключается возможность «ручного анализа», какой осуществляется согласно существующим методикам контент-анализа, — подчеркнул Руслан Бакаев.
Башкирский ученый развил тему московских коллег и создал скрипт, позволяющий анализировать облако слов, облако тегов, частотность и внутритекстовую связность.
Именно социокультурные исследования больше всего страдают от недостатка фактов среднего уровня, используются либо частные примеры, либо очень обобщенные абстрактные конструкции.
При этом цифровые методы исследования открывают огромный простор для экономических исследований.
— За очень короткий срок можно собрать фактологический материал, который может лечь в основу любого социокультурного исследования. И будет обладать всеми необходимыми научными характеристиками: актуальностью, проверяемостью, параметризацией, — подчеркивает ученый.
Таким образом для развития гуманитарных наук необходимо включиться в процесс цифровизации методов сбора и обработки фактов.
Однако на этом пути есть иная проблем – кадровая. Она заключается отнюдь не в том, что отсутствуют кадры способные на разработку подобных скриптов и алгоритмов. Подобные кадры имеются среди математиков и программистов. Проблема заключается в междисциплинарном взаимодействии. Как показал опыт многих коллег, в том числе мой, что собственно подвигло на самостоятельное изучения цифровых технологий, взаимодействие между техническими специалистами и гуманитариями порой напоминает общение на разных языках. Гуманитариям сложно донести до разработчика свои потребности, а разработчик ждет внятного технического задания.
Таким образом на пути цифровизации стоит проблема кадров обладающими междисциплинарными компетенциями способными сформулировать цели-задачи гуманитарного исследований и в тоже время выступить разработчиками не только технического задания, но также программного обеспечения способного осуществлять исследование.