Найти тему
Data Q&A

Чего желают лидеры стран своим согражданам? Текстовая аналитика новогодних поздравлений.

Оглавление

Для изучения текстовой аналитики хотелось взять широко известные и понятные многим тексты. В то же время желательной была их периодичность, чтобы можно было отслеживать изменения по годам.

Выбор пал на новогодние поздравления лидеров государств.

В качестве инструмента был выбран MatLab Text Analytics Toolbox, в котором наилучшим образом поддерживается английский язык.

Поэтому после ограниченного в возможностях анализа русского текста планируется провести подобный, но более широкий, анализ этих же текстов на английском языке. А также проделать такие же исследования для поздравлений зарубежных лидеров на английском языке.

После чего возможно опробовать более совершенные в плане текстовой аналитики для русского языка инструменты в экосистеме Python, R или другой наиболее подходящей.

Итак, для начала рассмотрим новогодние поздравления Президента России за 1999-2020 годы. Их тексты были взяты с официального сайта:

Полный список ссылок источников текстов поздравлений можно найти в коде MatLab live script (нужен MatLab).

Все поздравления были проверены и предварительно обработаны по стандартной процедуре.

1. Облако слов.

После фильтрации не несущих особого смысла коротких слов было построено облако наиболее частых слов в поздравлениях за все рассматриваемые годы.

1. Самые частые слова в новогодних поздравлениях Президента России за 1999-2020 годы.
1. Самые частые слова в новогодних поздравлениях Президента России за 1999-2020 годы.

Всё же сказалось отсутствие языковой поддержки - есть однокоренные слова в разных формах. Например "России" более употребимо, чем в именительном падеже "Россия". Остались "год" и "году". Конечно желательно, чтобы в таких случаях словоформы были объединены в один термин.

Посоветуйте, пожалуйста, лучшие пакеты обработки естественного языка (natural language processing) для русского языка.

Беглый анализ этого облака слов натолкнул на вывод, что такие поздравления можно было услышать от кого угодно.

Разве что только часто употребимое слово "граждане" сигнализирует, что скорее всего это поздравления госслужащего.

2. 100 самых часто употребимых слов.

Далее были найдены 100 самых часто употребимых слов за все рассматриваемые годы. И для них была построена таблица частотности их употребления по годам

2. 100 самых частых слов новогодних поздравлений: количество по годам.
2. 100 самых частых слов новогодних поздравлений: количество по годам.

Вновь ничего особенно оригинального. Если можно так сказать, почти "будничные" новогодние поздравления.

3. Сравнение текстов новогодних поздравлений.

Для сравнения текстов поздравлений и выявления сходства между ними была использована мера косинусный коэффициент (cosine similarity).

3. Схожесть текстов новогодних поздравлений по годам. Мера сходства: косинусный коэффициент.
3. Схожесть текстов новогодних поздравлений по годам. Мера сходства: косинусный коэффициент.

На общем фоне незначительных значений коэффициентов сходства выделяются 2008 и 2009 годы с почти в 2 раза большим значением косинусного коэффициента.

Но вряд ли стоит придавать этому большое значение из-за недостаточной поддержки языков. Наверняка степень сходства текстов сможет лучше прояснить текстовая аналитика тех же текстов на английском языке.

4. Уникальность слов в новогодних поздравлениях.

Также был проведен анализ уникальности терминов по метрике TF-IDF определяющей уникальность слова в поздравлении по отношению к его среднему значению в наборе всех рассматриваемых поздравлений.

4. Количество уникальных слов на основе статистики TF-IDF по годам.
4. Количество уникальных слов на основе статистики TF-IDF по годам.

Рассмотрены количества уникальных слов в поздравлениях по годам.

На построенной гистограмме выделяются 1999, 2013 и 2020 годы.

Первое "неожиданное" выступление 1999 года после "я устал, я ухожу" выделилиось и в текстовом анализе.

2020 год в плане уникальности слов в поздравлении очевидно отличился от остальных из-за пандемии коронавируса.

Сразу непонятно было, чем же выделилось поздравление 2013 года. Оказалось, что из-за наводнения на Дальнем Востоке, новогоднее обращение было из Хабаровска. Выделилось оно и в плане текстовой аналитики.

Промежуточные выводы.

Выявлены некоторые особенности в текстах новогодних поздравлений за рассматриваемый период. Планируются дальнейшие исследования для выявления новых и проверки этих полученных особенностей.

Одним из путей улучшения качества анализа планируется опробовать анализ тех же поздравлений с официального сайта, но на английском языке. Там будет и больше возможностей для текстовой аналитики.

Далее запланированы такие же исследования поздравлений зарубежных лидеров. После чего возможна попытка анализа на русском языке в экосистеме с лучшими инструментами для русского языка, скорее всего на python.

Напишите, что было бы интересно узнать и посмотреть в области этого исследования.

Продолжение следует.

Код проекта

06.07.2021 г.

*В исследовании использованы публично доступные данные.

**Все торговые марки являются собственностью их правообладателей.