Найти в Дзене
Data Q&A

Чего желают лидеры стран своим согражданам? Часть 3. Рождественские поздравления британской королевы. Текстовая аналитика

Оглавление

Продолжаем серию статей о текстовой аналитике новогодних поздравлений. На очереди рождественские поздравления британской королевы.

Начало этого цикла статей смотрите здесь:

Часть 1

Часть 2

Тексты поздравлений на английском языке были также взяты с официального сайта:

* 1999 год

* 2000 год

* ...

* 2020 год

Все тексты были проверены и предварительно обработаны по стандартной процедуре.

1. Облако слов.

1. Самые частые слова в рождественских поздравлениях Королевы Великобритании Елизаветы II за 1999-2020 годы.
1. Самые частые слова в рождественских поздравлениях Королевы Великобритании Елизаветы II за 1999-2020 годы.

Наряду с "джентельменским набором" поздравительных рождественских слов можно отметить присутствие слов-индикаторов публичной общественной персоны:

  • community (общество)
  • commonwealth (содружество)
  • country (страна)

Также видимо характерным для монархии будет присутствие слова queen (королева). Интересно отметить и достаточно высокую частотность слова war (война) в рождественнских поздравлениях!

2. 100 самых часто употребимых слов.

Поскольку эта гистограмма лишь другое представление почти той же информации, что и в облаке слов, можно заметить преобладание общих поздравительных рождественских слов. Есть и те же социальные слова community, commonwealth, country. Выделяются на общем фоне и слова queen, war.

3. Сравнение текстов новогодних поздравлений.

3. Схожесть текстов рождественских поздравлений по годам. Мера сходства: косинусный коэффициент
3. Схожесть текстов рождественских поздравлений по годам. Мера сходства: косинусный коэффициент

Степень схожести по косинусным коэффициентом невелика. Вряд ли можно выделить какие-то пары схожих текстов поздравлений.

4. Уникальность слов в новогодних поздравлениях.

На гистограмме количества уникальных слов по метрике TF-IDF сильно выделяется своим минимумом 2002 год на фоне остальных лет.

4. Количество уникальных слов на основе статистики TF-IDF по годам
4. Количество уникальных слов на основе статистики TF-IDF по годам

Посмотрим, чем же выделился текст поздравления 2002 года. И сразу же в предисловии можно прочитать, что это был торжественный год юбилея 50-летия правления королевы. А также и трагический год, когда за несколько недель ушли её мать и сестра. Видимо этим и объясняется такое небогатое разнообразие слов по TF-IDF.

5. Анализ тональности текстов новогодних поздравлений.

5. Тональность текстов рождественских поздравлений по годам.
5. Тональность текстов рождественских поздравлений по годам.

Оценка тональности текстов (значения от -1 для наиболее негативной до +1 для наиболее позитивной) выделяет 2001 и 2005 годы на фоне остальных очень позитивных текстов. Как нетрудно догадаться, связано это с терактами 2001 года в США и 2005 года в Лондоне.

Интересно, будет ли коррелировать тональность поздравлений президета США в эти годы? Читайте в продолжении этой серии статей!

6. Значения алгоритма TextRank и его ключевые фразы по годам.

6.1. Значения метрики алгоритма TextRank рождественских поздравлений по годам
6.1. Значения метрики алгоритма TextRank рождественских поздравлений по годам

Алгоритм TextRank особо не выделяет никакие годы, колеблясь с небольшими отклонениями возле значения 0.04.

В таблице ключевых фраз TextRank для британских поздравлений присутствуют не только общие слова, но и некоторые характерные фразы:

  • jubilee year queen (юбилейный год королевы)
  • iraq queen christmas broadcast (Ирак, королева, рождественское послание)
  • war christmas (война, Рождество)
  • buckingham palace (букингемский дворец)
  • first world war (первая мировая война)
  • и т.д.

Королева высказывает и конкретику. Видно, что и само королевство активно участвует в военных кампаниях.

6.2. 2 ключевые фразы на каждый год поздравления и их значения по алгоритму TextRank
6.2. 2 ключевые фразы на каждый год поздравления и их значения по алгоритму TextRank

7. Разложение текстов на темы по методу LDA (Latent Dirichlet allocation).

Была также предпринята попытка разложения текстов на 20 тем по алгоритму LDA.

Ниже приведены облака слов для первых 4 тем.

7. Примеры облаков слов для превых 4 тем поздравлений по модели LDA.
7. Примеры облаков слов для превых 4 тем поздравлений по модели LDA.

8. Векторное представление слов предложений

Отображение слов поздравлений в векторное пространство с группировкой по смыслу приведено ниже.

8. Диаграмма t-SNE векторного представления слов поздравлений
8. Диаграмма t-SNE векторного представления слов поздравлений

При увеличении векторного представления диаграммы в MatLab в районе интересующего термина можно рассмотреть его близкие по смыслу слова, употребляемые в текстах рождественских поздравлений.

Это даёт больше информации о том, что говорится в поздравлениях. А также это векторное представление позволяет производить дальнейшие исследования текстов, преобразованных в числовую смысловую форму и генерировать новые тексты на основе таких моделей.

В следующей части ожидайте анализ рождественских поздравлений президентов США. Следите за обновлениями.

Пишите в комментариях свои отзывы. Это может направить исследование в дальнейшее наиболее интересное русло.

Благодарю за внимание!

Код проекта