Продолжаем серию статей о текстовой аналитике новогодних поздравлений. На очереди рождественские поздравления британской королевы.
Начало этого цикла статей смотрите здесь:
Тексты поздравлений на английском языке были также взяты с официального сайта:
* 1999 год
* 2000 год
* ...
* 2020 год
Все тексты были проверены и предварительно обработаны по стандартной процедуре.
1. Облако слов.
Наряду с "джентельменским набором" поздравительных рождественских слов можно отметить присутствие слов-индикаторов публичной общественной персоны:
- community (общество)
- commonwealth (содружество)
- country (страна)
Также видимо характерным для монархии будет присутствие слова queen (королева). Интересно отметить и достаточно высокую частотность слова war (война) в рождественнских поздравлениях!
2. 100 самых часто употребимых слов.
Поскольку эта гистограмма лишь другое представление почти той же информации, что и в облаке слов, можно заметить преобладание общих поздравительных рождественских слов. Есть и те же социальные слова community, commonwealth, country. Выделяются на общем фоне и слова queen, war.
3. Сравнение текстов новогодних поздравлений.
Степень схожести по косинусным коэффициентом невелика. Вряд ли можно выделить какие-то пары схожих текстов поздравлений.
4. Уникальность слов в новогодних поздравлениях.
На гистограмме количества уникальных слов по метрике TF-IDF сильно выделяется своим минимумом 2002 год на фоне остальных лет.
Посмотрим, чем же выделился текст поздравления 2002 года. И сразу же в предисловии можно прочитать, что это был торжественный год юбилея 50-летия правления королевы. А также и трагический год, когда за несколько недель ушли её мать и сестра. Видимо этим и объясняется такое небогатое разнообразие слов по TF-IDF.
5. Анализ тональности текстов новогодних поздравлений.
Оценка тональности текстов (значения от -1 для наиболее негативной до +1 для наиболее позитивной) выделяет 2001 и 2005 годы на фоне остальных очень позитивных текстов. Как нетрудно догадаться, связано это с терактами 2001 года в США и 2005 года в Лондоне.
Интересно, будет ли коррелировать тональность поздравлений президета США в эти годы? Читайте в продолжении этой серии статей!
6. Значения алгоритма TextRank и его ключевые фразы по годам.
Алгоритм TextRank особо не выделяет никакие годы, колеблясь с небольшими отклонениями возле значения 0.04.
В таблице ключевых фраз TextRank для британских поздравлений присутствуют не только общие слова, но и некоторые характерные фразы:
- jubilee year queen (юбилейный год королевы)
- iraq queen christmas broadcast (Ирак, королева, рождественское послание)
- war christmas (война, Рождество)
- buckingham palace (букингемский дворец)
- first world war (первая мировая война)
- и т.д.
Королева высказывает и конкретику. Видно, что и само королевство активно участвует в военных кампаниях.
7. Разложение текстов на темы по методу LDA (Latent Dirichlet allocation).
Была также предпринята попытка разложения текстов на 20 тем по алгоритму LDA.
Ниже приведены облака слов для первых 4 тем.
8. Векторное представление слов предложений
Отображение слов поздравлений в векторное пространство с группировкой по смыслу приведено ниже.
При увеличении векторного представления диаграммы в MatLab в районе интересующего термина можно рассмотреть его близкие по смыслу слова, употребляемые в текстах рождественских поздравлений.
Это даёт больше информации о том, что говорится в поздравлениях. А также это векторное представление позволяет производить дальнейшие исследования текстов, преобразованных в числовую смысловую форму и генерировать новые тексты на основе таких моделей.
В следующей части ожидайте анализ рождественских поздравлений президентов США. Следите за обновлениями.
Пишите в комментариях свои отзывы. Это может направить исследование в дальнейшее наиболее интересное русло.
Благодарю за внимание!