Продолжаем серию статей о текстовой аналитике новогодних поздравлений. На этот раз рассмотрим рождественские поздравления президентов США.
Начало этого цикла статей смотрите здесь.
Тексты поздравлений на английском языке были взяты из официальных источников:
- ...
Поздравления последних лет были найдены только в формате видео. Их тексты получены из субтитров этих видео. Это добавило больше упоминаний фамилий выступающих.
Все тексты были проверены и предварительно обработаны по стандартной процедуре.
1. Облако слов
Отчётливо видно, что это рождественские поздравления президента и первой леди американцам. Также выделяются фамилия президента Обамы, его супруги Мишель и, несмотря на праздничность события, много упоминаний военных: military, troop и т.д.
2. 100 самых часто употребимых слов
На этой гистограмме можно более детально рассмотреть количества употреблений слов из облака в 1.
На фоне праздничных и семейных слов можно выделить упоминания слов: america, president, military, troop, uniform, а также фамилии президентов. На тепловой карте сильно выделяются фамилия президента Obama и его супруги Michelle. Видимо сказалось их частое упоминание в субтитрах. Кое-какую информацию это несёт. Но для других целей исследования можно было отфильтровать эту информацию.
3. Сравнение текстов новогодних поздравлений
Интересная картина наблюдается на тепловой карте схожесть текстов поздравлений по косинусному коэффициенту.
Даже по более тёмному цвету чётко видны прямоугольники схожих текстов для произносивших их президентов:
- Буш: 2001-2008 годы
- Обама: 2009 - 2016 годы
- Трамп: 2017-2020 годы
А между собой тексты разных президентов такой ярко выраженной схожести не имеют.
4. Уникальность слов в новогодних поздравлениях
На гистограмме количества уникальных слов по метрике TF-IDF также можно выделить характерные группы значений для разных президентов. Т.е. в данном случае поздравлений просматриваются характерные значения параметров для каждого из президентов, идентифицирующие их.
5. Анализ тональности текстов новогодних поздравлений
Оценка тональности текстов (значения от -1 для наиболее негативной до +1 для наиболее позитивной) в случае американских поздравлений повсеместно очень позитивны как и российские поздравелния. Даже теракты 2001 года, что весьма странно, не изменили этого очень позитивного значения. Хотя к слову поздравления британской королевы этого года были не столь позитивны как обычно.
6. Значения алгоритма TextRank и его ключевые фразы по годам
Алгоритм TextRank особо выделяет 2009-2016 годы правления президента Обамы. У остальных президентов значение TextRank колеблется примерно одинаково в районе значения 0.03.
В таблице ключевых фраз TextRank для американских поздравлений присутствуют общие слова. А также, несмотря на всю праздничность события, много маркеров военных кампаний:
- military
- troop
- service
- veteran
- и т.д.
Из этого текстового анализа видно, что США активно участвуют в военных кампаниях.
7. Разложение текстов на темы по методу LDA (Latent Dirichlet allocation)
Была также предпринята попытка разложения текстов на 20 тем по алгоритму LDA.
Ниже приведены облака слов для первых 4 тем.
8. Векторное представление слов предложений.
Отображение слов поздравлений в векторное пространство с группировкой по смыслу приведено ниже.
При увеличении векторного представления диаграммы в MatLab в районе интересующего термина можно рассмотреть его близкие по смыслу слова, употребляемые в текстах рождественских поздравлений. Это даёт больше информации о том, что говорится в поздравлениях. Это векторное представление позволяет производить дальнейшие исследования текстов, преобразованных в числовую смысловую форму, а также генерировать новые тексты на основе таких моделей.
Пишите в комментариях свои впечатления, наблюдения и пожелания.
Благодарю за внимание!