Найти в Дзене
Data Q&A

Чего желают лидеры стран своим согражданам? Часть 2. Российские новогодние поздравления на английском языке. Текстовая аналитика

Оглавление

Продолжаем серию статей о текстовой аналитике новогодних поздравлений. На этот раз рассмотрим российские поздравелния, переведённые на английский язык. Это добавляет возможностей изучения из-за лучшего развития инструментов именно для английского языка. Начало этого цикла статей доступно здесь.

Тексты поздравлений на английском языке были также взяты с официального сайта:

Опять же все тексты были проверены и предварительно обработаны по стандартной процедуре.

1. Облако слов.

Посмотрим, как оно будет выглядеть в английском варианте.

1. Самые частые слова в новогодних поздравлениях Президента России за 1999-2020 годы.
1. Самые частые слова в новогодних поздравлениях Президента России за 1999-2020 годы.

Почти те же общие слова пожеланий с самыми частотными:

  • Новый год
  • Россия
  • дорогой
  • друг

Значит можно сделать промежуточный вывод о смысловой сходимости обоих анализов на русском и английском языках.

2. 100 самых часто употребимых слов.

В целом картина та же, что и для русского языка. Но есть и некоторые отличия. Видимо из-за различных словоформ одного и того же термина в русском языке и объединения их в один при стемминге и лемматизации в английском языке.

3. Сравнение текстов новогодних поздравлений.

Степень похожести по косинусным коэффициентом снова невелика. Но всё же экстремальные их значения по парам лет не совпадают. В частности повышенного значения для 2008 и 2009 годов в русской версии не наблюдаются.

По идее, если смысл поздравлений одинаков, то неважно на каких языках, схожесть их будет тоже одинакова. Но вряд ли стоит придавать такому расхождению большое значение. Наверно разве что можно ожидать схожесть текстов при больших, близких к единице, значениях косинусных коэффициентов.

Опять же различные словоформы одного и того же термина на русском языке могли внести свои коррективы для значений косинусного коэффициента.

4. Уникальность слов в новогодних поздравлениях.

Хорошую инвариантность по отношению к различным языкам показало количество уникальных слов по метрике TF-IDF.

4. Количество уникальных слов на основе статистики TF-IDF по годам.
4. Количество уникальных слов на основе статистики TF-IDF по годам.

Почти все положения максимумов и минимумов, а также интервалы возрастания и убывания совпадают для российских поздравлений на обоих языках!

Также выделились поздравления 1999, 2013 и 2020 годов.

Наличие более богатого инструментария для текстов на английском языке позволяет провести некоторые дополнительные исследования

5. Анализ тональности текстов новогодних поздравлений.

Оценка тональности текстов (значения от -1 для наиболее негативной до +1 для наиболее позитивной) показывает экстремальную позитивность текстов около +1 для всех лет!

5. Тональность текстов новогодних поздравлений по годам.
5. Тональность текстов новогодних поздравлений по годам.

Видимо пиар-службы денно и нощно, чётко и неустанно бдят о максимальной позитивности имиджа на протяжении всех лет!

Разве так постоянно экстремально положительно бывает в жизни?

6. Значения метрики алгоритма TextRank и его ключевые фразы по годам.

Как видно из графика, алгоритм TextRank, так же как и по метрике TF-IDF в разделе 4, выделяет годы 1999, 2001, 2013 и 2020 на своём графике.

6.1. Значения метрики алгоритма TextRank новогодних поздравлений по годам
6.1. Значения метрики алгоритма TextRank новогодних поздравлений по годам

Если взглянуть на таблицу ключевых фраз, то они как и в анализе тональности, представляют экстремально положительные общие пожелания без особой конкретики.

6.2. 2 ключевые фразы на каждый год поздравления и их значения по алгоритму TextRank
6.2. 2 ключевые фразы на каждый год поздравления и их значения по алгоритму TextRank

7. Разложение текстов на темы по методу LDA (Latent Dirichlet allocation).

Была также предпринята попытка разложения текстов на 20 тем по алгоритму LDA.

Ниже приведены облака слов для первых 4 тем.

7. Примеры облаков слов для превых 4 тем поздравлений по модели LDA.
7. Примеры облаков слов для превых 4 тем поздравлений по модели LDA.

Также была предпринята попытка разложения небольшого текста заведомо запланированной темы на эти 20 тем с ожидаемым пиком этой темы. Но результаты пока оказались не очень, поэтому здесь не приводятся.

8. Векторное представление слов предложений.

Отображение слов поздравлений в векторное пространство с группировкой по смыслу приведено ниже.

8. Диаграмма t-SNE векторного представления слов поздравлений
8. Диаграмма t-SNE векторного представления слов поздравлений

При увеличении векторного представления диаграммы в MatLab в районе интересующего термина можно рассмотреть его близкие по смыслу слова, употребляемые в текстах новогодних поздравлений. Это предоставляет быстрый доступ и даёт больше информации о том, что говорится в поздравлениях.

Это векторное представление позволяет производить дальнейшие исследования текстов, преобразованных в числовую смысловую форму, а также генерировать новые тексты на основе таких моделей.

В следующей части приступим к анализу поздравлений западных лидеров. Следите за обновлениями.

Пишите в комментариях свои впечатления, наблюдения и пожелания.

Код проекта