«Слово — одежда всех фактов, всех мыслей» — утверждал Максим Горький. Трудно не согласиться. Слова продолжают наш материальный образ и оказывают прямое влияние на то, как нас воспринимают окружающие. По сути, речь — такая же часть индивидуального стиля, как и одежда или обувь, которые мы носим.
Сегодня мы решили разобраться, во что одевали свои мысли в России последние 12 месяцев — и в качестве репрезентативной выборки взяли 100 самых прослушиваемых треков за прошлый год — ведь вслед за исполнителями, их тексты повторяли миллионы слушателей.
Немного о данных и методологии
12 из 100 самых прослушиваемых песен не имели слов совсем или их тексты были написаны на иностранном языке — поэтому в финальный датасет попали только 88 песен. Главными амбассадорами русского языка стали Anna Asti, Лёша Свик, Люся Чеботина, Егор Крид, JONY, ALEKS ATAMAN, FINIK и другие уважаемые ребята.
При подсчете мы учитывали только первое вхождение слова в текст — таким образом избавились от влияния припевов и повторов. Перед подсчетом слова были лемматизированы т. е. приведены к своим начальным формам. Также мы не учитывали так называемые «стоп-слова» — дополнительные слова, которые не несут смысловой нагрузки: местоимения, частицы и некоторые общеупотребительные глаголы.
Какие слова "качали" в 2022 году
На первом месте, конечно же, любовь (упоминается 36 раз) и все её производные — любить (28), полюбить (4) и т.д. Любовь — по-прежнему главная причина писать песни и главный источник вдохновения. Вечные ценности в целом не чужды современным лидерам мнений — душа встречается 16 раз, как и глагол верить, а бог — 6.
Пацаны на районе тоже могут быть спокойны. Брат упоминается 5 раз, пацаны - 7, бро и братик — по 2 раза; браток, братва и банда — по 1. Добавим сюда еще парня (10 раз) и ребят (3) — и можно не переживать за преемственность поколений. К тому же "пидар*с" в ста песнях нашелся только один (у признанного иноагентом MORGENSHTERN'a).
А вот говорить об эмансипации женщин и равных гендерных правах пока нельзя — «телка» и «киса» использованы столько же раз сколько и социально приемлемая «девушка» (все по 2 раза).
Хотите узнать, как поживает русский мат? Отвечаем — определенно сдает позиции. Нах*й используется в 6 песнях, а другие представители бранной лексики — бл*, х*й, е*ать и нах — по 2 раза. Так глядишь и детей скоро ничему не научат на улице.
P. S. Ознакомиться с блокнотом исследования можно здесь (.ipynb), а научить самостоятельно анализировать данные — на курсах Яндекс Практикума.