Найти в Дзене
Человек наук

Лев Толстой против Пикабу — статистика русского языка

Недавно я делал пост о частоте букв в русском языке. Из него вы узнали, что «О» встречается чаще, чем 14 самых редких букв вместе взятые, 50% языка написана всего 7 буквами, а «Ё» пора переносить из букваря в Красную книгу

Сегодня мы пойдём ещё дальше! Проанализируем не только буквы, но также их сочетания и целые слова. Для анализа возьмём 4 тома произведения «Война и мир» одного небезызвестного Льва. А для того, чтобы понять, насколько достояние культуры похоже на современный русский язык, сравним его с одним из самых популярных постов на Пикабу 2020 года. У него достаточно много комментариев, в которых люди говорят на разнообразные темы. Это отлично подходит для анализа языка. Вот содержание поста:

-2

Кажется, что язык в комментариях под такой картинкой будет совсем не таким, как в художественном произведении 19 века. Но достаточно длинные тексты становятся похожими друг на друга и подчиняются общим закономерностям. Например, сравним частоты букв:

-3

Они почти идентичны! Единственное, что явно выделяется — частота буквы «Т» в комментариях Пикабу. Предположу, что это связано с тем, что в посте обсуждают Билла ГейТса

Кстати, в комментариях получилось 83 тысячи слов, а в книге — 465 тысяч

Теперь посмотрим на статистику поинтереснее! И самое популярное слово… «И». «И» — самое популярное слово. В обоих текстах

-4
-5

«Топ 15» слов удивительно похожи! Настолько, что первые 4 слова полностью совпадают. Забавляют и суммарные числа слов. Читая «Войну и Мир», вам придётся больше 20 тысяч раз встретить слово «И». Предположим, что на его прочтение уходит одна десятая секунды. Тогда после завершения всех четырёх томов, вы суммарно потратите пол часа только на чтение слова «И»

Вы можете возразить, что эти слова необходимы для связывания текста, поэтому неудивительно, что они так часто встречаются. Можно удалить все предлоги, союзы, частицы и прочие «стоп-слова». Тогда тексты снова приобретают свою индивидуальность. По графику можно сказать, о чём в них шла речь и кто именно главный герой:

Кто по вашему мнению побеждает — Пьер или князь Болконский?
Кто по вашему мнению побеждает — Пьер или князь Болконский?
А сюда попало неожиданно много числительных
А сюда попало неожиданно много числительных

Тогда в топ «Войны и мир» попадает 2 французских «стоп-слова» — «de» и «a», что тоже забавно. А у Пьера Безухова и князя Болконского идёт нешуточная борьба за первое место

Ещё правильнее было бы привести слова к одинаковой форме (например, считать «Пьера» и «Пьер» или «Деньги» и «Денег» как одно и то же слово). Могу сделать это в следующих постах :) Пишите, анализ каких текстов вам ещё хотелось бы увидеть или если у вас есть идеи для более интересного анализа

И подписывайтесь на наш телеграм-канал!