Пушкин или Лермонтов, Толстой или Достоевский - кто любил глаголы, а кто существительные?
Никогда не думали о том, что у каждого из русских писателей был свой неповторимый стиль, свой строй языка, своя комбинаторика букв, слов, предложений, (который и сделал их гениями русской литературы и культуры) но который можно попробовать посчитать и оцифровать? Каждый из них имел свой словарный запас, свой набор слов - который и помогал им выражать ту гениальность и неповторимость их литературных произведений, который невозможно просчитать и оценить на одной странице, но можно соединить по итогу всех их произведений.
Какой любимый глагол у Пушкина, почему в первой части Войны и мира Толстой употреблял в два раза меньше инфинитивов, чем в четвертой? Почему Пушкин употреблял в два раз меньше кратких прилагательных, чем Лермонтов?
У кого самый обширный словарный запас?
Каждая буква имеет свой вес, каждое слово – свое значение, каждое предложение – свое описание явления, каждый текст – свою историю, каждое произведение – свой посыл человечеству…
Эта статья - для желающих оценить и сравнить богатство языка разных писателей в числовом формате. Для любителей русской литературы и словесности - богатое поле для анализа, размышлений, оценок, а возможно, и будущих научных исследований.
Все исследование которые мы проводили основываются на понятие Лексемы и Леммы.
Что такое лексема?
Вот как понятие лексемы представлено в Wikipedia Лексема (от др.-греч. λέξις — слово, выражение, оборот речи) в лингвистике — единица языка, являющаяся единицей словарного состава языка.
Она представляет собой совокупность всех парадигматических форм (словоформ) одного слова и их лексических значений.
Например, словарь, словарём, словарю — это формы одной и той же лексемы, по соглашению пишущейся как «словарь».
В ряде концепций в лексему включаются разные смысловые варианты слова, зависящие от контекста, в котором оно употребляется.
Лексема — важнейшее понятие морфологии.
В свою очередь, Лемма — это каноническая форма слова (например, в русском языке это форма единственного числа, именительного падежа для существительных).
Таким образом Лемма – это базовая, но лишь одна из форм слова, а Лексема – это все множество форм слова, совокупность всех его форм.
Когда мы проводим анализ того или иного литературного произведения мы изначально приводим все слова в состояние леммы (производим лемматизацию текста) , а уже затем производим определённый анализ и подсчеты.
Вот небольшой пример лемматизации текста:
Исходный текст А.С. Пушкина, Евгений Онегин:
"Мой дядя самых честных правил,
Когда не в шутку занемог,
Он уважать себя заставил
И лучше выдумать не мог.
Его пример другим наука;
Но, боже мой, какая скука
С больным сидеть и день и ночь,
Не отходя ни шагу прочь!
Какое низкое коварство
Полуживого забавлять,
Ему подушки поправлять,
Печально подносить лекарство,
Вздыхать и думать про себя:
Когда же черт возьмет тебя!"
Текст полученный после процесса лематизации:
"мой дядя самый честной правил,
когда не в шутка занемог,
он уважать себя заставить
и хороший выдумать не мог.
он пример другой наука;
но, бог мой, какой скука
с больной сидеть и день и ночь,
не отходить ни шаг прочь!
какой низкий коварство
полуживой забавлять,
он подушка поправлять,
печально подносить лекарство,
вздыхать и думать про себя:
когда же черт взять ты"
При определении словарного запаса автора мы должны все имеющееся в его произведении словоформы (лексемы) привести к одно лемме, которая и попадет в наш анализ. В данном примере, слова "Он", "Ему", "Его" – это словоформы одной и то же лексемы, которая имеем лемму "Он". И в словарный запас Пушкина попадет одно слово "Он".
Итак, давайте посмотрим не некоторые результаты подобных подсчетов:
(красным шрифтом выделены фамилии, по-большей части связанные с поэтическими произведениями).
Давайте посмотрим в разрезе частей речи:
Кто чаще остальных пользовался существительными?:
Вы можете воспользоваться ссылкой для загрузки файла с диаграммой и данными: здесь
И мы видим, что Тютчев употреблял существительные почти в два раза чаще (1 существительное на 2,78 слово в среднем), чем к примеру, Достоевский (1 существительное на 4,18 слово в среднем). Подобные морфологические различия безусловно представляю интерес для любителей и профессиональных исследователей русской словесности.
А кто был фанатом глаголов?:
Вы можете воспользоваться ссылкой для загрузки файла с диаграммой и данными: здесь
И можно задаться вопросом- почему поэт Андрей Белый употреблял глаголы в два раза чаще (1 глагол на 6,89 слово в среднем), чем поэт Евгений Боратынский (1 глагол на 15.17 слово в среднем)? Или почему писатель Максим Горький любил глаголы (1 глагол на 6,35 слово в среднем) в два раза больше, чем писатель же Лев Толстой (1 глагол на 9,04 слово в среднем)?
Также несколько других данных:
Это может представлять интерес при сравнительном анализе стилистики и морфологии литературных произведений.
Подобный сравнительный количественный анализ был произведен в отношении следующей выборки по частям речи: Частота_Существительное, Частота_Прилагательное (полное), Частота_Прилагательное (краткое), Частота_Компаратив, Частота_Глагол (личная форма), Частота_Глагол (инфинитив), Частота_Причастие (полное), Частота_Причастие (краткое), Частота_Деепричастие, Частота_Числительное, Частота_Наречие, Частота_Местоимение, Частота_Предикатив, Частота_Предлог, Частота_Союз, Частота_Частица, Частота_Междометие, Частота_Все прилагательные, Частота_Все глаголы, Частота_Все причастия.
Под частотой подразумевается количество указных частей речи на общее количество слов в произведениях автора (одно слово из 3, или из 5 или 10 и т.д.). Также произведен подсчет общего количества лемм по указанным выборкам.
При анализе словарного запаса российских авторов также был произведен подсчет длины слов и длины предложений, употребляемых авторами и произведен подсчет количества слова и предложений той или иной длины.
Вот пример:
Интересен результата анализа на длину предложений у разных авторов. Вот суммарный перечень по тем же авторам, по тем же томам (первое число в каждом словаре – это количество слов в предложении, второе число – количество предложений с указанным количеством слов в указанном томе):
Zvetaeva_Zvetaeva_4.txt : Counter({0: 5835, 1: 2921, 3: 2514, 4: 2427, 2: 2189, 5: 2030, 6: 1940, 7: 1576, 8: 1338, 9: 1134, 10: 983, 11: 884, 12: 707, 13: 604, 14: 598, 15: 485, 16: 443, 17: 389, 18: 330, 19: 288, 20: 261, 23: 211, 21: 207, 22: 192, 24: 143, 25: 116, 26: 112, 27: 111, 30: 102, 29: 99, 28: 86, 31: 70, 32: 63, 33: 54, 34: 53, 37: 41, 35: 41, 36: 37, 39: 34, 38: 33, 41: 25, 40: 24, 44: 19, 42: 17, 47: 16, 43: 14, 46: 14, 45: 13, 52: 12, 48: 11, 50: 11, 53: 10, 57: 9, 49: 7, 59: 6, 55: 6, 68: 6, 51: 5, 69: 4, 54: 4, 62: 4, 63: 4, 60: 3, 56: 3, 65: 3, 58: 2, 71: 2, 107: 2, 83: 2, 64: 2, 80: 2, 74: 2, 82: 1, 99: 1, 70: 1, 76: 1, 77: 1, 66: 1, 73: 1, 67: 1, 92: 1, 126: 1, 72: 1, 81: 1})
Voloshin_Voloshin_5.txt: Counter({0: 6112, 1: 4923, 2: 2310, 3: 1726, 4: 1385, 5: 1143, 6: 1081, 7: 1010, 8: 939, 10: 866, 9: 835, 11: 783, 12: 738, 13: 668, 14: 609, 15: 551, 16: 526, 17: 501, 18: 472, 19: 423, 20: 378, 21: 319, 22: 295, 23: 288, 24: 252, 25: 225, 26: 202, 27: 189, 28: 179, 29: 149, 30: 135, 33: 110, 31: 109, 32: 106, 35: 80, 34: 79, 37: 76, 38: 74, 36: 71, 40: 61, 39: 59, 42: 45, 43: 41, 41: 39, 45: 32, 44: 31, 49: 29, 46: 26, 47: 25, 52: 22, 48: 20, 56: 19, 53: 18, 51: 17, 50: 17, 54: 15, 59: 15, 58: 13, 62: 11, 60: 10, 55: 9, 66: 8, 57: 7, 61: 7, 64: 6, 71: 6, 67: 5, 65: 5, 70: 5, 76: 5, 63: 5, 88: 4, 80: 4, 69: 4, 68: 4, 79: 4, 82: 3, 86: 3, 77: 3, 83: 3, 87: 3, 78: 2, 73: 2, 75: 2, 90: 2, 72: 2, 115: 1, 101: 1, 104: 1, 95: 1, 110: 1, 91: 1, 122: 1, 98: 1, 153: 1, 163: 1, 121: 1, 105: 1, 120: 1, 74: 1})
Tutchev_Тютчев_5.txt: Counter({0: 3963, 1: 3792, 2: 1216, 4: 1114, 3: 985, 5: 873, 6: 813, 7: 660, 8: 617, 9: 574, 10: 538, 11: 505, 12: 415, 14: 394, 13: 378, 15: 345, 16: 303, 17: 282, 19: 280, 18: 269, 21: 221, 22: 212, 20: 188, 25: 164, 23: 160, 24: 138, 26: 135, 28: 125, 27: 120, 29: 107, 30: 100, 31: 82, 32: 81, 33: 80, 35: 69, 34: 60, 37: 53, 36: 48, 38: 46, 39: 40, 41: 32, 42: 27, 43: 26, 40: 23, 50: 23, 47: 22, 46: 22, 44: 21, 45: 21, 48: 19, 51: 17, 49: 16, 56: 11, 58: 10, 52: 9, 53: 8, 60: 8, 54: 7, 55: 7, 66: 7, 64: 6, 71: 6, 65: 5, 57: 5, 72: 4, 61: 4, 62: 4, 59: 4, 63: 4, 68: 3, 78: 3, 80: 3, 69: 3, 89: 2, 74: 2, 70: 2, 90: 2, 67: 2, 86: 1, 91: 1, 75: 1, 82: 1, 73: 1, 92: 1, 124: 1, 137: 1, 79: 1, 101: 1, 117: 1, 113: 1, 97: 1, 110: 1})
Turgenev_turgenev-ss30-01.epub: Counter({1: 2492, 2: 1890, 3: 1170, 4: 977, 5: 870, 6: 810, 7: 639, 8: 602, 0: 560, 9: 495, 10: 470, 11: 441, 12: 390, 13: 350, 14: 300, 15: 263, 16: 222, 17: 218, 18: 187, 19: 172, 20: 163, 22: 130, 21: 127, 24: 100, 23: 90, 25: 82, 26: 79, 27: 71, 28: 69, 29: 56, 30: 53, 31: 51, 32: 47, 34: 47, 33: 42, 37: 33, 36: 32, 35: 30, 39: 26, 38: 24, 41: 22, 40: 22, 44: 20, 42: 19, 48: 18, 47: 16, 45: 15, 50: 14, 43: 13, 49: 13, 46: 11, 53: 9, 51: 9, 61: 7, 54: 6, 56: 6, 52: 5, 57: 5, 68: 5, 58: 4, 76: 4, 70: 4, 59: 4, 71: 4, 55: 3, 62: 3, 66: 3, 67: 3, 73: 2, 88: 2, 75: 2, 79: 2, 94: 2, 65: 2, 90: 2, 64: 2, 63: 2, 81: 1, 77: 1, 126: 1, 84: 1, 268: 1, 72: 1, 100: 1, 110: 1, 74: 1, 83: 1, 112: 1, 117: 1, 91: 1, 69: 1, 105: 1})
Tolstoy_LN_84_tom.epub: Counter({1: 4383, 2: 3546, 4: 1780, 3: 1598, 5: 1364, 6: 1116, 7: 892, 8: 735, 9: 628, 10: 571, 11: 493, 12: 411, 13: 374, 14: 314, 15: 278, 16: 260, 17: 214, 18: 192, 20: 159, 19: 153, 21: 134, 0: 125, 22: 111, 23: 87, 28: 72, 26: 68, 24: 67, 25: 67, 27: 56, 29: 40, 30: 31, 31: 31, 32: 30, 35: 25, 33: 24, 34: 22, 41: 19, 37: 18, 39: 16, 36: 12, 43: 11, 45: 10, 44: 10, 40: 8, 38: 8, 49: 7, 47: 7, 42: 6, 53: 5, 46: 5, 57: 5, 51: 5, 48: 4, 58: 4, 59: 4, 65: 4, 50: 3, 56: 3, 54: 3, 64: 3, 67: 2, 69: 2, 66: 2, 78: 2, 169: 1, 115: 1, 122: 1, 75: 1, 77: 1, 63: 1, 60: 1, 55: 1, 52: 1, 158: 1, 83: 1, 89: 1, 72: 1, 74: 1, 91: 1, 242: 1, 196: 1, 270: 1, 81: 1, 106: 1, 76: 1, 153: 1, 110: 1, 104: 1, 226: 1})
Saltikov_Schedrin_Saltikov_Schedrin_6.txt: Counter({0: 4036, 1: 3393, 2: 1587, 3: 1177, 4: 1069, 5: 900, 6: 801, 7: 713, 8: 644, 9: 557, 11: 535, 10: 524, 12: 511, 13: 476, 14: 446, 15: 436, 16: 409, 17: 368, 18: 349, 19: 342, 23: 340, 20: 315, 21: 307, 22: 285, 24: 265, 26: 250, 27: 239, 25: 233, 28: 203, 30: 194, 29: 185, 31: 154, 33: 153, 34: 151, 32: 147, 35: 129, 38: 114, 36: 113, 37: 106, 39: 98, 40: 92, 41: 82, 42: 70, 43: 68, 45: 59, 47: 57, 44: 57, 46: 54, 49: 46, 50: 46, 51: 46, 48: 41, 52: 29, 54: 29, 55: 28, 53: 26, 56: 23, 60: 23, 57: 22, 61: 21, 58: 21, 62: 19, 65: 17, 59: 16, 67: 15, 66: 13, 64: 12, 70: 12, 63: 12, 68: 11, 73: 9, 78: 8, 72: 8, 71: 7, 74: 7, 85: 6, 69: 6, 76: 5, 86: 5, 87: 5, 92: 4, 88: 4, 84: 3, 91: 3, 82: 3, 79: 3, 89: 3, 95: 2, 80: 2, 99: 2, 100: 2, 90: 2, 77: 2, 75: 2, 110: 1, 93: 1, 158: 1, 171: 1, 118: 1, 83: 1, 94: 1, 103: 1, 96: 1, 168: 1, 102: 1, 127: 1, 98: 1, 143: 1, 101: 1, 125: 1, 140: 1, 116: 1})
Ahmatova_Ahmatova_7.pdf: Counter({0: 2899, 1: 1449, 2: 964, 3: 880, 4: 733, 5: 676, 7: 605, 8: 535, 6: 505, 9: 431, 11: 387, 10: 369, 13: 346, 14: 321, 12: 302, 15: 271, 16: 264, 17: 236, 18: 229, 19: 208, 22: 174, 21: 168, 20: 164, 24: 128, 23: 122, 25: 120, 27: 99, 26: 97, 28: 86, 31: 80, 29: 79, 32: 76, 30: 68, 33: 63, 34: 61, 38: 57, 35: 40, 41: 38, 36: 36, 40: 30, 43: 30, 42: 29, 39: 29, 37: 27, 47: 21, 44: 20, 45: 18, 49: 16, 50: 15, 54: 13, 52: 12, 56: 10, 46: 9, 51: 8, 48: 7, 58: 7, 53: 7, 65: 6, 57: 6, 55: 5, 59: 5, 60: 5, 80: 4, 66: 4, 73: 4, 64: 4, 74: 3, 68: 3, 71: 2, 83: 2, 72: 2, 67: 2, 87: 2, 89: 2, 99: 2, 82: 2, 81: 2, 86: 2, 69: 1, 98: 1, 63: 1, 70: 1, 76: 1, 97: 1, 96: 1, 61: 1, 112: 1, 62: 1})
При комплексном анализе видим любителей «больших форм» при построении своего текста.
Средняя (есть также медианная) длина предложения по авторам:
Вы можете воспользоваться ссылкой для загрузки файла с диаграммой и данными: здесь
Объектом анализа послужил список произведений 70 крупнейших русских писателей и поэтов по количеству изданий по данным Российской книжной палаты РФ (дано процентное соотношение по числу изданий произведений каждого автора):
Для анализа либо академические издания полных собраний сочинений, либо наиболее полные собрания сочинений того или иного автора. Анализ производился в разрезе разных томов издания, в связи с тем, что в академических изданиях публиковались не только официальные версии текста произведений, но также разные версии произведений, переписка и дневники авторов, вошедшие в отдельные тома. Что позволяет либо включать, либо выключать подобные тексты из общей статистики анализа.
Таким образом, получен не просто словарный запас по каждому автору, а произведен его качественно – количественный анализ. Возможно, в сравнительном аспекте подобное исследование может представлять интерес для филологов и литераторов в самом широком диапазоне исследований.