Найти в Дзене
Парадоксов друг

Сравнительный анализ текстов романа "Тихий Дон" математическими методами. (Крюков или Шолохов?)

Оглавление

Приводится результаты сравнительного анализа текстов математическими методами романа-эпопеи "Тихий Дон".
В исследование включены: "Тихий Дон. Том 1", "Тихий Дон. Том 2", "Тихий Дон. Том 3", "Тихий Дон. Том 4".
Тексты взяты из: Собрание сочинений в 8 томах, издательство Гослитиздат, 1956-1960.
Ссылка на методику исследования:
Сравнительный анализ текстов математическими методами.

Общая информация

Таблица_1
Таблица_1

Начальное предположение

Таблица_2
Таблица_2

В таблице по вертикали (столбцам) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой метрики (столбца): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.

Коэффициенты вариаций имеют умеренную изменчивость, что нормально для текстов единой тематики. Судя по тепловой карте выделятся Тихий Дон_4.

Учитывая, что в разработанной методике Процент Подобия и Показатели Лексического разнообразия имеют наивысший приоритет, все последующие статистические тесты и сравнительные анализы будут оценивать полученный результат. Отсюда, начальное предположение сформулирую следующим образом:

Нулевая гипотеза: Текст романа Тихий Дон_4 не отличается от текстов романа Тихий Дон_1_2,3.
Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
Ортогональная гипотеза: Явные тенденции не обнаруживаются.

Распределение слов по длине

Таблица_3
Таблица_3

В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой строки "Длины слова": при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.

Коэффициент вариации меняется от умеренной изменчивости - в верхней части таблицы, до очень высокой изменчивости - в нижней части таблицы, по всему интервалу "Длина слова", что указывает на неоднородность между текстами по показателю "Длина слова".

По показателю Удельных весов Тихий Дон_4 отличается от Тихий Дон_1, Тихий Дон_2, Тихий Дон_3 по "Длине слова".

График_1
График_1
График_2
График_2

На представленном графике Тихий Дон_2_3_1 расположены последовательно по показателю "Доля слов длиною 10+ букв".

Частотность букв

Таблица_4
Таблица_4

Коэффициент вариации считается для каждой Буквы (строки): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Корреляция выборок показывает очень высокий уровень сходства распределения букв по частоте с эталоном (СКРЯ). Максимальное значение имеет Тихий Дон_4.
F-тест выборок показывает результат от умеренной до высокой вероятности сходства распределения букв по частоте с эталоном (СКРЯ). Максимальное значение имеет Тихий Дон_4.

Аномалии, на которые можно обратить внимание, не нахожу, потому без дополнительных исследований.

Анализ сходства текстов (NLP)

Таблица_5
Таблица_5

NLP показывает высокую оценку сходства текстов между собой, что является нормальным для литературных произведений, связанных единой тематикой и сюжетной линией.

Словарь лексической активности (СЛА)

Общие слова для всех текстов

Таблица_6
Таблица_6

По распределению частоты слов, общих для всех текстов Тихий Дон_4 показывает минимальные значения при умеренном уровне сходства.

Попарное сравнение текстов между собой

Таблица_7
Таблица_7

При попарном сравнении текстов между собой по СЛА высокую Степень сходства Процента подобия показывают пары: Тихий Дон_1 - Тихий Дон_3, Тихий Дон_2 - Тихий Дон_3, Тихий Дон_1 - Тихий Дон_2. Самую низкую Степень сходства Процента подобия имеет пара: Тихий Дон_3 - Тихий Дон_4.

Заключение для Начального предположения

В порядке понижения приоритета.

  1. Параметры Лексического разнообразия — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
  2. Словарь лексической активности (СЛА) — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
  3. Морфологический разбор — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
  4. Распределений слов по длине (Удельные веса) - Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
  5. Частотность букв (сравнение выборок с эталоном) — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
  6. Анализ сходства текстов (NLP) - Подтверждается Нулевая гипотеза: Текст романа Тихий Дон_4 не отличается от текстов романа Тихий Дон_1_2,3.

Выводы

На основе проведённого исследования текстов романа-эпопеи "Тихий Дон" можно констатировать, что:

  1. Тексты литературных произведений "Тихий Дон - Том 1, Том 2, Том 3" имеют высокую степень сходства и в целом согласуются между собой.
  2. Выявленные лексические и статистически значимые отличия не позволяют уверенно определить текст романа "Тихий Дон - Том 4" как однородный с текстами романа "Тихий Дон - Том 1, Том 2, Том 3".

Личное мнение

Многие известные люди, писатели и специалисты отписались по теме авторства романа-эпопеи "Тихий Дон. Хочется верить и очень надеюсь, что когда-нибудь Фёдору Крюкову вернут "Тихий Дон" и по достоинству оценят его литературный талант.