Приводится результаты сравнительного анализа текстов математическими методами романа-эпопеи "Тихий Дон".
В исследование включены: "Тихий Дон. Том 1", "Тихий Дон. Том 2", "Тихий Дон. Том 3", "Тихий Дон. Том 4".
Тексты взяты из: Собрание сочинений в 8 томах, издательство Гослитиздат, 1956-1960.
Ссылка на методику исследования: Сравнительный анализ текстов математическими методами.
Общая информация
Начальное предположение
В таблице по вертикали (столбцам) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой метрики (столбца): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициенты вариаций имеют умеренную изменчивость, что нормально для текстов единой тематики. Судя по тепловой карте выделятся Тихий Дон_4.
Учитывая, что в разработанной методике Процент Подобия и Показатели Лексического разнообразия имеют наивысший приоритет, все последующие статистические тесты и сравнительные анализы будут оценивать полученный результат. Отсюда, начальное предположение сформулирую следующим образом:
Нулевая гипотеза: Текст романа Тихий Дон_4 не отличается от текстов романа Тихий Дон_1_2,3.
Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
Ортогональная гипотеза: Явные тенденции не обнаруживаются.
Распределение слов по длине
В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой строки "Длины слова": при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициент вариации меняется от умеренной изменчивости - в верхней части таблицы, до очень высокой изменчивости - в нижней части таблицы, по всему интервалу "Длина слова", что указывает на неоднородность между текстами по показателю "Длина слова".
По показателю Удельных весов Тихий Дон_4 отличается от Тихий Дон_1, Тихий Дон_2, Тихий Дон_3 по "Длине слова".
На представленном графике Тихий Дон_2_3_1 расположены последовательно по показателю "Доля слов длиною 10+ букв".
Частотность букв
Коэффициент вариации считается для каждой Буквы (строки): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Корреляция выборок показывает очень высокий уровень сходства распределения букв по частоте с эталоном (СКРЯ). Максимальное значение имеет Тихий Дон_4.
F-тест выборок показывает результат от умеренной до высокой вероятности сходства распределения букв по частоте с эталоном (СКРЯ). Максимальное значение имеет Тихий Дон_4.
Аномалии, на которые можно обратить внимание, не нахожу, потому без дополнительных исследований.
Анализ сходства текстов (NLP)
NLP показывает высокую оценку сходства текстов между собой, что является нормальным для литературных произведений, связанных единой тематикой и сюжетной линией.
Словарь лексической активности (СЛА)
Общие слова для всех текстов
По распределению частоты слов, общих для всех текстов Тихий Дон_4 показывает минимальные значения при умеренном уровне сходства.
Попарное сравнение текстов между собой
При попарном сравнении текстов между собой по СЛА высокую Степень сходства Процента подобия показывают пары: Тихий Дон_1 - Тихий Дон_3, Тихий Дон_2 - Тихий Дон_3, Тихий Дон_1 - Тихий Дон_2. Самую низкую Степень сходства Процента подобия имеет пара: Тихий Дон_3 - Тихий Дон_4.
Заключение для Начального предположения
В порядке понижения приоритета.
- Параметры Лексического разнообразия — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
- Словарь лексической активности (СЛА) — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
- Морфологический разбор — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
- Распределений слов по длине (Удельные веса) - Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
- Частотность букв (сравнение выборок с эталоном) — Подтверждается Альтернативная гипотеза: Текст романа Тихий Дон_4 отличается от текстов романа Тихий Дон_1_2,3.
- Анализ сходства текстов (NLP) - Подтверждается Нулевая гипотеза: Текст романа Тихий Дон_4 не отличается от текстов романа Тихий Дон_1_2,3.
Выводы
На основе проведённого исследования текстов романа-эпопеи "Тихий Дон" можно констатировать, что:
- Тексты литературных произведений "Тихий Дон - Том 1, Том 2, Том 3" имеют высокую степень сходства и в целом согласуются между собой.
- Выявленные лексические и статистически значимые отличия не позволяют уверенно определить текст романа "Тихий Дон - Том 4" как однородный с текстами романа "Тихий Дон - Том 1, Том 2, Том 3".
Личное мнение
Многие известные люди, писатели и специалисты отписались по теме авторства романа-эпопеи "Тихий Дон. Хочется верить и очень надеюсь, что когда-нибудь Фёдору Крюкову вернут "Тихий Дон" и по достоинству оценят его литературный талант.