Приводится результаты сравнительного анализа текстов литературных произведений Захара Прилепина математическими методами.
В исследование включены: "Грех", "Некоторые не попадут в ад", "Обитель", "Патологии", "Санькя", "Тума", "Чёрная обезьяна".
Ссылка на методику исследования: Сравнительный анализ текстов математическими методами
Начальное предположение
В таблице по вертикали (столбцам) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой метрики (столбца): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициенты вариаций имеют умеренную изменчивость.
Судя по тепловой карте можно констатировать, что текст романа "Тума" явно выделяется на фоне умеренного однообразия других текстов. Учитывая, что в разработанной методике Процент Подобия и Показатели Лексического разнообразия имеют наивысший приоритет, все последующие статистические тесты и сравнительные анализы будут оценивать полученный результат. Отсюда, начальное предположение сформулирую следующим образом:
Нулевая гипотеза: Текст романа "Тума" не отличается от других произведений Захара Прилепина.
Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
Ортогональная гипотеза: Явные тенденции не обнаруживаются.
Распределение слов по длине
В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой строки "Длины слова": при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициент вариации меняется от низкой изменчивости - в верхней части таблицы, до очень высокой изменчивости - в нижней части таблицы, что указывает на умеренную однородность между текстами по показателю "Длина слова".
По показателю Удельных весов "Тума" и "Некоторые не попадут в ад" занимают крайние противоположные позиции. Минимум "Тумы" соответствуют максимуму "Некоторые не попадут в ад" и наоборот.
Исходя из таблицы "Распределения слов по длине" текст "Тума" набирает наибольшее количество крайних значений - 12 минимумов и максимумов. Следующий по количеству крайних значений текст "Некоторые не попадут в ад" имеет 9 минимумов и максимумов.
На представленном графике "Доля слов длиною 10+ букв" текст "Тума" занимает крайнее положение с минимальным значением.
Частотность букв
В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой Буквы (строки): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Корреляция распределения частотности букв показывает высокий уровень сходства между текстами, близкую к эталону (СКРЯ). На текстах большого объёма сравнительный анализ по частотности букв не имеет смысла.
Обращает на себя внимание неоднородность по коэффициенту вариации буквы "т" и буквы "э". Ниже проведу дополнительное исследование указанных букв.
Анализ сходства текстов (NLP)
NLP явных тенденций между текстами не выделяет.
Словарь лексической активности (СЛА)
Общие слова для всех текстов
Расчёт Процента Подобия по общему для всех текстов СЛА. Топ-20 самых длинных слов из СЛА для всех текстов.
По распределению частоты слов, общих для всех текстов явные тенденции не обнаруживаются. Пары с текстом "Тума" показывают минимальные значения Взвешенной оценки сходства при умеренном Уровне сходства с другими текстами.
Попарное сравнение текстов между собой
При попарном сравнении текстов между собой по СЛА низкую Степень сходства Процента подобия при умеренном Уровне сходства с другими текстами, показывают пары с текстом "Тума".
Дополнительные исследования
Текст романа «Туман» значительно отличается от других текстов, потому решил провести дополнительное исследование текстов на буквы «т» и «э», имеющих значимую вариативность и крайние значения частотности.
Исследование буквы "Т"
Топ-20 слов длиною более 4-х букв, содержащих букву "т" на "очищенных" текстах "Патологии" и "Тума", повторяющиеся слова выделены зелёным цветом:
В "Патологии" чаще говорят, смотрят, видят и спрашивают. В "Туме" чаще обращаются к Степану. Повторяются 5 слов.
Для сравнения приведу Топ-20 слов длиною более 4-х букв, содержащих букву "т" на "очищенных" текстах "Обитель" и "Патологии", повторяющиеся слова выделены зелёным цветом:
Количество повторяющихся слов увеличилось и составило - 10 слов.
Исследование буквы "Э"
Топ-20 слов длиною более 4-х букв, содержащих букву "э" на "неочищенных" текстах "Некоторые не попадут в ад" и "Тума":
Здесь обнаружились странности: отсутствие повторяющихся слов и отсутствие в тексте "Тума" словоформ от слова "ЭТО", которые во множестве присутствуют в тексте "Некоторые не попадут в ад".
Решил изучить эту аномалию. Выписал все словоформы слова "ЭТО" из Словаря лексической активности с "Тумой" и без "Тумы":
Удивительно, но в тексте "Тума" всего лишь 5 слов образованных от слова "ЭТО", которые повторятся в сумме 8 раз, тогда как в других текстах 11 словоформ от слова "ЭТО" повторяются в общей сложности 4730 раз.
Заключение для Начального предположения
В порядке понижения приоритета.
- Параметры Лексического разнообразия — Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
- Словарь лексической активности (СЛА) — Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
- Морфологисекий разбор — Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
- Распределений слов по длине (удельные веса) - Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
- Анализ сходства текстов (NLP) - Подтверждается Ортогональная гипотеза: Явные тенденции не обнаруживаются.
Общий вывод:
На основе проведённого исследования текстов Захара Прилепина можно констатировать, что:
- Тексты литературных произведений "Грех", "Некоторые не попадут в ад", "Обитель", "Патологии", "Санькя", "Чёрная обезьяна" имеют высокую степень сходства и в целом хорошо согласуются между собой.
- Выявленные лексические и статистически значимые отличия не позволяют уверенно идентифицировать автора романа "Тума".
Личное мнение
Математика и статистика всего лишь бездушные цифры, а вывод, как всегда за специалистами.