Найти в Дзене
Парадоксов друг

Сравнительный анализ текстов произведений Захара Прилепина

Оглавление

Приводится результаты сравнительного анализа текстов литературных произведений Захара Прилепина математическими методами.

В исследование включены: "Грех", "Некоторые не попадут в ад", "Обитель", "Патологии", "Санькя", "Тума", "Чёрная обезьяна".

Ссылка на методику исследования: Сравнительный анализ текстов математическими методами

Начальное предположение

Таблица_1
Таблица_1

В таблице по вертикали (столбцам) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой метрики (столбца): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.

Коэффициенты вариаций имеют умеренную изменчивость.

Судя по тепловой карте можно констатировать, что текст романа "Тума" явно выделяется на фоне умеренного однообразия других текстов. Учитывая, что в разработанной методике Процент Подобия и Показатели Лексического разнообразия имеют наивысший приоритет, все последующие статистические тесты и сравнительные анализы будут оценивать полученный результат. Отсюда, начальное предположение сформулирую следующим образом:

Нулевая гипотеза: Текст романа "Тума" не отличается от других произведений Захара Прилепина.
Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
Ортогональная гипотеза: Явные тенденции не обнаруживаются.

Распределение слов по длине

Таблица_2
Таблица_2

В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой строки "Длины слова": при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.

Коэффициент вариации меняется от низкой изменчивости - в верхней части таблицы, до очень высокой изменчивости - в нижней части таблицы, что указывает на умеренную однородность между текстами по показателю "Длина слова".

По показателю Удельных весов "Тума" и "Некоторые не попадут в ад" занимают крайние противоположные позиции. Минимум "Тумы" соответствуют максимуму "Некоторые не попадут в ад" и наоборот.

Исходя из таблицы "Распределения слов по длине" текст "Тума" набирает наибольшее количество крайних значений - 12 минимумов и максимумов. Следующий по количеству крайних значений текст "Некоторые не попадут в ад" имеет 9 минимумов и максимумов.

График_1
График_1
График_2
График_2

На представленном графике "Доля слов длиною 10+ букв" текст "Тума" занимает крайнее положение с минимальным значением.

Частотность букв

Таблица_3
Таблица_3

В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой Буквы (строки): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.

Корреляция распределения частотности букв показывает высокий уровень сходства между текстами, близкую к эталону (СКРЯ). На текстах большого объёма сравнительный анализ по частотности букв не имеет смысла.

Обращает на себя внимание неоднородность по коэффициенту вариации буквы "т" и буквы "э". Ниже проведу дополнительное исследование указанных букв.

Анализ сходства текстов (NLP)

Таблица_4
Таблица_4

NLP явных тенденций между текстами не выделяет.

Словарь лексической активности (СЛА)

Общие слова для всех текстов

Таблица_5
Таблица_5

Расчёт Процента Подобия по общему для всех текстов СЛА. Топ-20 самых длинных слов из СЛА для всех текстов.

Таблица_6
Таблица_6

По распределению частоты слов, общих для всех текстов явные тенденции не обнаруживаются. Пары с текстом "Тума" показывают минимальные значения Взвешенной оценки сходства при умеренном Уровне сходства с другими текстами.

Попарное сравнение текстов между собой

Таблица_7
Таблица_7

При попарном сравнении текстов между собой по СЛА низкую Степень сходства Процента подобия при умеренном Уровне сходства с другими текстами, показывают пары с текстом "Тума".

Дополнительные исследования

Текст романа «Туман» значительно отличается от других текстов, потому решил провести дополнительное исследование текстов на буквы «т» и «э», имеющих значимую вариативность и крайние значения частотности.

Исследование буквы "Т"

Топ-20 слов длиною более 4-х букв, содержащих букву "т" на "очищенных" текстах "Патологии" и "Тума", повторяющиеся слова выделены зелёным цветом:

Таблица_10
Таблица_10

В "Патологии" чаще говорят, смотрят, видят и спрашивают. В "Туме" чаще обращаются к Степану. Повторяются 5 слов.

Для сравнения приведу Топ-20 слов длиною более 4-х букв, содержащих букву "т" на "очищенных" текстах "Обитель" и "Патологии", повторяющиеся слова выделены зелёным цветом:

Таблица_11
Таблица_11

Количество повторяющихся слов увеличилось и составило - 10 слов.

Исследование буквы "Э"

Топ-20 слов длиною более 4-х букв, содержащих букву "э" на "неочищенных" текстах "Некоторые не попадут в ад" и "Тума":

Таблица_12
Таблица_12

Здесь обнаружились странности: отсутствие повторяющихся слов и отсутствие в тексте "Тума" словоформ от слова "ЭТО", которые во множестве присутствуют в тексте "Некоторые не попадут в ад".

Решил изучить эту аномалию. Выписал все словоформы слова "ЭТО" из Словаря лексической активности с "Тумой" и без "Тумы":

Таблица_13
Таблица_13
Таблица 14
Таблица 14

Удивительно, но в тексте "Тума" всего лишь 5 слов образованных от слова "ЭТО", которые повторятся в сумме 8 раз, тогда как в других текстах 11 словоформ от слова "ЭТО" повторяются в общей сложности 4730 раз.

Заключение для Начального предположения

В порядке понижения приоритета.

  1. Параметры Лексического разнообразия — Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
  2. Словарь лексической активности (СЛА) — Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
  3. Морфологисекий разбор — Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
  4. Распределений слов по длине (удельные веса) - Подтверждается Альтернативная гипотеза: Текст романа "Тума" отличается от других произведений Захара Прилепина.
  5. Анализ сходства текстов (NLP) - Подтверждается Ортогональная гипотеза: Явные тенденции не обнаруживаются.

Общий вывод:

На основе проведённого исследования текстов Захара Прилепина можно констатировать, что:

  1. Тексты литературных произведений "Грех", "Некоторые не попадут в ад", "Обитель", "Патологии", "Санькя", "Чёрная обезьяна" имеют высокую степень сходства и в целом хорошо согласуются между собой.
  2. Выявленные лексические и статистически значимые отличия не позволяют уверенно идентифицировать автора романа "Тума".

Личное мнение

Математика и статистика всего лишь бездушные цифры, а вывод, как всегда за специалистами.