Приводятся результаты сравнительного анализа текстов произведений Михаила Булгакова математическими методами.
В исследование включены: "Белая гвардия", "Дьяволиада"+"Роковые яйца", "Мастер и Маргарита", "Собачье сердце", Театральный роман".
Ссылка на методику исследования: Сравнительный анализ текстов математическими методами
Общий информация
Начальное предположение
В таблице по вертикали (столбцам) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой метрики (столбца): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициенты вариаций имеют умеренную изменчивость.
Судя по тепловой карте можно констатировать, что текст "Театральный роман" незначительно выделяется на фоне умеренного однообразия других текстов. Учитывая, что в разработанной методике Процент Подобия и Показатели Лексического разнообразия имеют наивысший приоритет, все последующие статистические тесты и сравнительные анализы будут оценивать полученный результат. Отсюда, начальное предположение сформулирую следующим образом:
Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
Альтернативная гипотеза: Текст романа "Театральный роман" отличается от других произведений Михаила Булгакова.
Ортогональная гипотеза: Явные тенденции не обнаруживаются.
Распределение слов по длине
В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой строки "Длины слова": при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициент вариации меняется от низкой изменчивости - в верхней части таблицы, до очень высокой изменчивости - в нижней части таблицы, что указывает на умеренную однородность между текстами по показателю "Длина слова".
По показателю Удельных весов явной тенденции не обнаруживается - изменчивость укладывается в рамки малых значений вариации.
На представленном графике "Доля слов длиною 10+ букв" текст "Театральный роман" не выделяется крайними значениями.
Частотность букв
В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой Буквы (строки): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.".
Корреляция выборок показывает очень высокий уровень сходства распределения букв по частоте с эталоном (СКРЯ). Минимальное значение имеет "Собачье сердце", максимальное - "Мастер и Маргарита".
F-тест выборок показывает результат от высокой до очень высокой вероятности сходства распределения букв по частоте с эталоном (СКРЯ). Минимальное значение имеет "Белая гвардия", максимальное - "Мастер и Маргарита".
Обращает на себя внимание буква "ф". В тексте "Собачье сердце" буквы "ф" больше почти в 5 раз, чем в тексте "Белая гвардия". Ниже проведу дополнительное исследование указанной буквы.
Анализ сходства текстов (NLP)
По NLP текст "Театральный роман" показывает значения от умеренной до высокой вероятности сходства с текстами других произведений.
Словарь лексической активности
Общие слова для всех текстов
По распределению частоты слов, общих для всех текстов "Театральный роман" не выделяется крайними значениями.
Попарное сравнение текстов между собой
При попарном сравнении текстов между собой по СЛА текст "Театральный роман" не сошлись по сходству с текстом "Собачье сердце". С остальными произведениями текст "Театральный роман" имеет высокую и очень высокую степень сходства.
Дополнительные исследования
Как указано выше в тексте "Собачье сердце" буквы "ф" больше почти в 5 раз, чем в тексте "Белая гвардия". Решил провести дополнительное исследование указанных текстов, для чего составил топ-20 слов длиною более 4-х букв, содержащих букву "ф" на "очищенном" тексте. Повторяющиеся слова выделены зелёным цветом.
Профессор Филипп Филиппович и его подопытный Полиграф Полиграфович, вполне себе однозначно, внесли ясность в этот вопрос.
Заключение для Начального предположения
В порядке понижения приоритета.
- Параметры Лексического разнообразия — Подтверждается Альтернативная гипотеза: Текст романа "Театральный роман" отличается от других произведений Михаила Булгакова.
- Словарь лексической активности (СЛА) — Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
- Морфологический разбор — Подтверждается Подтверждается Альтернативная гипотеза: Текст романа "Театральный роман" отличается от других произведений Михаила Булгакова..
- Распределений слов по длине (Удельные веса) - Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
- Частотность букв (сравнение выборок с эталоном) — Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
- Анализ сходства текстов (NLP) - Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
Общий вывод:
На основе проведённого исследования текстов произведений Михаила Булгакова можно отметить, что:
- Лексические отличия текста "Театральный роман" не подтверждаются статистическими тестами.
- Тексты литературных произведений "Белая гвардия", "Дьяволиада"+"Роковые яйца", "Мастер и Маргарита", "Собачье сердце", Театральный роман" имеют умеренную степень сходства и в целом умеренно согласуются между собой
Личное мнение
Создаётся впечатление, что каждое произведение писал Булгаков, но немного другой. Наблюдаемое различие между текстами указывает или на очень высокий интеллект М. Булгакова, или на вмешательство иных обстоятельств, или на то и другое одновременно.
Думаю, что специалисты по творчеству М. Булгакова уже высказались по этому поводу.