Найти в Дзене
Парадоксов друг

Сравнительный анализ текстов произведений Михаила Булгакова

Приводятся результаты сравнительного анализа текстов произведений Михаила Булгакова математическими методами. В исследование включены: "Белая гвардия", "Дьяволиада"+"Роковые яйца", "Мастер и Маргарита", "Собачье сердце", Театральный роман". Ссылка на методику исследования: Сравнительный анализ текстов математическими методами В таблице по вертикали (столбцам) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой метрики (столбца): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициенты вариаций имеют умеренную изменчивость. Судя по тепловой карте можно констатировать, что текст "Театральный роман" незначительно выделяется на фоне умеренного однообразия других текстов. Учитывая, что в разработанной методике Процент Подобия и Показатели Лексического разнообразия имеют наивысший приоритет, все последующие статистические тесты и сравнительные анализы будут оценивать полученны
Оглавление

Приводятся результаты сравнительного анализа текстов произведений Михаила Булгакова математическими методами.

В исследование включены: "Белая гвардия", "Дьяволиада"+"Роковые яйца", "Мастер и Маргарита", "Собачье сердце", Театральный роман".

Ссылка на методику исследования: Сравнительный анализ текстов математическими методами

Общий информация

Таблица_1
Таблица_1

Начальное предположение

Таблица_2
Таблица_2

В таблице по вертикали (столбцам) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой метрики (столбца): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.
Коэффициенты вариаций имеют умеренную изменчивость.

Судя по тепловой карте можно констатировать, что текст "Театральный роман" незначительно выделяется на фоне умеренного однообразия других текстов. Учитывая, что в разработанной методике Процент Подобия и Показатели Лексического разнообразия имеют наивысший приоритет, все последующие статистические тесты и сравнительные анализы будут оценивать полученный результат. Отсюда, начальное предположение сформулирую следующим образом:

Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
Альтернативная гипотеза: Текст романа "Театральный роман" отличается от других произведений Михаила Булгакова.
Ортогональная гипотеза: Явные тенденции не обнаруживаются.

Распределение слов по длине

Таблица_3
Таблица_3

В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения — красным цветом. Коэффициент вариации считается для каждой строки "Длины слова": при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.

Коэффициент вариации меняется от низкой изменчивости - в верхней части таблицы, до очень высокой изменчивости - в нижней части таблицы, что указывает на умеренную однородность между текстами по показателю "Длина слова".

По показателю Удельных весов явной тенденции не обнаруживается - изменчивость укладывается в рамки малых значений вариации.

График_1
График_1
График_2
График_2

На представленном графике "Доля слов длиною 10+ букв" текст "Театральный роман" не выделяется крайними значениями.

Частотность букв

Таблица_4
Таблица_4

В таблице по горизонтали (строке) максимальные значения выделены ярко-зелёным цветом, минимальные значения - красным цветом. Коэффициент вариации считается для каждой Буквы (строки): при значении выше 5% - ячейка и шрифт на контрасте окрашены в ало-красный цвет.".

Корреляция выборок показывает очень высокий уровень сходства распределения букв по частоте с эталоном (СКРЯ). Минимальное значение имеет "Собачье сердце", максимальное - "Мастер и Маргарита".

F-тест выборок показывает результат от высокой до очень высокой вероятности сходства распределения букв по частоте с эталоном (СКРЯ). Минимальное значение имеет "Белая гвардия", максимальное - "Мастер и Маргарита".

Обращает на себя внимание буква "ф". В тексте "Собачье сердце" буквы "ф" больше почти в 5 раз, чем в тексте "Белая гвардия". Ниже проведу дополнительное исследование указанной буквы.

Анализ сходства текстов (NLP)

Таблица_5
Таблица_5

По NLP текст "Театральный роман" показывает значения от умеренной до высокой вероятности сходства с текстами других произведений.

Словарь лексической активности

Общие слова для всех текстов

Таблица_6
Таблица_6

По распределению частоты слов, общих для всех текстов "Театральный роман" не выделяется крайними значениями.

Попарное сравнение текстов между собой

Таблица_7
Таблица_7

При попарном сравнении текстов между собой по СЛА текст "Театральный роман" не сошлись по сходству с текстом "Собачье сердце". С остальными произведениями текст "Театральный роман" имеет высокую и очень высокую степень сходства.

Дополнительные исследования

Как указано выше в тексте "Собачье сердце" буквы "ф" больше почти в 5 раз, чем в тексте "Белая гвардия". Решил провести дополнительное исследование указанных текстов, для чего составил топ-20 слов длиною более 4-х букв, содержащих букву "ф" на "очищенном" тексте. Повторяющиеся слова выделены зелёным цветом.

Таблица_8
Таблица_8

Профессор Филипп Филиппович и его подопытный Полиграф Полиграфович, вполне себе однозначно, внесли ясность в этот вопрос.

Заключение для Начального предположения

В порядке понижения приоритета.

  1. Параметры Лексического разнообразия — Подтверждается Альтернативная гипотеза: Текст романа "Театральный роман" отличается от других произведений Михаила Булгакова.
  2. Словарь лексической активности (СЛА) — Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
  3. Морфологический разбор — Подтверждается Подтверждается Альтернативная гипотеза: Текст романа "Театральный роман" отличается от других произведений Михаила Булгакова..
  4. Распределений слов по длине (Удельные веса) - Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
  5. Частотность букв (сравнение выборок с эталоном) — Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.
  6. Анализ сходства текстов (NLP) - Подтверждается Нулевая гипотеза: Текст романа "Театральный роман" не отличается от других произведений Михаила Булгакова.

Общий вывод:

На основе проведённого исследования текстов произведений Михаила Булгакова можно отметить, что:

  1. Лексические отличия текста "Театральный роман" не подтверждаются статистическими тестами.
  2. Тексты литературных произведений "Белая гвардия", "Дьяволиада"+"Роковые яйца", "Мастер и Маргарита", "Собачье сердце", Театральный роман" имеют умеренную степень сходства и в целом умеренно согласуются между собой

Личное мнение

Создаётся впечатление, что каждое произведение писал Булгаков, но немного другой. Наблюдаемое различие между текстами указывает или на очень высокий интеллект М. Булгакова, или на вмешательство иных обстоятельств, или на то и другое одновременно.

Думаю, что специалисты по творчеству М. Булгакова уже высказались по этому поводу.