Найти в Дзене
Подделкам нет!

Проблемы атрибуции текстов методом авторского инварианта с использованием критерия Манна-Уитни

В научной среде периодически появляются статьи, авторы которых пытаются атрибутировать тексты методом авторского инварианта. Примером таких статей являются работы доцента кафедры высшей математики Суетина В.Ю. и доктора филологических наук профессора Рогожниковой Т.М., в которые попытались оспорить гипотезу об авторстве Булгакова романов «12 стульев» и «Золотой теленок» (1) формализованным статистическим методом. Проведенные эксперименты В качестве авторского инварианта авторы экспериментов использовали частоту повторения в текстах следующих 54 служебных слов: в, на, с, за, к, по, из, у, от, для, во, без, до, о, через, со, при, про, об, ко, над, из-за, из-под, под, и, что, но, а, да, хотя, когда, чтобы, если, тоже, или, то есть, зато, будто, не, как, же, даже, бы, ли, только, вот, то, ни, лишь, ведь, вон, нибудь, уже, либо (2). Основатели метода авторского инварианта говорили о стабилизации доли служебных слов в литературных произведениях, начиная с сегментов по 16 000 слов (2). Суэтин

В научной среде периодически появляются статьи, авторы которых пытаются атрибутировать тексты методом авторского инварианта. Примером таких статей являются работы доцента кафедры высшей математики Суетина В.Ю. и доктора филологических наук профессора Рогожниковой Т.М., в которые попытались оспорить гипотезу об авторстве Булгакова романов «12 стульев» и «Золотой теленок» (1) формализованным статистическим методом.

Проведенные эксперименты

В качестве авторского инварианта авторы экспериментов использовали частоту повторения в текстах следующих 54 служебных слов:

в, на, с, за, к, по, из, у, от, для, во, без, до, о, через, со, при, про, об, ко, над, из-за, из-под, под, и, что, но, а, да, хотя, когда, чтобы, если, тоже, или, то есть, зато, будто, не, как, же, даже, бы, ли, только, вот, то, ни, лишь, ведь, вон, нибудь, уже, либо (2).

Основатели метода авторского инварианта говорили о стабилизации доли служебных слов в литературных произведениях, начиная с сегментов по 16 000 слов (2). Суэтин В.Ю по результатам собственных изысканий пришел к выводу о возможности использования сегментов от 6 000 слов, Рогожникова Т.М. - от 10 000 слов.

…при использовании выборок по 6000 слов мы показали, что имеет место равномерность распределения относительных значений доли служебных слов, а для произведений одного автора выборки отличаются не существенно (3, с.84).
…Перепроверка данных В.П. Фоменко и Т.Г. Фоменко показала, что фрагмент текста в 10 000 слов служит вполне достаточной для получения достоверных результатов выборкой (4, с.260).

Для подсчета количества служебных слов авторами была разработана компьютерная программа СТАТИСТ (Статистическое исследование текстов), с помощью которой тексты литературных произведений фрагментировались на сегменты выбранного размера, в каждом из которых программой подсчитывалась доля служебных слов (5, с.195). Суетин В.Ю. подверг исследованиям романы «12 стульев» Ильфа и Петрова, «Белая гвардия» и «Мастер и Маргарита» Булгакова. Рогожникова Т.М. дополнительно к этим произведениям исследовала также роман «Золотой теленок» и путевые очерки «Одноэтажная Америка» Ильфа и Петрова.

Рис.1. Ряды долей служебных слов, полученные Суетиным В.Ю. (3, с.85)
Рис.1. Ряды долей служебных слов, полученные Суетиным В.Ю. (3, с.85)

Проверка получившихся рядов долей служебных слов по критерию Шермана показала равномерность их распределения внутри текстов всех произведений. Анализ пар текстов произведений на критерий Манна — Уитни (6) устанавливал действительно ли автор одного текста использует служебные слова чаще (или реже), чем автор другого текста, или разница случайная, и автор обоих текстов один и тот же. Проверка на критерий Манна — Уитни показала, что романы «Белая гвардия» и «Мастер и Маргарита» статистически незначительно отличаются друг от друга, в то время как пары «Белая гвардия» и «12 стульев», «Мастер и Маргарита» и «12 стульев» имеют существенные различия. По результатам экспериментов Суетин В.Ю. сделал заключение об опровержении гипотезы И.Амлински об авторстве М.Булгакова романа «12 стульев» (1).

…В работе рассмотрено применение относительного числа служебных слов (союзов, предлогов, частиц) в качестве авторского инварианта для литературных текстов большой длины. С помощью критерия Манна-Уитни c уровнем значимости 𝛼 = 0,01 опровергнута гипотеза И.Амлински о том, что автором романа «12 стульев» является М.А. Булгаков (3, с.88).

Рогожникова Т.М. согласилась с Суетиным В.Ю. в части «безусловного опровержения гипотезы И. Амлински» (4, с.259), но выразила сомнения в авторстве Ильфа и Петрова романов «12 стульев» и «Золотой теленок».

…Следует отметить, что вопрос авторства так и остается открытым. Сравнение произведений «12 стульев», «Золотой теленок» и «Одноэтажная Америка» вновь ставит в тупик исследователей, поскольку считается, что все три произведения написаны И. Ильфом и Е Петровым (не совсем понятно – почему?). «Одноэтажная Америка» разительно отличается от первых двух романов (3, с.259-260). …С максимальной сдержанностью, искренними сомнениями и желанием еще не один раз всё перепроверить – мы пишем данное заключение. …пока мы не можем исключить предположение о том, что и у этих двух романов могут быть разные авторы (4, с.262).

Мои комментарии

1. Авторы не уточнили какие редакции романов «12 стульев» и «Золотой теленок», а также прочих литературных произведений были ими использованы.

2. Авторы не указали как точно они считали служебные слова для разных их возможных комбинаций. Например, как считалось слово «как будто»: как одно служебное слово или как два? Логичным было бы считать «как будто» одним служебным словом, но в таком случае «как будто» должно присутствовать в приведенном выше перечне служебных слов в дополнении к уже присутствующим там словам «как» и «будто». Однако, «как будто» в перечне из 54 слов отсутствует. Другой пример – слово «как-нибудь», обе составляющие которого также присутствуют в перечне служебных слов. Как авторы считали слово «как-нибудь»: как одно или как два служебных слова, тоже непонятно.

3. Авторы не раскрыли точный принцип выборки сегментов текста. Суетин В.Ю., например, привел только такие пояснения.

…Мы выделили из текстов романов «12 стульев», «Мастер и Маргарита» и «Белая гвардия» по 9 равновеликих (по 6000 слов) выборок через интервалы в 10 страниц текста (3, с.85).

Через какое точное число слов Суетин В.Ю. выбирал сегменты по 6 000 слов остаётся неясным. Рогожникова Т.М. также не раскрывает точный принцип своих выборок.

… Были составлены таблицы и по формуле вычислена статистика Манна-Уитни (4, с.260).
…С помощью данной программы проведем анализ четырех произведений: «12 стульев», «Золотой теленок», «Одноэтажная Америка» И. Ильфа и Е. Петрова, а также «Мастер и Маргарита» М. А. Булгакова. Остановимся на фрагментах по 10 000 слов…(5, с.196).

Получить ответ на имеющиеся вопросы можно было бы ознакомившись с кодом программы СТАТИСТ. Однако, авторы этот код не приводят.

4. Суетин В.Ю. по ходу эксперимента изменил уровень значимости, используемый для оценки полученных результатов. При анализе рядов долей служебных слов в романах «Белая гвардия» и «Мастер и Маргарита» на их равномерность по критерию Шермана Суетин В.Ю. применил уровень значимости (существенности) 𝛼= 0, 05, то есть 5%.

…Для «Мастера и Маргариты» величина 𝜔7 составила 0,358, для «Белой гвардии» – 0,377, для «12 стульев» – 0,316 при критическом значении, соответствующим уровню значимости 𝛼 = 0,05, равном 0,488. Таким образом, все рассмотренные распределения можно считать равномерными (3, с.86).

Однако, при проверке тех же романов на критерий Манна-Уитни Суетин В.Ю. применил другой уровень значимости, а именно 𝛼= 0,01, то есть 1%. Уровень значимости в данном случае означает предел, при превышении которого различия в сравниваемых романах будут считаться случайными, а сами произведения - написанными одним и тем же автором.

…Сначала сравним данные по произведениям М.А.Булгакова «Белая гвардия» и «Мастер и Маргарита». Нулевая гипотеза Н0: выборки получены из одной генеральной совокупности, различия в значениях не являются существенными и носят случайный характер. Альтернативная гипотеза Н1: выборки получены из разных генеральных совокупностей, различия данных носят существенный характер… статистика Манна-Уитни = 16…Критическое значение статистики Манна-Уитни для уровня значимости 𝛼 = 0,01 равно 11, критерий левосторонний, так что эмпирическая статистика, большая, чем критическое значение, не попадает в критическую область и, следовательно, нет оснований отвергать нулевую гипотезу. Как видим, для романов одного автора использование доли служебных слов даёт ожидаемый результат (3, с.86-87).

Критическое значение статистики Манна-Уитни для уровня значимости 𝛼 = 0,05 равно 21 (5, с.199, таблица 6, для n(x) = 9, n(y)=9). С учетом рассчитанного Суетиным В.Ю. значения статистики Манна-Уитни для пары романов «Белая гвардия» и «Мастер и Маргарита», равного 16 (см. выше), получаем, что 11 (𝛼 = 0,01) <16 <21(𝛼 = 0,05). Другими словами, по расчетам Суетина В.Ю. получается, что вероятность того, что статистические различия между романами «Белая гвардия» и «Мастер и Маргарита» случайны, а романы написаны одним и тем же автором, находится в диапазоне от 1% до 5%. Соответственно, для уровня значимости в 1% эти романы будут считаться написанными одним и тем же автором, а для уровня значимости в 5% - разными. В процессе расчетов Суетин В.Ю. изменил уровень значимости с 5% на 1%, то есть, на тот, который дал «ожидаемый результат». Рогожникова Т.М. на собственной выборке с сегментами по 10 000 слов закрыла этот ньюанс расчетов Суетина В.Ю. и получила соответствие между романами «Белая гвардия» и «Мастер и Маргарита» для уровня значимости в 5%. Однако, при этом романы «12 стульев» и «Золотой теленок» получили у Рогожниковой «чрезвычайно значительные различия» (5, с.198). Результаты сравнения романов «12 стульев» и «Золотой теленок» с «Одноэтажной Америкой» Рогожникова Т.М. не приводит.

Постановка задачи

Требуется установить как зависят результаты атрибуции текстов методом авторского инварианта с использованием критериев Шермана и Манна-Уитни от размеров сегментов текста.

Материалы

  1. И. Ильф, Е. Петров «12 стульев» (7, том 1, с.27-385),
  2. И. Ильф, Е. Петров «Золотой теленок» (7, том 2, с.9-389),
  3. И. Ильф, Е. Петров «Одноэтажная Америка» (7, том 4, с.7-451),
  4. Булгаков М.А. «Собачье сердце» (8, том 3, с.46-138),
  5. Булгаков М.А. «Белая Гвардия» (8, том 4, с.51-304),
  6. Булгаков М.А. «Мастер и Маргарита» (8, том 9, с.156-523),
  7. Катаев В.П. «Растратчики» (9, том 3),
  8. Олеша Ю «Три толстяка» (10, с.97 – 191),
  9. Зощенко М. «Голубая книга» (11, том 5).

Метод

Тексты литературных произведений в формате txt были предварительно очищены от знаков пунктуации, лишних пробелов и переведены в нижний регистр. Программа, написанная на языке python, разделяла подготовленные тексты на сегменты от 1 000 до 20 000 слов. В каждом получившемся сегменте программа считала долю служебных слов по списку из 54 слов, приведённому выше. Правильность подсчета программой служебных слов была проверена на отдельных сегментах с помощью редактора Word. Составные служебные слова считались программой по количеству их компонентов. Слово «как будто» считалось программой как 2 служебных слова. Слова с частицами «нибудь» и «то» («как-нибудь», «как-то»), считались как 1 служебное слово.

Рис.2. Пример полученных программой рядов долей служебных слов в романе «12 стульев» для размера сегментов текста от 6000 до 16 000 слов.
Рис.2. Пример полученных программой рядов долей служебных слов в романе «12 стульев» для размера сегментов текста от 6000 до 16 000 слов.

Полученные ряды долей служебных слов по каждому произведению анализировались программой на равномерность по критерию Шермана и на статистические различия по критерию Манна-Уитни, аналогично экспериментам, проведенным Суетиным В.Ю. и Рогожниковой Т.М.

Результаты

По критерию Шермана, проверяющему «стабильность стиля» внутри текста, все ряды по всем анализируемым произведениям были признаны программой равномерными. Результаты проверки по критерию Манна-Уитни приведены ниже.

Принятые обозначения :

Размер – размер сегмента текста, на которые были разделены произведения, в количестве слов.

N сегм (1/2) – количество полных сегментов текстов сравниваемых двух произведений при заданном размере сегмента,

U – рассчитанный программой показатель статистики Манна-Уитни,

p-value – вероятность, соответствующая U.

p-value <0.05 - различия значимые. Вероятность случайного различия долей служебных слов между произведениями менее 5%. Произведения статистически отличаются по тому, как часто автор использует служебные слова.

p-value ≥ 0.05 - значимых различий не обнаружено. Вероятность случайного различия долей служебных слов между произведениями более 5%. Тексты можно считать написанными одним автором.

Значимо / не значимо – степень различия сравниваемых произведений по критерию Манна-Уитни.

α=0.01/ 0.05 – уровень значимости: 1% или 5%.

Результаты проверки текстов на критерий Манна-Уитни были выборочно перепроверены вручную.

Рис.1

-3

Таб. 1. Двенадцать стульев и Золотой теленок

-4

Рис.2

-5

Таб. 2. Двенадцать стульев и Мастер и Маргарита

-6

Рис.3

-7

Таб. 3. Двенадцать стульев и Одноэтажная Америка

-8

Рис.4

-9

Таб. 4. Двенадцать стульев и Растратчики

-10

Рис.5

-11

Таб.5 Двенадцать стульев и Собачье сердце

-12

Рис.6

-13

Таб.6 Двенадцать стульев и Три толстяка

-14

Рис.7

-15

Таб.7. Белая гвардия и Двенадцать стульев

-16

Рис.8

-17

Таб.8. Золотой теленок и Мастер и Маргарита

-18

Рис.9

-19

Таб.9 Золотой теленок и Одноэтажная Америка

-20

Рис.10.

-21

Таб. 10 Золотой теленок и Растратчики

-22

Рис.11

-23

Таб. 11 Золотой теленок и Собачье сердце

-24

Рис.12

-25

Таб. 12. Золотой теленок и Три толстяка

-26

Рис.13

-27

Таб.13 Мастер и Маргарита и Собачье сердце

-28

Рис.14

-29

Таб.14 Одноэтажная Америка и Собачье сердце

-30

Рис.15

-31

Таб.15 Белая гвардия и Мастер и Маргарита

-32

Рис.16

-33

Таб.16 Белая гвардия и Собачье сердце

-34

Рис.17

-35

Таб.17 Голубая книга и Двенадцать стульев

-36

Рис. 18

-37

Таб.18 Голубая книга и Золотой теленок

-38

Рис.19

-39

Таб.19 Голубая книга и Мастер и Маргарита

-40

Мои комментарии

1. Анализ статистических различий в рядах служебных слов между двумя текстами по критерию Манна-Уитни дает нестабильный результат. Произведения, написанные заведомо одним автором, могут быть признаны значительно различающимися (пример – Белая Гвардия и Мастер и Маргарита), в то время как написанные заведомо разными авторами - как незначительно различающимися (пример - Мастер и Маргарита и Голубая книга).

2. При изменении размера сегмента текста и уровня значимости (1% или 5%) результаты атрибуции текстов могут меняться на противоположные.

3. В целом увеличение размера сегментов текста и уменьшение длины рядов долей служебных слов приводит к уменьшению статистических различий между произведениями при оценке по критерию Манна-Уитни.

4. С помощью программы были перепроверены расчеты, проведенные Суетиным В. Ю. и Рогожниковой Т.М. (3,4,5) на рядах долей служебных слов, полученных авторами. Итоговые результаты совпали. Однако, сами эти ряды отличаются от рассчитанных программой. В некоторых случаях это привело к различным результатам оценки на критерий Манна-Уитни. Например, для размера сегментов в 10 000 слов романы «Белая гвардия» и «Мастер и Маргарита» по расчету Рогожниковой Т.М. получились не значительно различающимися, а по моим расчетам - значительно различающимися (рис.15, таб.15). Результаты сравнения тех же романов Суетиным В.Ю. при сегментах в 6 000 слов совпали с результатами моих расчетов: для уровня значимости в 1% статистические различия в романах оценены программой как незначительные, для уровня в 5% - как значительные (рис.15, таб.15).

Выводы:

  1. Возможность использования критерия Манна-Уитни для атрибуции текстов методом авторского инварианта поставлена под сомнение.
  2. Опровержение гипотезы об авторстве М. Булгакова романов «12 стульев» и «Золотой теленок», приведенное в статье Суетина В.Ю., несостоятельно как по причине, указанной выше, так и в силу изменения автором критерия оценки результатов.

Продолжение следует.

Использованная литература:

  1. Амлински И. 12 стульев от Михаила Булгакова, Kirschner-Verlag, Берлин, 2013.
  2. Фоменко Т.Г., Фоменко В.П. Авторский инвариант русских литературных текстов // Официальный сайт научного направления Новая хронология. 2010, https://chronologia.org/seven2_2/add3.html.
  3. Суетин В.Ю. Применение частотных характеристик для определения авторства литературных текстов // Вестник ТвГУ. Серия: Прикладная математика. 2022. №2. С. 84–89. https://doi.org/10.26456/vtpmk637.
  4. Рогожникова Т.М. Авторский инвариант и технологии языковой коммуникации // Теория языка и межкультурная коммуникация. Электронный научный журнал. ISSN 2219-8660, Выпуск 4(55), с. 254-263, 2024.
  5. Рогожникова Т.М., Суетин В.Ю. Авторская константа как идентификатор индивидуального языка автора // Теория и практика языковой коммуникации. Материалы XV Международной научно-методической конференции, с. 189–204. Уфа: РИЦ УУНиТ, 2023.
  6. Википедия, статьи: U-критерий Манна — Уитни.
  7. Ильф И., Петров Е. Собрание сочинений в 5 томах, 1961.
  8. Булгаков М. А. Собрание сочинений в 10 томах, 1995.
  9. Олеша Ю.К. Избранное, 1974.