Найти в Дзене
Подделкам нет!

Установление авторства текстов по средним долям служебных слов

В своей прошлой статье (1) я описал особенности установления авторства текстов с помощью анализа долей служебных слов по критерию Манна-Уитни. Этот метод предполагает не сравнение средних долей служебных слов в разных текстах между собой, а анализ рядов служебных слов целиком. Возникает вопрос почему в работе (2) для опровержения гипотезы об авторстве Булгакова романов «12 стульев» и «Золотой теленок» (5) исследователь отказался от простого и понятного анализа средних долей служебных слов и обратился к более сложным статистическим методам. Для ответа на этот вопрос был проведен анализ изменения средних долей служебных слов в произведениях тех же самых писателей (7-10). Перечень из 54 служебных слов и прочие условия эксперимента были сохранены. Результаты представлены ниже. Булгаков Ильф и Петров Катаев Зощенко Все писатели Мои комментарии Основатели метода авторского инварианта заявляли о стабилизации долей служебных слов, начиная с выборок от 16 000 слов, для произведений 22 исследова

В своей прошлой статье (1) я описал особенности установления авторства текстов с помощью анализа долей служебных слов по критерию Манна-Уитни. Этот метод предполагает не сравнение средних долей служебных слов в разных текстах между собой, а анализ рядов служебных слов целиком. Возникает вопрос почему в работе (2) для опровержения гипотезы об авторстве Булгакова романов «12 стульев» и «Золотой теленок» (5) исследователь отказался от простого и понятного анализа средних долей служебных слов и обратился к более сложным статистическим методам. Для ответа на этот вопрос был проведен анализ изменения средних долей служебных слов в произведениях тех же самых писателей (7-10). Перечень из 54 служебных слов и прочие условия эксперимента были сохранены. Результаты представлены ниже.

Булгаков

Рис.1
Рис.1
Рис.2
Рис.2
Рис.3
Рис.3
Рис.4
Рис.4

Ильф и Петров

Рис.5
Рис.5
Рис.6
Рис.6
Рис.7
Рис.7
Рис.8
Рис.8

Катаев

Рис.9
Рис.9
Рис.10
Рис.10
Рис.11
Рис.11
Рис.12
Рис.12

Зощенко

Рис.13
Рис.13
Рис.14
Рис.14
Рис.15
Рис.15
Рис.16
Рис.16

Все писатели

Рис.17
Рис.17

Мои комментарии

Основатели метода авторского инварианта заявляли о стабилизации долей служебных слов, начиная с выборок от 16 000 слов, для произведений 22 исследованных ими писателей (6). Булгаков, Ильф и Петров, Зощенко и Катаев в этот перечень не входили. В качестве порога допустимых отклонений был предложен 1% в абсолютном выражении, что соответствует 4–5% в относительном выражении.

…Если для двух исследуемых произведений значения параметра 3 (процент служебных слов) разнятся больше, чем на единицу (1% - п.н.), то есть основания заподозрить различное авторство сравниваемых текстов. Чем больше разница в значениях инварианта, тем подозрение серьезнее (6).

На вышеприведенных графиках видно, что средние доли служебных слов в произведениях Булгакова, Ильфа и Петрова, Зощенко и Катаева колеблются в широком диапазоне. Причем при увеличении размеров сегментов текста разброс долей служебных слов в них сохраняется практически на том же уровне. Диапазон колебаний долей для одного и того же писателя на сегментах в 16 000 слов и более составляет около 4–6% в абсолютном или около 20–30% в относительном выражении. В дополнение к этому диапазоны колебаний долей служебных слов по разным писателям еще и накладываются друг на друга (рис. 17).

В таких условиях установить авторство спорных текстов не представляется возможным. Вероятно поэтому автор статьи, посвященной установлению авторства романов «12 стульев» и «Золотой теленок» (2), отказался от анализа средних долей служебных слов и обратился к анализу по критерию Манна-Уитни.

Выводы

  1. Отклонения долей служебных слов от их средних значений в текстах произведений Булгакова, Ильфа и Петрова, Зощенко и Катаева составляет около 20–30% в относительном выражении.
  2. Диапазоны колебаний долей служебных слов между произведениями разных писателей накладываются друг на друга.
  3. Установить авторство текстов по частоте использования служебных слов для данных писателей не представляется возможным.

Продолжение следует.

Использованная литература:

  1. Дзен-канал «Подделкам нет!» Проблемы атрибуции текстов методом авторского инварианта с использованием критерия Манна-Уитни, 2026,
  2. Суетин В.Ю. Применение частотных характеристик для определения авторства литературных текстов // Вестник ТвГУ. Серия: Прикладная математика. 2022. №2. С. 84–89.
  3. Рогожникова Т.М. Авторский инвариант и технологии языковой коммуникации // Теория языка и межкультурная коммуникация. Электронный научный журнал, Выпуск 4(55), с. 254-263, 2024,
  4. Рогожникова Т.М., Суетин В.Ю. Авторская константа как идентификатор индивидуального языка автора // Теория и практика языковой коммуникации. Материалы XV Международной научно-методической конференции, с. 189–204, 2023,
  5. Амлински И. 12 стульев от Михаила Булгакова, Берлин, 2013,
  6. Фоменко Т.Г., Фоменко В.П. Авторский инвариант русских литературных текстов // Официальный сайт научного направления новая хронология. 2010.
  7. Ильф И., Петров Е. Собрание сочинений в 5 томах, 1961,