Найти тему
Ариаднина нить | Книги

Романы братьев Вайнеров писал только Георгий? Кто автор шекспировских пьес? Компьютер подсчитал, учёные обосновали

Оглавление

Добрый день, друзья-книголюбы!

Недавно мне для работы над одной экспертной задачей потребовались методы компьютерной лингвистики. А конкретнее, лингвистики квантитативной, фокусирующейся на подсчёте тех или иных единиц в тексте и способах получить важные научные выводы на основании цифр.

И я купила эту книгу – «Методы статистического анализа литературных текстов» Юрия Николаевича Орлова и Константина Павловича Осминина (М.: Книжный дом «ЛИБРОКОМ», 2017).

В итоге книга именно для профессиональных задач книга не пригодилась, однако в ней оказалось множество занятнейших сведений, касающихся проблем автороведения (одного из моих дилетантских интересов).

Собственно, авторы (отнюдь не филологи, а специалисты по математике и физике) предложили рабочую методику идентификации автора литературного текста, жанра, пола автора (это важно для гендерных исследований) или даже языка, на котором написан текст. По-моему, это очень интересные данные, которые не только помогут решить ряд чисто литературоведческих задач, но и пригодятся филологам-лингвистам и программистам в работе над обучением искусственного интеллекта навыкам общения на языках человечества.

А ещё оказалось, что математическая статистика и компьютерная лингвистика могут здорово помочь производителям творческой продукции (книг, фильмов, телепередач и т.д.) установить жанр произведения и, соответственно, определиться с целевой аудиторией и сэкономить кучу денег. На последней конференции по судебной лингвистической экспертизе, которая прошла 5-6 октября в Институте русского языка имени Пушкина в Москве, крупный канадский (а ранее российский) учёный Валерий Белянин, специализирующийся на психолингвистике, как раз затронул эту тему и её важность для западных бизнесменов. Оказывается, в исследования по кластеризации жанров, выделению ключевых слов и понятий там вкладываются огромные средства – чтобы в итоге продукт ювелирно вписался в запросы покупателей.

Кстати, выяснилось, что для того чтобы определить жанр произведения, компьютерной программе вообще не обязательно «понимать» значения слов и вообще «уметь читать». Она просто сравнивает данные о частотности тех или иных букв и соотносит с нормой для этого конкретного жанра.

Но это я отвлеклась. Сначала расскажу немного о самой системе, по которой Ю.Н. Орлов и К.П. Осминин работали с текстом. А потом – об интересных для книголюбов выводах, к которым они пришли.

Математика на службе у литературоведения

Оказывается, для идентификации автора текста достаточно проанализировать повторяющиеся буквы и буквосочетания. В отличие от частотности слов, которое может определяться особенностями самого языка и вообще параметрами художественного произведения в целом, распределение пар букв уже индивидуально. И его крайне сложно подделать. Авторы выдвинули гипотезу, почему так происходит:

«Буквы обозначают звуки (хотя и не взаимно однозначно, но связь такая есть), а звуки отражают реакцию организма на события, воспринимаемые им как внешние. В этом смысле звуки кластеризуют окружающую действительность, ибо их всё же меньше, чем явлений. Писатель, возможно, стремится к определённому звучанию своего текста, либо это звучание непроизвольно возникает как следствие темы произведения. Поэтому буквы больше, чем слова, отражают объективную реальность. Ведь слова можно понимать и «наоборот», в зависимости от контекста, а крик боли, условно говоря, - он всегда крик боли».

Для определения частотности тех или иных букв и пар букв у конкретного писателя авторы книги вывели формулу, которая работает для текстов на любом языке, не только на русском. Эта формула описывает плотность функции распределения (ПФР) буквосочетаний. Это всё подробно описано в книге, с кучей вычислений, графиков и даже спектральных портретов тех или иных писателей в зависимости от частотности букв, которые они употребляют. Правда, эта формула лучше всего описывает именно художественные тексты в прозе. Для рифмованных произведений или иных текстов, ограниченных жёсткими требованиями (акростихи, палиндромы), а также для специализированной литературы она пригодна лишь ограниченно.

А как же переводная литература?

Знаете, что самое интересное? Что вообще-то индивидуально-авторские особенности текста по признаку частотности букв и буквосочетаний сохраняются даже в переводах! То есть хороший переводчик в целом следует авторскому распределению букв и буквосочетаний по частоте. Соответственно, в статистическом смысле переводчик не является, скажем так, соавтором текста, поскольку не привносит в текст ничего личного. А мы-то привыкли считать по-другому, верно? И переводчиков привыкли ругать. А оно вон как, оказывается.

Вот что пишут по этому поводу авторы Ю.Н. Орлов и К.П. Осминин:

«Распределение текста по буквам позволяет определить автора как на его родном языке, так и в переводах (причём не обязательно одного и того же переводчика)… Тем самым переводчик верно передаёт смысл первоначального текста, но вот выбор конкретных слов не всегда совпадает с тем звучанием текста, которого, возможно, добивался автор».

Эти данные (о том, что идентификация автора возможна даже по переводу) были получены на основании анализа произведений Уильяма Шекспира. Сравнивались как разные переводы на русский язык одних и тех же пьес («Гамлета», «Ромео и Джульетты» и «Бури»), так и переводы разных пьес, сделанные одним и тем же переводчиком. Во всех случаях результаты эксперимента в целом совпали. Повторюсь, что более подробно обо всём этом написано в книге «методы статистического анализа литературных текстов».

Зачем всё это книголюбу?

Экспериментальные данные авторы проверили на ряде произведений. И получили любопытные выводы.

Например, было наконец железно доказано, что Михаил Шолохов – автор «Тихого Дона». А ведь каких только теорий не выдвигалось литературоведами по этому поводу! Эксперименты Орлова и Осминина по сравнению «Тихого Дона» с «Поднятой целиной», «Они сражались за Родину», повестями и рассказами советского классика показали: вероятность того, что Шолохов не автор – не более 6%. А вероятность того, что он мог написать только часть романа, а остальное могло быть создано другими авторами, то есть что 4 части романа написаны разными лицами, - 2%.

При этом математики подчеркнули, что в данном случае под авторством они понимали именно техническую сторону работы с текстом. То есть они не анализировали, у кого Шолохов мог позаимствовать идею романа, чьими текстами он в процессе работы вдохновлялся. Подтверждение авторства означает, что Шолохов именно изложил роман, вылепил его структуру и записал текст.

Кроме того, авторы опровергли версию о том, что подлинным автором «Конька-горбунка» был Пушкин. Одно время в литературоведческой среде была популярна идея, что великий поэт хотел поддержать начинающего коллегу Петра Ершова и написал для него сказку, чтобы вытащить из финансовых затруднений. Но оказалось, что текст «Конька-горбунка» со статистической точки зрения совсем не похож на пушкинские сказки.

Ещё отдельно надо сказать про того же Шекспира. Про него статистики установили, что:

а) все 36 приписываемых Шекспиру драматических произведений действительно написаны одним и тем же лицом. А уж кто фактически этим лицом являлся, пусть разбираются историки. Хоть реальный Уильям Шекспир (говорят, весьма посредственный актёр), хоть Фрэнсис Бэкон, хоть Елизавета Первая. Кстати, мне очень нравится трактовка этого вопроса в фильме «Аноним»;

б) две анонимных пьесы, по поводу авторства которых литературоведы рьяно ломают копья, написаны тем же лицом (условно Шекспиром). Речь о трагедиях «Тит Андроник» и «Царствование короля Эдуарда III».

А если писателей два?

Очень интересные данные были получены в отношении текстов, написанных в соавторстве.

Некоторые тексты действительно сложно разделить, то есть выяснить, кто из соавторов какую именно часть писал. Например, таковы романы Марии и Сергея Дяченко, Ильфа и Петрова и братьев Стругацких. Во всех этих случаях авторская индивидуальность смазывается и получается воистину коллективный автор.

Зато в других случаях конкретный вклад каждого из соавторов явно виден. Так, Ю.Н. Орлов и К.П. Осминин полагают, что романы братьев Вайнеров (были проанализированы «Евангелие от палача», «Визит к Минотавру», «Эра милосердия», «Завещание Колумба», «Двое среди людей» и «Часы для Келли») написаны со статистической точки зрения так же, как и отдельные произведения Георгия Вайнера. К сожалению, текстов Аркадия Вайнера для сравнения не имелось, поэтому ни подтвердить, ни опровергнуть эту гипотезу пока нельзя.

А ещё статистика показала, что совместный роман Ника Перумова и Сергея Лукьяненко «Не время для драконов» написал практически полностью Перумов. Из 20 глав романа к индивидуальному стилю Лукьяненко близки только две – 6-я и 11-я.

Вместо заключения

Надеюсь, я вам доказала, что лингвистика – наука, во-первых, точная (как говаривала одна наша преподавательница с кафедры русского в вузе), во-вторых, прикладная и отлично вписывающаяся в эру всеобщей компьютеризации, а в-третьих, может в содружестве с другими науками здорово помочь и издательскому делу, и сфере авторского права, да и просто сообществу книголюбов.

Жду ваших комментариев, друзья! Что вы думаете по поводу изложенных научных данных? Была ли статья полезной?

Ваша Ариаднина нить.

#занимательная филология #филология #компьютерная лингвистика #автороведение  #математическая статистика #братья вайнеры #уильям шекспир #ник перумов #тихий дон #михаил шолохов