6523 подписчика

Как понять, что книга станет бестселлером? Поможет новая нейросеть

23 мая 202123 мая 2021

8 мин

Оглавление

Подписывайтесь на наш канал, чтобы быть в курсе лучших книг
О чем этот проект
Признаки хорошего текста

Ученые из Орхусского университета (Дания) Мадс Томсен и Кристофер Ниелбо разрабатывают нейронную сеть Fabula-NET, которая умеет оценивать будущую успешность художественного произведения. Они рассказали нам, почему так важно уметь управлять эмоциями читателей, как работает их программа и для кого это нужно.

Подписывайтесь на наш канал, чтобы быть в курсе лучших книг

О чем этот проект

Проект Fabula-Net стартовал совсем недавно, в январе 2021 года. Это нейронная сеть для автоматического оценивания художественной литературы. Компьютерный алгоритм учится опознавать паттерны успешных текстов и на их основе прогнозирует возможный успех пока не опубликованного текста.

Этот алгоритм может использоваться как в коммерческих целях, так и в личных. Например, для редактора было бы интересно найти способ сделать процент положительных отзывов выше — вероятно, при высоких оценках люди действительно купят книгу. Эта связь, конечно, не прямая, но все же может сработать. Еще эту систему можно использовать для оценки собственного письма. Компьютер расскажет вам, насколько согласованно или предсказуемо у вас выстроено повествование и насколько ваш текст по структуре близок, например, к текстам Джейн Остин, — если вы хотите писать как она.

Похожие исследования уже проводились: обычно ученые смотрят на словарный состав текста, на его стилистические особенности. Затем эти данные сравнивают с отзывами читателей или в лучшем случае с цифрами продаж. Правда, последние обычно трудно получить, поэтому вместо них используют библиотечную статистику. В подобной раскладке результаты получаются не слишком удивительными — такие бестселлеры, как «Гарри Поттер» или «Пятьдесят оттенков серого», всегда получают статус успешных. Но если вы интересуетесь литературой более глубоко, вы скажете: «Ну, знаете, должно быть что-то большее, ведь очевидно: то, что считается классикой — не обязательно бестселлер».

Проектом Fabula-NET занимаются два человека: профессор компаративистики в Орхусском университете (Дания) Мадс Томсен и директор центра цифровых гуманитарных исследований в том же университете Кристофер Ниелбо. Фото из личных архивов

Признаки хорошего текста

В разработке алгоритма используются данные о тиражах книги, пол и возраст читателей, отзывы, рецензии. Однако самое главное — анализ самого текста. Именно в этом и есть новизна исследования: посмотреть на содержание книги с точки зрения читателя. Но как это сделать? Какие факторы текста влияют на восприятие книги?

Больше всего здесь важна динамика развития сюжета, и поэтому программа высчитывает следующие критерии: эмоциональная тональность сюжетной арки (story arc; в литературоведении сюжетной аркой называется дуга развития всего повествования), динамика развития эмоций в тексте (dynamic evolution of sentiment), а также уровень согласованности повествования (narrative coherence).

Что касается эмоциональной тональности, например, в трагедии у сюжетной арки будет негативный тренд, а в комедии — положительный. Если представить произведение в виде графика, в случае трагедии он будет опускаться ниже нейтральной тональности, а в случае комедии — стремиться вверх. Изучив под лупой общий график сюжетной арки, можно проследить и более детальную динамику развития эмоций в тексте: как чередуются накаленные эпизоды и спокойные, насколько часто и как именно положительный тренд уступает место негативному, в каких эпизодах текста появляется новое эмоциональное состояние. То, как устроены в произведении эти «эмоциональные качели», говорит и о том, насколько согласованы разные части текста, — а это, в свою очередь, неосознанно формирует у читателя определенное настроение, мотивирует его (или нет) читать текст дальше.

К уровню согласованности имеет отношение и еще один фактор. История, в которой действия и герои повторяются от эпизода к эпизоду, будет, пожалуй, слишком предсказуемой и, соответственно, скучной для читателя. В свою очередь, очень сложный текст, в котором проблематично уследить за развитием сюжета, можно будет назвать несогласованным или непоследовательным — в результате произведение может даже восприниматься читателем как сборник разных, не связанных друг с другом историй. В первом случае вам станет неинтересно, потому что вы уже неоднократно встречали один и тот же паттерн; во втором случае текст будет для вас абсолютно непрозрачным. И вы потеряете мотивацию читать дальше. Таким образом, мы говорим о чтении литературы в какой-то степени с точки зрения психологии.

Мы считаем, что есть оптимальный показатель согласованности, при котором произведение не будет восприниматься ни слишком предсказуемым, ни слишком сложным — и этот показатель зависит от того, как распределены и как развиваются наиболее эмоционально заряженные эпизоды в тексте, какова их структура. Произведение с оптимальным уровнем согласованности вы, скорее всего, прочтете до конца.

Как это посчитать на компьютере

В лингвистике существует анализ тональности (sentiment analysis), в котором компьютер идентифицирует эмоциональную заряженность текста. Мы берем какое-либо произведение и производим поиск эмоционально окрашенных слов по заранее составленным тональным словарям. В таких словарях у каждого слова есть свое значение тональности — чем негативнее слово, тем ниже тональность. Например, слово «трагедия» в одном из словарей обладает тональностью –3,4, а слово «обрадованный» — 2.

Несколько примеров из эмоционального словаря, где у каждого слова есть свое значение эмоциональной тональности. Источник: David Oti / Medium

Подписывайтесь на наш канал, чтобы быть в курсе лучших книг

При объединении всех получившихся показателей получаем кривую, которая показывает, как меняется эмоциональная тональность по ходу текста. Это и будет визуально выраженная сюжетная арка произведения. Например, вот так она выглядит в романе Кадзуо Исигуро «Не отпускай меня». На графике показатели от –1 до 1 — это тональность, а от 0 до 5 000 — сегменты, на которые разделен текст. Обе кривые показывают одно и то же, просто для красной кривой текст был разделен на большее количество мелких фрагментов.

На графике показано, как происходят эмоциональные спады и подъемы в романе Кадзуо Исигуро «Не отпускай меня». Источник: researchgate.net

С помощью дополнительного разбора полученной кривой можно вычислить динамику развития эмоций (в каких именно фрагментах меняется эмоциональная заряженность), а также уровень согласованности фрагментов в целом — насколько последовательно разворачивается накаленный эпизод. Оба расчета можно представить в виде графика в двумерном пространстве — и вот, например, один из них. В том же романе Исигуро следующим образом выглядит кривая, на которой можно проследить ключевые точки изменения эмоциональной заряженности.

Более детальный анализ романа «Не отпускай меня»: точки перелома показывают места, где меняется эмоциональная заряженность текста. Источник: researchgate.net

Обозначенные здесь наименьшие точки-показатели — a, b, c и так далее — указывают, где в тексте меняется настроение повествования. Например, точка a соответствует размышлениям Кэти о событиях в Хейлшеме, после чего развивается новое эмоциональное состояние, достигающее кульминации в точке b — самой интригующей части произведения: тут мисс Люси рассказывает студентам об их истинном предназначении: они клоны, их судьба — отдавать органы другим. Согласованность текста выражается в числовом показателе — в нем учитывается, как долго та или иная эмоция развивается в тексте, как резко она прерывается или, наоборот, мягко заменяется другой.

Итак, эти данные о структуре произведения (эмоциональная тональность сюжетной арки; динамика развития эмоций в тексте; уровень согласованности) объединяются и сопоставляются с данными о тиражах, демографическими данными и рецензиями в медиа. Так программа обучается на успешных текстах, и, когда вы загружаете в нее свой текст, вы можете узнать, насколько ваше произведение им соответствует и может ли стать таким же успешным.

Примеры некоторых успешных текстов

Пока мы в основном работали над датскими текстами. Например, занимались произведениями Ганса Христиана Андерсена. Его часто хвалят за то, что он очень изобретателен и придумывает исключительные истории и персонажей. Но самое любопытное — мы обнаружили, что он умудряется нащупать своего рода зону обитаемости (в астрономии так называется зона вокруг звезды, в которой температура подходит для существования на ней воды. — Прим. ред.), и читатель не может сказать, слишком ли текст предсказуем или нет.

Еще мы сгенерировали модель успешности по некоторым другим текстам, которые входят в общепризнанный канон и есть в оцифрованном виде — например, по «Гарри Поттеру» и по произведениям Джейн Остин. В 2020 году, еще до запуска всего проекта, мы опубликовали статью, объясняющую успех уже упомянутого романа Кадзуо Исигуро «Не отпускай меня». Основной сюжет этой книги в целом не сложен, но это роман «большой эмоциональной силы», как было прокомментировано Шведской академией при вручении Нобелевской премии, «эмоциональные качели» в этом тексте довольно мощные — и в то же время текст выстроен достаточно согласованно. То есть, например, непринужденность, с которой Кэти Х., главная героиня, описывает использование клонов в качестве запасных частей, резко контрастирует с тем, как воспринимают эту систему читатели (читателей это будет возмущать, это будет казаться им несправедливым), — и это будет источником сильной эмоциональной вовлеченности в текст.

Вопросы этики

Сейчас у данного подхода есть одна сложность. Компьютер может высчитать, насколько определенный текст соответствует модели успешных произведений, но делает это в целом, совокупно. То есть пока нейронная сеть дает общий коэффициент успешности конкретного текста, но не может сказать, какой именно фактор сыграл в ее оценке большую роль — стилистические особенности, уровень предсказуемости, демография или что-то еще.

Программа работает так: она выдает вам общую вероятность успешности текста — скажем, она будет составлять 75%. Далее пользователь может включить или выключить разные параметры и получить предполагаемый уровень успеха с точки зрения именно тех факторов, которые его интересуют, — например, будет ли текст успешным в обзорах литературных критиков или исключительно в рецензиях читателей в интернет-сообществах. Проведение таких подэкспериментов — единственно верный способ узнать влияние интересующего вас критерия. Например, можно узнать, насколько мог зависеть или зависит сейчас успех текста от того, что его автор — белый мужчина.

Это исследование, естественно, идет бок о бок с этическими вопросами, потому что такая система действительно может повлиять на наши решения: переписать роман, как-то его переделать. Возможности применения этой технологии обширны: ее можно использовать для прогнозирования успеха текста, исследователи могут пользоваться ей для интерпретации больших массивов данных. Мы знаем об этих этических сложностях, но, по крайней мере, стараемся быть открытыми, и решения, преподносимые компьютером, делаем максимально понятными для пользователя.