167 подписчиков

Когда роботы читают книги (№2)

3 минуты

2 прочтения

7 мая 2020

В большинстве случаев анализ включает в себя так называемое «контролируемое» машинное обучение, в котором алгоритмы обучаются на основе наборов текстов, которые человек с трудом обозначил. Временные рамки в описательной части могут быть представлены с использованием широко используемого стандарта аннотаций под названием TimeML. Как только коллекция текстов аннотируется и подается в программу ИИ, система может выучить правила, которые позволяют ей точно определять временную шкалу в других новых текстах, включая отрывок из Маркеса. TimeML также может измерять темп повествования, анализируя взаимосвязь между событиями в тексте и временными интервалами между ними.

Схемы аннотаций AI универсальны и выразительны, но не надежны.

Наличие повествовательных «зигзагообразных» движений в художественной литературе - одна из интригующих идей, вытекающих из такого анализа. Это видно из этого отрывка из посмертно изданного романа Марселя Пруста «Жан Сантей» (1952), предшественника его опуса «В поисках утраченного времени» (1913–27):

«Иногда, проходя перед отелем, он вспоминал дождливые дни, когда он привел свою няню так далеко, в паломничество. Но он помнил их без грусти, которую он тогда думал, что наверняка когда-нибудь смакует, чувствуя, что он больше не любит ее».

Повествование здесь колеблется между двумя полюсами, как французский критик-структуралист Жерар Женетт заметил в «Повествовательном дискурсе» (1983): «сейчас» из повторяющихся событий воспоминания, проходящего перед отелем, и «один раз» или «потом» вспомнил мысли, связанные с этими дождливыми днями с его няней.

Хотя схемы аннотаций ИИ универсальны и выразительны, они не являются надежными. Более длинные тексты, не превышающие длины книги, слишком дорого комментировать, поэтому эффективность алгоритмов ограничена количеством данных, доступных для их обучения. Даже если эта маркировка была более экономичной, системы машинного обучения, как правило, лучше справляются с более простыми описаниями и связанными событиями, которые упоминаются ближе в тексте. Алгоритмы могут быть обмануты описательной прозой постановки сцены, как в этом предложении из повести Оноре де Бальзака Sarrasine (1831), в котором четыре описываемых состояния должны (возможно) перекрываться друг другом:

«Деревья, частично покрытые снегом, были нечетко очерчены на сероватом фоне облачного неба, едва отбеленного луной».

Критика ИИ также ограничена точностью людей, маркирующих, которые должны внимательно прочитать «обучающие» тексты, прежде чем ИИ сможет начать. Эксперименты показывают, что читателям, как правило, требуется больше времени для обработки событий, которые являются отдаленными во времени или разделенными сдвигом по времени (например, «день спустя»). Такая обработка создает место для ошибки, хотя распространение стандартных рекомендаций по аннотациям среди пользователей может уменьшить ее. Людям также трудно представить себе сложные во времени ситуации, такие как ошеломляющие ситуации, описанные в романе Алана Лайтмана «Сны Эйнштейна» (1992) :

Потому что в этом мире время имеет три измерения, как пространство. ... Каждое будущее движется в другом направлении времени. Каждое будущее реально. На каждом этапе принятия решения, посещать ли женщину во Фрибурге или покупать новое пальто, мир разделяется на три мира, в каждом из которых одни и те же люди, но разные судьбы для этих людей. Со временем появляются бесконечные миры.

Современные шаблоны могут быть забавными и информативными, но разве литература не больше, чем сумма информации, скрывающейся в ее шаблонах? Конечно, могут быть феноменологические аспекты рассказывания историй, которые остаются невыразимыми, включая всю совокупность самой работы. Несмотря на это, литературная интерпретация часто является логическим процессом. Это требует отсеивания и сравнения порций информации о форме и контексте литературы - из самого текста, из его исторического и культурного фона, из авторских биографий, критических анализов и реакций в социальных сетях, а также из предыдущего опыта читателя. Все это данные, и в высшей степени достоверные.

Продолжение в следующей статье...