Сибирские ученые разработали новую методику анализа произведений искусства на предмет сюжетных заимствований. О результатах их работы ЧС-ИНФО уже упоминал в статье о том, как писатель Евгений Щеренко подал в суд на создателей полнометражных мультфильмов из цикла «Смешарики» за заимствование сюжетов его книг. А теперь заместитель директора Тувинского Института Гуманитарных и Прикладных Исследований Евгений Гарин рассказал ЧС-ИНФО как его команда ищет заимствования в фильмах, и объяснил, почему в современном кино практически не бывает новых сюжетов.
В своей работе ученые используют самообучающийся искусственный интеллект. С его помощью они анализируют фильмы, книги и научные работы, чтобы выяснить: насколько они уникальны и не заимствуют ли чужие идеи.
— Можете подробнее рассказать о методиках, которые вы используете для анализа художественных произведений?
— Наш аппаратный комплекс пока не оснащен блоком распознавания изображений и работает исключительно с текстами. Поэтому для проверки фильма нам приходится загружать в машину все доступные тексты: сценарий, пересказ сюжета зрителей, отзывы критиков. В дальнейшем искусственный интеллект (ИИ) самостоятельно составляет семантический граф произведения. То есть матрицу ассоциативных связей словарного запаса текста. После этого упрощает ее при помощи частотного анализа до социального графа — перечня всех связей персонажей между собой. Затем социальный граф фильма сравнивается с уже имеющейся базой социальных графов других произведений.
Последний этап кажется простым в описании, но в нем заключается все ноу-хау нашей многолетней работы. Для сравнения: простым перебором наш ИИ первый раз решал эту задачу более 20 дней. Сейчас же, с применением полиномиального алгоритма изоморфизма графов, эта задача решается за считанные минуты.
— Это звучит как какая-то фантастика
— Это и есть фантастика. Дело в том, что полиномиальный алгоритм изоморфизма графов является одним из возможных решений задачи тысячелетия, известной как «Вопрос о равенстве классов сложности P и NP» или «Проблема перебора».
Меня часто спрашивают: почему лидеры поисковых систем — Гугл или Яндекс — при всей их технической вооруженности не могут повторить результат нашего ИИ в выявлении плагиата. Ответ простой – они используют жадные алгоритмы требующие больших вычислительных мощностей и затрат времени.
— А почему вы не продадите им ваш алгоритм?
— Мы не публикуем его и не продаем никому целенаправленно. Ведь алгоритм может попасть, например, в руки кибертеррористов и будет использован для противоправных действий: взлома криптозащиты государственных систем, подбора паролей к банковским счетам и подобного, поскольку он является универсальным ключом к любому теоретически возможному шифру. Но нам предлагали его продать и очень дорого.
— То есть вы боитесь его продавать?
— В первую очередь, мы еще боимся его использовать, так как у этой технологии непредсказуемые последствия для экономики. Положительные последствия уже ясны — это создание сильного ИИ, который ведет к бурному развитию науки, искусства, экономики. С другой стороны, такое развитие может привести к потере рабочих мест. И это только одна из негативных сторон применения данной технологии. Поэтому пока мы используем его для частных задач. Таких, как анализ заимствований в кино, а так же в сфере госслужбы.
— А как вы решаете, какой фильм проанализировать на предмет сюжетных заимствований?
— Мы выбираем фильмы по частоте их упоминания в интернете, то есть обращаем внимание на самые ожидаемые у зрительской аудитории. Последними проверяли «Матильду» , «Хроники хищных городов», «Аквамена», «Дюну», сериал «Город и Город». Например, «Хроники хищных городов» — это почти стопроцентная копия «Звездных Войн», а «Аквамен» — это «Король Артур».
— И как алгоритм находит заимствования?
— ИИ сравнивает текст с произведениями в национальном языковом корпусе. Машина выдает нам список произведений, в которых социальные графы полностью либо частично совпадают с тем фильмом, который мы поверяем на заимствования.
В его базу входят все высокочастотные по цитированию произведения. Как правило, с них и делаются многочисленные копии. Неоспоримый лидер по копированию сюжета — это Золушка.
— Ну это и не удивительно. Ведь история Золушки – это мечта для многих.
— Да, это — запрос аудитории: ничего не нужно делать для успеха, за вас все сделает фея.
— А встречаются уникальные произведения?
— Очень редко, но да. Таким, например, оказался сериал «Город и Город». Социальные графы в этом произведении уникальны. Но, тем не менее, сама идея заимствована и передана в виде аллегории обыгрывающей в художественной форме один из общественных императивов, первоисточником которого в высокочастотной по упоминаниям литературе являются «Застольные беседы Гитлера». Изначально мы предполагали что найдем сходство с сериалом «Двойник» — и так и там обыгрывается идея Берлинской Стены разделяющей мир на две очень похожие но при этом такие разные страны. Но проверяя сериал «Двойник», мы нашли в нем отсылки в нашему российскому фильму «Иван Васильевич меняет профессию».
— А ещё что-то уникальное находили?
— Да. Но в основном в науке. Хотя, отмечу, мы проводили анализ диссертационных работ и только у 0,1% из них есть уникальные элементы семантического графа. То есть лишь одна работа на тысячу несет в себе новые идеи и научную новизну.
Тем более это ярко выражено в литературе. Даже «Война и Мир» Толстого оказалось не уникальным произведением, а заимствует сюжеты «Илиады» и «Одиссеи».
В некотором смысле «Великий Гэтсби» уникален. Это не примитивная копия Золушки. Это, ни много ни мало, инвариант «Евгения Онегина». Еще можно упомянуть один очень хороший инвариант «Ромео и Джульетты» — это аниме «Дни Мидори».
— А как обстоят дела в российском кинематографе?
— В российском кино очень много заимствований. Но нужно отдать должное нашим режиссерам — они очень красиво умеют заимствовать. Ну разве можно упрекнуть «Служебный Роман» в заимствованиях из Золушки? Или очень хороший пример — первые «Елки» Бекмамбетова. Кто-то из людей без помощи ИИ может разглядеть в них Золушку?
— Как вы думаете, почему так много заимствований? Из-за творческой беспомощности авторов?
— Существует очень удобное заблуждение, что в мировой литературе ограниченное количество возможных сюжетов — 12 (или 36). Оно основано на совпадении отдельных признаков, и никакого серьезного комбинаторного анализа под собой не имеет.
Вообще, в очень сильно упрощенном виде, можно считать, что количество возможных сюжетов зависит исключительно от количества персонажей в произведении и рассчитывается по конкретной формуле:
M=n*(n-1)/2
где М — количество возможных сюжетов, n — количество персонажей
Иными словами, возможных сюжетов гораздо больше, чем пара-тройка десятков. Для больших романов, таких как «Война и Мир», в которых более 550 персонажей, количество возможных сюжетов превосходит 150 тысяч вариаций. То есть можно смело сделать вывод, что самые значимые произведения литературы еще даже не написаны!
При этом плагиативных копий в литературе и кино очень много. По нашим подсчетам — до 99,954%. Предположительно эта цифра еще уточнится в худшую сторону, так как не картографирован весь национальный языковой корпус.
— Но почему так? Неужели авторы настолько ленивы? Или это то, чего хотят сами зрители?
— С одной стороны, сам массовый зритель хочет узнавать в героях свои черты. А значит, ему в угоду писатели и кинопроизводители компилируют бесконечные Ромео и Джульетту.
С другой стороны, чтобы написать уникальное произведение, автор должен иметь уникальный опыт, отраженный в его индивидуальном семантическом графе.
Исследуя индивидуальные семантические графы людей мы на сегодняшний день обнаружили всего 600 таких графов. То есть всего 600 человек на 7,5 миллиардов в мире способны написать уникальные произведения. А значит к такому виду творчества способны всего 0,00008% населения. И это в наше время развитой науки и интернета. Фактически можно сказать, что человечество все еще в колыбели своего развития, а интеллект является настолько новым эволюционным приобретением, что среднестатистический человек еще не научился его использовать для творчества, при этом гиперболизировал имитативный комплекс – способность повторять за другими людьми. Остается только надеяться, что процент творческих людей будет со временем расти вместе с усложнение строение социума и это отразится на нашей науке, искусстве и литературе.
Источник