3 октября 2021 года Сергий Владимиров, выпускник факультета информатики и прикладной математики ПСТГУ 2021 года и магистрант богословского факультета, представил свою выпускную квалификационную работу участникам международного конкурса NEUROTECH CUP 2021.
Сергий Владимиров в 2021 году окончил бакалаврскую программу факультета информатики и прикладной математики ПСТГУ. Его выпускная квалификационная работа была посвящена поиску библейских пророческих образов в богослужебных текстах при помощи нейронных сетей. Представление своей работы участникам известного конкурса NEUROTECH CUP 2021 – это не только личная возможность пообщаться с интересными людьми и увидеть проекты других молодых исследователей, но и своеобразный рассказ о родном факультете и университете. Редакция сайта побеседовала с Сергием о специфике его работы.
Сергий, как можно объяснить человеку с гуманитарным складом мышления, что такое нейронная сеть?
Нейросеть – это огромное количество чисел, которые между собой взаимодействуют. Нейросеть можно сравнить с интуицией: она рассматривает, анализирует и по-особому обрабатывает входные данные, но у нее бессмысленно спрашивать, почему она выдала именно эти данные: в ней нет никакой рефлексии. Обучение искусственного интеллекта похоже на то, как учится говорить ребенок, который сначала получает извне большое количество информации, звуки, слова и фразы, а потом просто начинает понимать язык.
Я использовал нейронную сеть Bert (от Google), специально созданную для работы с текстами и способную на дообучение под конкретные задачи. В своей квалификационной работе я на базе Bert разработал программу поиска библейских пророческих образов в богослужебных текстах, предварительно дообучив Bert церковнославянскому языку на богослужебных текстах Триоди и Миней.
Поясните, пожалуйста, как происходит поиск.
Допустим, нам надо найти конкретный библейский образ в богослужебных текстах. Можно использовать компьютерный поиск по тексту (сейчас все богослужебные тексты Русской Церкви оцифрованы), то есть вставить в поисковую программу буквенные символы нужного слова, его графическое воплощение, но это очень долгая и кропотливая работа. Нейронная сеть работает по-другому: она осуществляет смысловой поиск. Для этого каждое слово представляется не в виде букв, а в виде вектора, то есть упорядоченного набора из нескольких чисел. Вектор может отражать смысл слова, часть речи и другую информацию о слове, которая нужна в контексте конкретной задачи. Например, близкие по смыслу или часто вместе употребляемые слова (например, стол и стул) имеют похожие векторы. Можно подобрать (с помощью определенных программ) набор векторов так, что если из вектора слова «король» вычесть вектор слова «мужчина» и прибавить вектор слова «женщина», то получившийся вектор будет словом «королева».
Вектор слова – первый этап. Теперь у нас есть некоторая информация о слове, но эта информация слишком общая, мы еще не знаем, что значит слово в контексте конкретного предложения. Есть и другая проблема: предложение – это не просто сумма слов, а что-то более сложное. Эти проблемы решаются с помощью больших нейронных сетей, таких как Bert. Bert позволяет в числах отражать смысл слова в контексте конкретной фразы и смысл конкретной фразы в целом. Затем программа просто сравнивает числа и на основе этих сравнений принимает решение – похожи ли тексты, которые стоят за этими числами.
Например, словосочетания «прикрой окно» и «закрой форточку» означают примерно одно то же. Но в поисковике они будут разные, тут мало графических точек пересечения, только корни слов «закрой» и «прикрой» будут совпадать. Можно сделать так, чтобы каждому этому слову соответствовало понятие, которое помогало бы найти синонимы, близкие по значению слова. Для «закрой» – это будет: «запри», «захлопни», «затвори», а для слова «окно», пожалуй, только «форточка». Программа ищет фразы, в которых есть эти синонимичные слова, и вычленяет смысл.
А смысл в том, что окно надо закрыть, потому что, например, началась гроза?
Нет, программа не распознает причинно-следственные связи, она фиксирует внешнее действие. Только чистый смысл фразы – закрыть окно. Для нас будет важно, что она выдаст и «прикрой форточку». «Закрой окно, потому что началась гроза» – это следующая ступень развития нейросетей.
Были ли аналоги программы, над которой Вы работали?
Всплеск интереса к работе с текстом с помощью машинного обучения и информационных технологий произошел 2017 году с разработкой программы-архитектуры Transformer, которая была внедрена в глобальные сервисы Google, Яндекс и другие. А вот для богословских исследований эти нейронные сети до сих пор не использовались, работа только начинается. Сейчас все поисковики переходят на контекстный поиск, но они ищут немного иначе – по смыслу фразы целиком, для чего требуется более деликатная настройка. У меня же пока не получилось достаточно тонко настроить, это скорее будет продолжением работы и развитием программы. Сейчас идет поиск по значению только одного слова. Тема нейросетей новая, для квалификационной работы мне многое пришлось осваивать самостоятельно.
Какую именно пользу эти изыскания на стыке лингвистики и информатики могут принести богословской науке?
Ценность нейронных сетей сегодня в их практическом применении. Рутинная работа с текстом, которая раньше выполнялась месяцы и годы, может быть сделана за значительно более короткий срок. В перспективе эта программа будет очень полезной, ведь ее применение позволит оптимизировать большую часть кропотливой и трудозатратной работы.
Не является ли искусственный интеллект фундаментом для новой Вавилонской башни?
Искусственный интеллект – возможно. В моей работе используется нейронная сеть, и это только некоторое орудие, хотя и очень мощное, в руках человека – инструмент, который может быть обращен как во благо, так и во зло. Нейронная сеть абсолютна бесполезна в вопросах духовных. У нее нет всего, что нам так дорого в человеке: творческой составляющей, нет своей воли, желания. Она не понимает, что хорошо, что плохо. Можно научить нейронную сеть копировать произведение искусства так, что никто не заподозрит подделку. Но она не сможет создать новое направление в живописи. Можно смоделировать все человеческие органы, но, каков человек в совокупности, мы никогда не разгадаем.
Вы только что окончили факультет информатики и прикладной математики ПСТГУ. Что более всего запомнилось в обучении?
На факультете прикладной математики ПСТГУ потрясающие преподаватели, высококлассные специалисты, которые читают лекции также в МГУ и Высшей школе экономики, и очень ценно, что они с большим вниманием относятся к студентам, всегда открыты и готовы помочь.
В истории отечественной науки есть много примеров того, что ученые становились священнослужителями. Почему математики идут в богословие?
Честно говоря, не знаю. Вообще разделение на гуманитариев и технарей, мне кажется, не совсем оправданно. Не думаю, что стоит замыкаться на одной предметной области. Например, возможность изучать богословские, гуманитарные дисциплины во время учебы на факультете прикладной математики не только помогло мне и другим студентам больше узнать о вере, об учении Церкви, но и сделало наше профессиональное образование более глубоким, наполненным, более живым. Поэтому не думаю, что стоит отделять математиков и спрашивать отдельно, почему они идут в богословие. А почему ученый идет в богословие… ну он ведь тоже человек. Хотя, возможно, математикам больше, чем остальным, не хватает гуманитарного знания, и они находят его в богословии.
Беседовала Ксения Вячеславовна Белошеева
Сайт ПСТГУ: https://pstgu.ru/