Добавить в корзинуПозвонить
Найти в Дзене
IQ Media

Как оцифровать старые рукописи?

Российский научный фонд поддержал проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов». Его задачей является разработка методики автоматизированного анализа информации, содержащейся в рукописях, минуя обработку источника вручную. HSE Daily побеседовало с руководителем проекта — заведующей Лабораторией региональной истории России факультета гуманитарных наук НИУ ВШЭ профессором Екатериной Болтуновой. — Когда возник замысел проекта? — Во многом этим проектом мы обязаны идее филолога Любови Хачатурян, предложившей рассмотреть возможность обработки рукописного наследия русских писателей с помощью математических методов. Вместе с профессором Еленой Пенской, которая приняла большое участие в разработке замысла, коллеги провели две конференции, посвященные этой теме и открыли сайт «Автограф. XX век», разместив на нем рукописи классиков русской литературы XX столетия. В 2016 году к работе с коллекцией растровых изображ
Оглавление
Автограф В.А. Жуковского, фото: Томский государственный университет
Автограф В.А. Жуковского, фото: Томский государственный университет

Российский научный фонд поддержал проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов». Его задачей является разработка методики автоматизированного анализа информации, содержащейся в рукописях, минуя обработку источника вручную. HSE Daily побеседовало с руководителем проекта — заведующей Лабораторией региональной истории России факультета гуманитарных наук НИУ ВШЭ профессором Екатериной Болтуновой.

— Когда возник замысел проекта?

— Во многом этим проектом мы обязаны идее филолога Любови Хачатурян, предложившей рассмотреть возможность обработки рукописного наследия русских писателей с помощью математических методов. Вместе с профессором Еленой Пенской, которая приняла большое участие в разработке замысла, коллеги провели две конференции, посвященные этой теме и открыли сайт «Автограф. XX век», разместив на нем рукописи классиков русской литературы XX столетия.

В 2016 году к работе с коллекцией растровых изображений рукописных автографов подключилась группа математиков под руководством профессора Леонида Местецкого, что позволило начать совместные междисциплинарные разработки по разбору некоторых рукописных текстов.

Сейчас для реализации этого гранта у нас сложилась интересная команда, в которую входят гуманитарии, филологи и историки из ВШЭ и Томского государственного университета и математики, представляющие факультет вычислительной математики и кибернетики МГУ.

— В проекте говорится об обработке рукописных документов. Речь идет о материалах только личного происхождения или также о делопроизводственных источниках?

— Мы планируем работать прежде всего с источниками личного происхождения — мемуарами, дневниками и письмами. Это поле, которое объединяет историков и филологов, открывает возможности для взаимодействия. В перспективе, без сомнения, мы перейдем и к разбору делопроизводственных документов.

Екатерина Болтунова, фото: Высшая школа экономики
Екатерина Болтунова, фото: Высшая школа экономики

— Какой период времени вы планируете охватить?

— Проект охватывает период с конца XVIII по середину XX века. Приоритетным для нас в первые годы работы будет XIX — начало XX столетия, то есть время, на которое приходится формирование большого массива рукописных текстов разных типов, жанров и характеров.

— Какие программы и иные инструменты распознавания документов предполагаете использовать?

— Нашей задачей является разработка методики анализа информации, содержащейся непосредственно в рукописных текстах, минуя обработку источника вручную с привлечением посредника для расшифровки. Речь идет о создании автоматизированной системы навигации по рукописному тексту, которая позволит исследователю отобрать из огромного массива данных материалы, необходимые для работы, что резко сократит затраты времени на разбор текстов.

— Будете ли вы привлекать студентов и аспирантов для работы над проектом?

— Да, в нашем проекте задействованы аспиранты, причем как со стороны математиков, так и со стороны гуманитариев.

— Насколько, по вашему мнению, обработка материалов архивов, музеев и библиотек облегчит работу профессиональных исследователей и любителей истории?

— Я думаю, это открытие оцифрованных материалов в сочетании с возможностями поиска прямо по рукописному тексту совершенно меняет ситуацию. Речь идет об ускорении на порядок — месяцы поиска могут превратиться в часы или даже минуты. Это будет по-настоящему качественный скачок.

— Не приведет ли создание оцифрованных массивов документов к тому, что историка в перспективе заменит искусственный интеллект?

— Конечно, за последние годы возможности искусственного интеллекта колоссально расширились, он все больше проникает в разные области жизни, что порой сопровождается апокалиптическими прогнозами. Но как историк я хочу напомнить, что это далеко не первое технологическое открытие, которое наблюдает современный человек. Вспомните, сколько страхов и опасений породило появление персональных компьютеров. Но, слава богу, все мы живы и ментально здоровы, продолжаем свои исследования и на многое еще надеемся.