Новосибирская студентка разработала систему распознавания тибетских текстов

17 июля 202517 июл 2025

1 мин

Анна Мурашкина, студентка Новосибирского государственного университета, создала систему для распознавания и транслитерации текстов на классическом тибетском языке. Разработка ориентирована на старопечатные документы. Мурашкина, обучающаяся в Гуманитарном институте НГУ, работала над проектом в Институте вычислительной математики и математической геофизики Сибирского отделения Российской академии наук. Она использовала изображения страниц тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН, сообщили в пресс-службе НГУ. Исследовательница подчеркнула важность сохранения тибетского культурного наследия, представленного в виде исторических рукописей. Эти документы содержат уникальные сведения о философии, религии и искусстве. Однако бумажные носители подвержены разрушению, что ограничивает доступ к информации. В Тибетском фонде ИМБТ СО РАН хранится до 70 тысяч единиц хроники, которые могут быть утеряны.

Мурашкина, обучающаяся в Гуманитарном институте НГУ, работала над проектом в Институте вычислительной математики и математической геофизики Сибирского отделения Российской академии наук. Она использовала изображения страниц тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН, сообщили в пресс-службе НГУ.

Исследовательница подчеркнула важность сохранения тибетского культурного наследия, представленного в виде исторических рукописей. Эти документы содержат уникальные сведения о философии, религии и искусстве. Однако бумажные носители подвержены разрушению, что ограничивает доступ к информации. В Тибетском фонде ИМБТ СО РАН хранится до 70 тысяч единиц хроники, которые могут быть утеряны.

Сибирячка разработала модель, распознающую символы тибетского алфавита с изображений и переводящую их в машиночитаемый вид. Она вручную разметила строки тибетского текста и создала систему оценки качества оптического распознавания символов. В результате был создан модульный алгоритм, включающий этапы предобработки, сегментации, распознавания и постобработки.

Разработку планируют использовать сотрудники ИМБТ СО РАН. Также обсуждается сотрудничество с Буддистским центром цифровых технологий для расширения возможностей оцифровки тибетских рукописей. Мурашкина надеется, что её проект поможет сохранить и сделать доступными уникальные знания для широкой аудитории.