Найти тему

Мордовские ученые разрабатывают русско-эрзянский онлайн-переводчик и чат-бот

По данным ФАДН (Федеральное агентство по делам национальностей) за 2023 год, онлайн-переводчики разработаны только для 6 из 277 языков народов России: татарского, башкирского, чувашского, марийского, якутского и удмуртского. Переводчик на эрзянский получит широкое применение в системе образования, органах госслужбы при делопроизводстве, национальных СМИ как в регионе, так и в местах компактного проживания мордовского населения за пределами Республики Мордовия. Его разработкой занимаются в Мордовском госуниверситете им. Н. П. Огарёва.

Согласно последней переписи населения России, численность мордвы составляет более 484 тыс. человек. Из них 30% проживают в Мордовии, остальные — расселены по Нижегородской, Ульяновской, Оренбургской, Самарской и Пензенской областям.

Отсутствие цифрового сервиса по мордовским языкам не позволяет в полной мере обеспечивать функционирование эрзянского и мокшанского языков в цифровом пространстве. Разработка онлайн-переводчика на мордовские языки расширит сферу их функционирования, упростит процессы их применения, создаст условия для их сохранения и развития в современных условиях.

Основным инструментом для создания сервиса по переводу является параллельный корпус. Это двуязычные корпуса текстов, имеющие перевод с одного языка на другой. Все тексты в корпусах должны быть выравнены: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода. На основе корпуса будут созданы наборы обучающих данных вычислительных моделей мордовских языков. Процесс перевода будет моделироваться с помощью нейронной сети.

«На данный момент в параллельном русско-эрзянском корпусе уже собраны выравненные тексты, содержащие около 50 тысяч предложений. В 2023—2024 гг. вуз получил грант в размере 8,5 млн рублей на создание параллельных корпусов мордовских языков — русско-эрзянского и русско-мокшанского. Работа ведётся в рамках реализации стратегического проекта „Университет — центр социокультурного развития региона“ федеральной программы „Приоритет 2030“», — отметил ректор МГУ им. Н. П. Огарёва Дмитрий Глушко.

Состав и содержание предложений имеет самый разнообразный характер, часто применяется не употребляемая в мордовских языках терминология — это является трудоемкой и сложной переводческой задачей. Предложения собраны из различных источников — художественные тексты, тексты официальных новостей, фразы из разговорников, учебников, научная и техническая терминология.

«Мы создали и запустили чат-бот в мессенджере Телеграм для направления перевода русский-эрзянский. Также в режиме бета-тестирования с коллегами отрабатываем наиболее распространенные ошибки и неточности, вносим правки в модель, учитываем вследующих релизах. Сейчас мы начинаем сбор аудиозаписей на эрзянском языке для решения задач синтеза и распознавания речи. Кроме того, мы собираем и предложения для языковой пары русский-мокшанский, с дальнейшей реализацией такой же модели в виде чат-бота», — отметил разработчик проекта, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ им. Н.П. Огарёва Артём Андронов. 

-2