Добавить в корзинуПозвонить
Найти в Дзене

Создан программный комплекс распознавания речи для карельского языка

Ученые создали программный комплекс распознавания речи для карельского языка (ливвиковского наречия) по аудиоматериалам. По сообщению сайта ПетрГУ, совместную работу провели специалисты Санкт-Петербургского исследовательского центра РАН их коллеги из Карельского научного центра РАН. Созданная технология в перспективе позволит переводить устную речь в режиме реального времени. По оценкам ученых, в настоящее время на карельском языке говорят около 30 тысяч человек, из которых порядка 25 тысяч проживают в России. Но в повседневной жизни карельский язык используют лишь 5-7 тысяч, что ставит его под угрозу исчезновения. Разработка направлена на документирование и сохранение карельского языка. Ученые отмечают, что карельский язык является малоресурсным, то есть для него существует крайне мало электронных данных — текстов, аудиозаписей, словарей, — что осложняет создание системы распознавания речи. Обучение нейросетей проводили на базе данных карельского языка, в основу которой легли материал

Ученые создали программный комплекс распознавания речи для карельского языка (ливвиковского наречия) по аудиоматериалам. По сообщению сайта ПетрГУ, совместную работу провели специалисты Санкт-Петербургского исследовательского центра РАН их коллеги из Карельского научного центра РАН.

Созданная технология в перспективе позволит переводить устную речь в режиме реального времени.

По оценкам ученых, в настоящее время на карельском языке говорят около 30 тысяч человек, из которых порядка 25 тысяч проживают в России. Но в повседневной жизни карельский язык используют лишь 5-7 тысяч, что ставит его под угрозу исчезновения. Разработка направлена на документирование и сохранение карельского языка.

Ученые отмечают, что карельский язык является малоресурсным, то есть для него существует крайне мало электронных данных — текстов, аудиозаписей, словарей, — что осложняет создание системы распознавания речи.

Обучение нейросетей проводили на базе данных карельского языка, в основу которой легли материалы карельских периодических изданий, текстов на ливвиковском наречии из открытого корпуса вепсского и карельского языков ВепКар, а также ряда других открытых письменных источников.

Разработанная система может применяться для автоматического стенографирования речи на карельском языке, например, для расшифровки аудиоархивов и устной речи, в том числе для лингвистических исследований, что должно способствовать сохранению и дальнейшему исследованию карельского языка. © «Петрозаводск говорит»