Найти в Дзене

ПРОЕКТ EMOTTS — СИНТЕЗ ЭМОЦИОНАЛЬНОЙ РЕЧИ


Крупнейшее издательство Springer International Publishing опубликовало материалы исследования преподавателя-практика кафедры Информационных технологий и цифровой экономики.
На сегодняшний день издательство Springer – это ведущее международное предприятие, занимающееся издательством академических книг и журналов по естественным наукам. Концерн состоит из 70 издательских домов, расположенных по всему миру, выпускает свыше 3 тысяч журналов и 8,5 тысяч книг.
Одна из таких книг - «Speech and Computer», которая представляет собой материалы 24-й Международной конференции по речи и компьютерам SPECOM 2022 (Индия). Именно в ней была представлена научная статья «Low-Resource Emotional Speech Synthesis: Transfer Learning and Data Requirements», одним из авторов которой выступил преподаватель-практик нашей кафедры Антон Сергеевич Нестеренко.
Работа направлена на изучение количества данных необходимых для получения качественного синтеза речи с возможностью изменения спикеров и эмоций. Одновременно с этим в ходе исследования были изучены архитектурные изменения модели, касающиеся функций потерь при обучении модели и трансферное обучение от модели верификации голоса.
Результаты показывают, что обучение передачи может снизить требования к данным с 15 минут на говорящего для каждой эмоции всего до 2,5–7 минут, сохраняя незначительные изменения в естественности голоса и обеспечивая высокие показатели распознавания эмоций. В том числе демонстрируется, как требования к данным меняются от одной эмоции к другой.
С основными выводами этого исследования можно ознакомиться по ссылке.
1 минута