В большинстве случаев ИИ, который генерирует речь, обучают на датасетах, где записана речь профессиональных актеров. Из-за этого человеческому уху синтетический голос кажется безэмоциональным и монотонным.
Чтобы исправить ситуацию, исследователи из университета Карнеги-Меллона в США решили тренировать искусственный интеллект на видео с YouTube и подкастах. Прослушав почти 900 часов такого контента, модель научилась реалистично делать паузу, использовать междометия и слова-паразиты. Работу ИИ можно оценить на записи выше.
Людей, которых просили оценить реалистичность голоса, поставили ему 3,89 по пятибалльной шкале. Это выше, чем в среднем получают подобные ИИ-модели (настоящий человеческий голос получил оценку 4,01)
----------
Еще интересное из нашего канала:
*На первого в мире робота-адвоката подали в суд за юридическую практику в США без лицензии
*Pebblely — нейронка для контентщиков и маркетологов
"Нейромонах. Новости ИИ" в Telegram: Новости Ai, примеры работ, туториалы и прочие полезности.