4 подписчика

Компания DeepMind, в сотрудничестве с Университетом Оксфорда, разработала нейросеть, способную производить голосовые комментарии к видео.

9 марта 20239 мар 2023

1 мин

Компания DeepMind, в сотрудничестве с Университетом Оксфорда, разработала нейросеть, способную производить голосовые комментарии к видео. Это технологическое достижение открывает возможности для создания интерактивных обучающих видео, автоматической озвучки текста и улучшения доступности контента для людей с ограниченными возможностями.

Разработка нейросети происходила в два этапа. Сначала, с помощью алгоритмов машинного обучения, исследователи обучили модель, способную распознавать содержание видео и создавать описательный текст. Затем они использовали этот текст для создания голосовой дорожки, которая была воспроизведена компьютером с помощью системы синтеза речи.

Применение этой технологии может быть широким. Например, она может быть использована для автоматической озвучки онлайн-курсов, создания доступного контента для людей с нарушениями зрения или для автоматической озвучки новостных видео на разных языках.

Однако следует отметить, что производство голосовых комментариев, похожих на человеческие, требует значительных усилий, и качество озвучки может быть недостаточным для использования в некоторых приложениях. Кроме того, для эффективной работы нейросети необходимы большие объемы данных и достаточно высокая вычислительная мощность, что может быть ограничением для некоторых приложений.