Компания DeepMind, в сотрудничестве с Университетом Оксфорда, разработала нейросеть, способную производить голосовые комментарии к видео. Это технологическое достижение открывает возможности для создания интерактивных обучающих видео, автоматической озвучки текста и улучшения доступности контента для людей с ограниченными возможностями.
Разработка нейросети происходила в два этапа. Сначала, с помощью алгоритмов машинного обучения, исследователи обучили модель, способную распознавать содержание видео и создавать описательный текст. Затем они использовали этот текст для создания голосовой дорожки, которая была воспроизведена компьютером с помощью системы синтеза речи.
Применение этой технологии может быть широким. Например, она может быть использована для автоматической озвучки онлайн-курсов, создания доступного контента для людей с нарушениями зрения или для автоматической озвучки новостных видео на разных языках.
Однако следует отметить, что производство голосовых комментариев, похожих на человеческие, требует значительных усилий, и качество озвучки может быть недостаточным для использования в некоторых приложениях. Кроме того, для эффективной работы нейросети необходимы большие объемы данных и достаточно высокая вычислительная мощность, что может быть ограничением для некоторых приложений.