OpenAI продолжает расширять возможности применения искусственного интеллекта. Компания поделилась результатами разработки нейросети Voice Engine, которая на основе текста или голоса способна создать 15-секундный аудио сэмпл. Нейросеть генерирует естественно звучащую речь. Примечательно, что текущая модель способна создавать эмоциональные и реалистичные голоса. Voice Engine разработана в конце 2022 года. Нейросеть ранее использовалась для поддержки предустановленных голосов, доступных в API софта для преобразования текста в речь, а также в продуктах ChatGPT Voice и Read Aloud...
Сервис пригодится, чтобы слушать лекции и монтировать видеоролики. При обмене аудиосообщениями, записи интервью или озвучке визуального ряда довольно часто возникают проблемы с посторонними звуками на фоне, которые мешают воспринимать полезную информацию. В большинстве современных смартфонов уже есть собственные алгоритмы шумоподавления для микрофонов, но они не всегда справляются хорошо. Профессионалы используют дорогое оборудование и сложные программы, но есть решение и для тех, кто не может тратить большое количество ресурсов и времени на свой проект...