139,5 тыс подписчиков

OpenAI представила новую функцию, позволяющую ИИ зачитывать текст голосом реального человека

30 марта 202430 мар 2024

1 мин

OpenAI представила первые результаты тестирования новой функции, способной читать тексты вслух с убедительным человеческим голосом. Это открывает новую эру в развитии искусственного интеллекта и увеличивает вероятность появления дипфейков.

Компания продемонстрировала ранние версии и примеры использования функции текст в речь под названием Voice Engine на коротком показе, который был доступен примерно для 10 разработчиков. Однако, OpenAI решила отложить широкое внедрение этой функции, и ранее в этом месяце они сообщили об этом журналистам.

Представитель компании отметил, что решение о сокращении выпуска было принято после получения обратной связи от различных заинтересованных сторон, включая политиков, экспертов отрасли, учителей и творческих личностей. Изначально OpenAI планировала предоставить доступ к инструменту для 100 разработчиков через процесс подачи заявок.

"Мы понимаем, что возможность создавать речь, которая напоминает голоса людей, связана с серьезными рисками, особенно в период выборов. Мы сотрудничаем с американскими и международными партнерами из правительственных учреждений, СМИ, индустрии развлечений, образования, гражданского общества и за его пределами, чтобы учитывать их отзывы при разработке", - говорится в сообщении компании.

Voice Engine OpenAI отличается от предыдущих разработок компании в области аудиоконтента тем, что способен создавать убедительные голоса с уникальной интонацией различных людей всего лишь на основе 15 секунд аудиозаписи говорящего. Во время демонстрации, где ИИ говорил голосом главного исполнительного директора OpenAI Сэма Альтмана о самой технологии. Речь была неотличима от реального голоса Альтмана, но была полностью создана искусственным интеллектом.

OpenAI также поделилась информацией о партнерстве с Институтом неврологии Нормана Принса, который использует технологию для помощи пациентам с нарушениями речи. Кроме того, пользовательская речевая модель OpenAI способна переводить сгенерированный звук на разные языки, что делает ее полезной для аудиобизнеса, такого как Spotify. Компания также рассказала о других потенциальных применениях технологии, включая создание образовательного контента для детей с использованием разнообразных голосов.