Недавно наткнулся на один безумно интересный стартап — бот в Telegram, который умеет озвучивать текст голосами знаменитостей. Причём делает это настолько реалистично, что иногда не сразу понимаешь, где синтез, а где оригинал. Ты пишешь что-то вроде: "С добрым утром, товарищи!"
А бот отвечает тебе голосом Путина. Или Дудя. Или Урганта. Или кем захочешь. Оказалось, за этим стоит нейросетевая технология клонирования голоса. Модель обучается на голосе конкретного человека, а потом синтезирует любые фразы с его интонацией, тембром и ритмом. Я был настолько впечатлён, что решил: а почему бы не повторить самому? Сейчас существует несколько нейросетей, которые поддерживают русскую речь и позволяют синтезировать фразы с любым голосом: Здесь всё просто — YouTube и подкасты. Интервью, обращения, стендапы — всё подходит. Главное, чтобы: Можно использовать yt-dlp и ffmpeg, чтобы скачать и обработать аудио, а затем whisper от OpenAI для автоматической расшифровки речи. План простой: 💡 Уже даже на