Добавить в корзинуПозвонить
Найти в Дзене
Neurogen

Realtime TTS-2

Очень сильная модель синтеза речи, созданная не для озвучки текста, а именно для живого диалога, учитывает не только слова, но и аудиоконтекст разговора: тон, темп, эмоциональное состояние собеседника и динамику предыдущих реплик Модель умеет принимать voice direction на естественном языке. Плюс Realtime TTS-2 сохраняет единую голосовую идентичность в более чем 100 языках, даже если переключатьсч между ними в одной реплике Conversational Awareness: система анализирует именно звук прошлых реплик, а не только транскрипт. значит, что одна и та же фраза может прозвучать по-разному после шутки, плохих новостей или усталого вечернего разговора ближе к тому, как общаются реальные люди Доступна через Inworld API и Realtime API в формате research preview, а медианная задержка до первого аудио для TTS-слоя — менее 200 мс Попробовать Блокпост

Realtime TTS-2

Очень сильная модель синтеза речи, созданная не для озвучки текста, а именно для живого диалога, учитывает не только слова, но и аудиоконтекст разговора: тон, темп, эмоциональное состояние собеседника и динамику предыдущих реплик

Модель умеет принимать voice direction на естественном языке. Плюс Realtime TTS-2 сохраняет единую голосовую идентичность в более чем 100 языках, даже если переключатьсч между ними в одной реплике

Conversational Awareness: система анализирует именно звук прошлых реплик, а не только транскрипт. значит, что одна и та же фраза может прозвучать по-разному после шутки, плохих новостей или усталого вечернего разговора ближе к тому, как общаются реальные люди

Доступна через Inworld API и Realtime API в формате research preview, а медианная задержка до первого аудио для TTS-слоя — менее 200 мс

Попробовать

Блокпост