Inworld представила realtime tts-2 — новый лидер среди генераторов голоса

СегодняСегодня

~1 мин

Стартап Inworld выпустил realtime tts-2 — генератор голоса, занявший первое место в чарте Artificial Analysis, опередив OpenAI, Gemini и ElevenLabs. Ключевые особенности: • Модель обучалась на живых диалогах, а не на аудиокнигах. • Используется слуховой контекст — на вход подается аудио предыдущей реплики. • Управление эмоциями через текстовые инструкции, без стандартных пресетов. • Один голос поддерживает более 100 языков с сохранением тембра, возможна смена языка в середине фразы. • Персонажи настраиваются промптами, референсы не требуются. • Время отклика — менее 200 мс, для клонирования голоса достаточно 15 секунд записи. Демонстрация доступна по ссылке. https://dzen.ru/id/5c0e38ff46ef5c00aaa80527

Стартап Inworld выпустил realtime tts-2 — генератор голоса, занявший первое место в чарте Artificial Analysis, опередив OpenAI, Gemini и ElevenLabs.

Ключевые особенности:

• Модель обучалась на живых диалогах, а не на аудиокнигах.

• Используется слуховой контекст — на вход подается аудио предыдущей реплики.

• Управление эмоциями через текстовые инструкции, без стандартных пресетов.

• Один голос поддерживает более 100 языков с сохранением тембра, возможна смена языка в середине фразы.

• Персонажи настраиваются промптами, референсы не требуются.

• Время отклика — менее 200 мс, для клонирования голоса достаточно 15 секунд записи.

Демонстрация доступна по ссылке.

https://dzen.ru/id/5c0e38ff46ef5c00aaa80527