Стартап Inworld выпустил realtime tts-2 — генератор голоса, занявший первое место в чарте Artificial Analysis, опередив OpenAI, Gemini и ElevenLabs. Ключевые особенности: • Модель обучалась на живых диалогах, а не на аудиокнигах. • Используется слуховой контекст — на вход подается аудио предыдущей реплики. • Управление эмоциями через текстовые инструкции, без стандартных пресетов. • Один голос поддерживает более 100 языков с сохранением тембра, возможна смена языка в середине фразы. • Персонажи настраиваются промптами, референсы не требуются. • Время отклика — менее 200 мс, для клонирования голоса достаточно 15 секунд записи. Демонстрация доступна по ссылке. https://dzen.ru/id/5c0e38ff46ef5c00aaa80527
Inworld представила realtime tts-2 — новый лидер среди генераторов голоса
СегодняСегодня
1
~1 мин