31 подписчик

Голос ИИ Inworld TTS-2 в 6 раз дешевле ElevenLabs и умеет шептать

10 мая10 мая

3 мин

Голосовые ассистенты наконец-то перестали звучать как роботы благодаря новой модели Realtime TTS-2. Она в 6 раз дешевле ElevenLabs и умеет даже понимающе вздохнуть в нужный момент. Большинство голосовых моделей звучат одинаково: стерильно и безжизненно. Даже самые продвинутые из них просто очень качественно имитируют человеческий тембр, но совершенно не чувствуют контекста. Если ты жалуешься ИИ на то, что у тебя сгорел дедлайн и развалился проект, он ответит тебе бодрым и оптимистичным голосом, который в этот момент хочется просто выключить. Inworld Realtime TTS-2 работает иначе. Она превращает ИИ в социального хамелеона. Модель анализирует твой темп речи и эмоциональное состояние прямо в процессе разговора. Если ты переходишь на шепот или начинаешь говорить медленнее, ИИ подстроится под тебя. Он может заговорщицки прошептать секрет или добавить в голос нотку сочувствия, когда это уместно. Это полноценный поведенческий ИИ. Представь театрального актёра, который считывает настроение зал

Оглавление

Эмпатия вместо скриптов
Управление голосом через промпты
Почему это дешевле и быстрее

Эмпатия вместо скриптов

Большинство голосовых моделей звучат одинаково: стерильно и безжизненно. Даже самые продвинутые из них просто очень качественно имитируют человеческий тембр, но совершенно не чувствуют контекста. Если ты жалуешься ИИ на то, что у тебя сгорел дедлайн и развалился проект, он ответит тебе бодрым и оптимистичным голосом, который в этот момент хочется просто выключить.

Inworld Realtime TTS-2 работает иначе. Она превращает ИИ в социального хамелеона. Модель анализирует твой темп речи и эмоциональное состояние прямо в процессе разговора. Если ты переходишь на шепот или начинаешь говорить медленнее, ИИ подстроится под тебя. Он может заговорщицки прошептать секрет или добавить в голос нотку сочувствия, когда это уместно.

Это полноценный поведенческий ИИ. Представь театрального актёра, который считывает настроение зала и на лету меняет подачу, чтобы вызвать нужную эмоцию. В итоге общение превращается в живой диалог.

Управление голосом через промпты

Самое интересное здесь — то, как разработчики теперь управляют эмоциями. Раньше всё строилось на жёстких настройках: «грустно» и «весело». Теперь всё работает через обычный английский язык в квадратных скобках. Хочешь, чтобы ИИ звучал так, будто у него только что случилась какая-то беда? Просто пишешь. «Говорите с грустью, как будто только что случилось что-то плохое».

В модель вшили естественные запинки и паузы. Это те самые мелкие дефекты речи, которые делают нас людьми. Без них голос звучит слишком идеально, и мозг моментально считывает подвох. Теперь ИИ может посмеяться в тему или тяжело вздохнуть, прежде чем ответить на очередной странный вопрос.

Это похоже на работу с очень способным стажёром. Ты описываешь, с каким настроением нужно донести мысль до клиента. При этом модель поддерживает более 100 языков, и голос остаётся узнаваемым, даже если ИИ переключается с английского на русский прямо внутри одного предложения.

Почему это дешевле и быстрее

Пока одни компании делают ставку на красивые интерфейсы и огромные библиотеки голосов, Inworld пошла по пути максимальной эффективности. Если смотреть на цифры, то Realtime TTS-2 выглядит как настоящий кошмар для конкурентов.

Модель занимает первое место в Speech Arena от Artificial Analysis с Elo выше 1230. Это значит, что в слепых тестах люди выбирают её чаще всего. При этом стоимость синтеза в 6–12 раз ниже, чем у ElevenLabs. Пока одни платят за бренд и «студийный» лоск, другие получают топовое качество за копейки.

Скорость отклика здесь тоже на высоте. Задержка до первого кусочка аудио составляет меньше 200 миллисекунд. Это уровень человеческих рефлексов. Ты не чувствуешь этой мучительной паузы, когда ИИ «думает», как бы правильно произнести фразу. Всё происходит мгновенно, как в реальном разговоре в кафе или в офисе.

Правда, на очень специфических технических терминах или редких диалектах модель всё ещё может иногда «спотыкаться», но для 95% бизнес-задач этого более чем достаточно.

Голос в контуре бизнеса

Такая технология меняет подход к созданию цифровых сотрудников. Теперь агент в техподдержке или виртуальный консультант не будет раздражать клиента своим «роботизированным» тоном. Он сможет считывать агрессию пользователя и вовремя переходить на успокаивающий лад, или, наоборот, разделять радость клиента от удачной покупки.

Теперь голосовой интерфейс работает как мощный инструмент влияния и удержания. Когда машина начинает понимать твои эмоции и зеркалить их, уровень доверия к ней растёт в разы. Это полноценный собеседник.

Разрабатываю и внедряю ИИ-агентов под бизнес-процессы — если нужно внедрить такое в свой бизнес, напишите в телеграме @dmitra_ai или ВКонтакте, обсудим.

Скоро мы дойдём до точки, когда отличить запись живого человека от генерации будет невозможно даже для профи. И самое пугающее здесь — то, что ИИ начал понимать, когда именно нужно шептать.