2669 подписчиков

Thinking Machines показала ИИ, который слушает и говорит сразу

12 мая12 мая

2 мин

Thinking Machines Lab, стартап Миры Мурати, представил новый класс голосовых моделей под названием interaction models. Смысл простой и амбициозный: ИИ должен не ждать конца вашей реплики, а слушать и формировать ответ одновременно. Первая версия, TML-Interaction-Small, по словам компании, укладывается в 0,40 секунды отклика. Ещё по теме: Для голосового ИИ это самая больная точка. OpenAI с Advanced Voice и Google с Gemini Live давно продают идею «живого разговора», но у большинства систем под капотом по-прежнему конвейер из распознавания речи, текстовой модели и синтеза голоса. Из-за этого ассистенты либо тормозят, либо перебивают не к месту. Thinking Machines пытается вшить интерактивность в саму модель, а не прикручивать ее поверх. ⚡Подписывайтесь на канал itzine и канал подкаста ForGeeks в Telegram! Там самые свежие новости про технологии, гаджеты, косплей и космос. На бумаге цифра хорошая, но без мистики. В исследованиях по разговорной речи средний зазор между репликами людей часто

Ещё по теме:

Для голосового ИИ это самая больная точка. OpenAI с Advanced Voice и Google с Gemini Live давно продают идею «живого разговора», но у большинства систем под капотом по-прежнему конвейер из распознавания речи, текстовой модели и синтеза голоса. Из-за этого ассистенты либо тормозят, либо перебивают не к месту. Thinking Machines пытается вшить интерактивность в саму модель, а не прикручивать ее поверх.

⚡Подписывайтесь на канал itzine и канал подкаста ForGeeks в Telegram! Там самые свежие новости про технологии, гаджеты, косплей и космос.

Что умеет голосовой ИИ TML-Interaction-Small

работает в режиме full duplex, то есть слушает и отвечает параллельно
заявленная задержка ответа составляет 0,40 секунды
ограниченный research preview обещан в ближайшие месяцы

На бумаге цифра хорошая, но без мистики. В исследованиях по разговорной речи средний зазор между репликами людей часто ближе к 200 миллисекундам, так что 0,40 секунды — это скорее «почти естественно», чем «как человек». Зато даже такой выигрыш заметен в колл-центрах, у голосовых помощников и в обучающих ботах, где каждая неловкая пауза быстро превращает диалог в допрос.

👉 Читайте также наши материалы на itzine.ru

Есть и старая проблема всей категории: быстрый голосовой ИИ легко становится раздражающим. OpenAI уже проходила через это, когда обещания живой беседы упирались в безопасность, ложные срабатывания и привычку модели лезть в разговор раньше времени. Thinking Machines выходит на ту же минную полосу, просто с более чистой архитектурной идеей и с удобным маркетинговым тезисом.

Последний обзор:

Обзор Jabra Elite active 75t: король умер, да здравствует король

Ограниченный research preview компания обещает в ближайшие месяцы, широкий релиз запланирован до конца 2026 года.

Гаджеты и электроника

5,73 млн интересуются