Thinking Machines выкатили research preview interaction models - моделей, у которых интерактивность не собрана снаружи через VAD, ASR, TTS и агентный harness, а является нативным свойством самой модели. Это важнее, чем звучит. Сегодняшние frontier-модели хорошо работают в режиме: дал промпт, ушел, вернулся к результату. Но как только человек хочет работать с ИИ рядом, в реальном времени, вся магия ломается. Модель ждет конца твоей реплики. Ты ждешь конца ее генерации. Перебить нельзя. Говорить одновременно нельзя. На видео реагировать нечем. Получается не диалог, а обмен длинными сообщениями с задержкой. Thinking Machines пытаются сломать именно эту схему. Они обучили модель с нуля, где вход и выход - это непрерывные потоки, нарезанные на микротурны по 200 мс. На каждом таком окне модель принимает аудио, видео и текст, а параллельно генерирует аудио и текст. Границы реплик больше не нужно угадывать. Тишина, перебивания, перекрытия голосов и визуальные сигналы становятся частью конт
Thinking Machines показали модель, где realtime встроен внутрь, а не прикручен костылями
12 мая12 мая
1
3 мин