11,7 тыс подписчиков

Thinking Machines показали модель, где realtime встроен внутрь, а не прикручен костылями

12 мая12 мая

3 мин

Thinking Machines выкатили research preview interaction models - моделей, у которых интерактивность не собрана снаружи через VAD, ASR, TTS и агентный harness, а является нативным свойством самой модели. Это важнее, чем звучит. Сегодняшние frontier-модели хорошо работают в режиме: дал промпт, ушел, вернулся к результату. Но как только человек хочет работать с ИИ рядом, в реальном времени, вся магия ломается. Модель ждет конца твоей реплики. Ты ждешь конца ее генерации. Перебить нельзя. Говорить одновременно нельзя. На видео реагировать нечем. Получается не диалог, а обмен длинными сообщениями с задержкой. Thinking Machines пытаются сломать именно эту схему. Они обучили модель с нуля, где вход и выход - это непрерывные потоки, нарезанные на микротурны по 200 мс. На каждом таком окне модель принимает аудио, видео и текст, а параллельно генерирует аудио и текст. Границы реплик больше не нужно угадывать. Тишина, перебивания, перекрытия голосов и визуальные сигналы становятся частью конт

Это важнее, чем звучит.

Сегодняшние frontier-модели хорошо работают в режиме: дал промпт, ушел, вернулся к результату. Но как только человек хочет работать с ИИ рядом, в реальном времени, вся магия ломается. Модель ждет конца твоей реплики. Ты ждешь конца ее генерации. Перебить нельзя. Говорить одновременно нельзя. На видео реагировать нечем. Получается не диалог, а обмен длинными сообщениями с задержкой.

Thinking Machines пытаются сломать именно эту схему.

Они обучили модель с нуля, где вход и выход - это непрерывные потоки, нарезанные на микротурны по 200 мс. На каждом таком окне модель принимает аудио, видео и текст, а параллельно генерирует аудио и текст. Границы реплик больше не нужно угадывать. Тишина, перебивания, перекрытия голосов и визуальные сигналы становятся частью контекста, а не проблемой для внешней обвязки.

Архитектура тоже интересная. Аудио подается как dMel через легкий embedding, изображения режутся на патчи 40x40 и идут в hMLP, аудио на выходе декодируется flow-головой, а всё это тренируется вместе с трансформером. Без тяжелых отдельных энкодеров и без классической схемы «распознал речь - отправил текст - синтезировал ответ».

Еще одна сильная идея - асинхронный background-агент. Когда нужны долгие рассуждения или инструменты, основная модель делегирует ему полный контекст, но сама не замирает и продолжает разговор. Когда результат готов, она вплетает его обратно в диалог.

По сути они разделяют две вещи:

- отвечать быстро, как realtime non-thinking модель

- думать глубоко, как reasoning-модель

- не заставлять пользователя ждать, пока вся цепочка рассуждений закончится

Инженерно там тоже много мяса. Чанки по 200 мс ломают привычные инференс-серверы, потому что постоянные prefill-запросы быстро становятся узким местом. Поэтому они сделали streaming sessions: клиент отправляет каждый чанк отдельным запросом, а сервер держит постоянную последовательность в GPU-памяти и просто дописывает в нее новые данные. Эту фичу уже заапстримили в SGLang.

Для стабильности тренировки они добились побитового совпадения trainer и sampler через batch-invariant ядра с оверхедом меньше 5%. В том числе использовали NVLS-коммуникационные ядра на Blackwell и согласованный split-KV между prefill и decode.

Сама модель называется TML-Interaction-Small. Это 276B MoE с 12B активных параметров.

По заявленным результатам:

- на FD-bench модель держит SOTA по интерактивности

- на Audio MultiChallenge обгоняет все non-thinking realtime-модели

- подбирается к thinking-режимам GPT-realtime-2 и Gemini-3.1-flash-live

- на новых задачах вроде TimeSpeak, CueSpeak, RepCount-A, ProactiveVideoQA и Charades показывает способности, которых у обычных realtime-API почти нет

Самое важное тут не бенчмарки, а сдвиг в продуктовой логике.

Если такой подход масштабируется, огромный класс AI-продуктов перестанет нуждаться во внешнем оркестраторе. Живой перевод, тьюторы по произношению, ассистент, который комментирует код прямо во время набора, подсчет повторений на тренировке, навигация для незрячих - всё это сейчас собирается на костылях с заметным лагом.

А здесь интерактивность становится свойством самой модели.

Ограничения тоже честные: длинные сессии быстро забивают контекст, нужен стабильный канал, а текущий чекпойнт еще не самый крупный. Большие модели у них пока слишком медленные для realtime.

Но направление выглядит очень сильным. Это уже не «ChatGPT с голосом». Это попытка сделать ИИ, который не просто отвечает после тебя, а реально присутствует в моменте.

https://thinkingmachines.ai/blog/interaction-models/

Производственные технологии

99 тыс интересуются