Добавить в корзинуПозвонить
Найти в Дзене

Стартап Миры Мурати показал ИИ для живого диалога

0,4 секунды на реакцию: стартап Thinking Machines Lab Миры Мурати показал модель для живого диалога с ИИ, которая слышит, видит и отвечает почти без паузы. Как пишет Habr / Новости, демо уже сравнили с GPT-realtime-2.0 и Gemini-3.1-flash-live, а разница в задержке получилась заметной: 0,4 секунды против 1,18 и 0,57 секунды соответственно. Для русскоязычной IT-аудитории тут важен не только очередной умный релиз, а смена самого сценария общения: вместо привычного чата модель пытаются приблизить к разговору, где можно перебить, уточнить и не ждать, пока собеседник закончит длинный монолог. Классическая схема вопросов и ответов для такого режима подходит плохо. Пока пользователь печатает или говорит, обычный чатбот ждёт; пока отвечает, он не слышит и не видит происходящее вокруг. Команда Мурати сравнивает этот подход с попыткой решать конфликт по почте: формально общение есть, но темп разговора сломан. Поэтому Thinking Machines выкинула turn-based-логику и перешла к потоковой обработке: вх

0,4 секунды на реакцию: стартап Thinking Machines Lab Миры Мурати показал модель для живого диалога с ИИ, которая слышит, видит и отвечает почти без паузы. Как пишет Habr / Новости, демо уже сравнили с GPT-realtime-2.0 и Gemini-3.1-flash-live, а разница в задержке получилась заметной: 0,4 секунды против 1,18 и 0,57 секунды соответственно. Для русскоязычной IT-аудитории тут важен не только очередной умный релиз, а смена самого сценария общения: вместо привычного чата модель пытаются приблизить к разговору, где можно перебить, уточнить и не ждать, пока собеседник закончит длинный монолог.

Классическая схема вопросов и ответов для такого режима подходит плохо. Пока пользователь печатает или говорит, обычный чатбот ждёт; пока отвечает, он не слышит и не видит происходящее вокруг. Команда Мурати сравнивает этот подход с попыткой решать конфликт по почте: формально общение есть, но темп разговора сломан. Поэтому Thinking Machines выкинула turn-based-логику и перешла к потоковой обработке: вход и выход режутся на куски по 200 миллисекунд, а модель параллельно слушает и генерирует ответ. Эти короткие отрезки авторы называют micro-turns, и именно они должны удерживать живой разговор с ИИ в темпе человеческой речи.

Чтобы не терять драгоценные миллисекунды на промежуточных стадиях, команда убрала тяжёлые отдельные энкодеры. В обычной схеме аудио прогоняют через что-то вроде Whisper, видео — через собственный энкодер, а затем всё это подают в основную модель. Здесь сырой сигнал идёт в трансформер через лёгкий embedding-слой, без лишней прокладки из нескольких моделей. Это не выглядит эффектно на демо-слайде, зато работает в инженерной реальности: чем меньше звеньев в цепочке, тем ниже задержка и тем меньше шансов, что разговорный режим ИИ превратится в очередной запоздалый монолог.

Сама система собрана из двух частей. TML-Interaction-Small отвечает за реальное время: слушает, говорит, реагирует на интонации и жесты. Если задача требует паузы на размышление — например, поиск в интернете или генерация сложного интерфейса, — запрос уходит в фоновую модель, которая думает асинхронно и возвращает результат позже. TML-Interaction-Small построена как разреженная MoE-модель на 276 миллиардов параметров, но на каждом шаге активны только 12 миллиардов. Для продукта это разумный расклад: одна часть системы держит ритм разговора, другая не торопясь считает то, что в реальном времени только мешало бы.

В бенчмарках ставка на интерактивность тоже заметна. На FD-bench V1.5, который проверяет прерывания, фоновые реплики и разговоры «в сторону», TML-Interaction-Small получила 77,8 балла против 46,8 у GPT-realtime-2.0 (minimal) и 54,3 у Gemini-3.1-flash-live. На RepCount-A, где модель должна вслух считать повторения по видео, результат составил 35,4 против 1,3 у GPT-realtime-2.0. На CueSpeak, где нужно среагировать на словесный триггер в нужный момент, — 81,7 против 2,9. Конкуренты на этих задачах, по сути, не столько проиграли, сколько не успели включиться в разговор.

Для Миры Мурати это уже второй публичный продукт после Tinker, инструмента для исследователей, который запустили в октябре 2025 года. Пока доступ к новой модели есть только у избранных партнёров, а в ближайшие месяцы компания обещает ограниченное превью перед полноценным релизом до конца года. Если это действительно доберётся до продукта без потери темпа, разработчикам, продактам и тем, кто строит голосовых ассистентов, придётся пересмотреть базовую механику интерфейсов: вместо длинного запроса и длинного ответа появится сценарий, где система умеет слушать, поддакивать, перебивать и не ломать ритм разговора. А это уже не косметика, а новая планка для Habr / Новости и всей индустрии вокруг живого диалога с ИИ. Вопрос теперь в том, кто первым переведёт эту механику из демо в рабочий инструмент, который не ломается на шуме офиса и перебиваниях.

The post Стартап Миры Мурати показал ИИ для живого диалога appeared first on iTech News.