107 подписчиков

Стартап Миры Мурати запустил ИИ с живым взаимодействием — задержка 0,4 секунды

ВчераВчера

2 мин

Стартап Thinking Machines под руководством бывшего технического директора OpenAI Миры Мурати представил первую демонстрацию своей модели, способной вести живую беседу с пользователем. Новая система реагирует за 0,4 секунды, что значительно быстрее, чем у конкурирующих продуктов: 1,18 секунды у GPT-realtime-2.0 и 0,57 у Gemini-3.1-flash-live. Обычные чат-боты работают по стандартной схеме: они ждут полного завершения ввода от пользователя, что приводит к дискомфорту в общении. Это можно представить как разрешение конфликта по электронной почте, а не лицом к лицу. Такое взаимодействие требует от пользователей формулировать свои мысли как письма. Thinking Machines отказалась от традиционного пошагового подхода и перешла к потоковой обработке. Модель делит входные эти и ответы на куски по 200 миллисекунд, параллельно слушая и анализируя аудио и видео. Это позволяет ей генерировать текст почти моментально, что создает иллюзию живого общения. Основные компоненты системы — TML-Interaction-Sma

Оглавление

Проблема традиционных ИИ-решений
Как работает Thinking Machines?
Тестирование и производительность

Проблема традиционных ИИ-решений

Обычные чат-боты работают по стандартной схеме: они ждут полного завершения ввода от пользователя, что приводит к дискомфорту в общении. Это можно представить как разрешение конфликта по электронной почте, а не лицом к лицу. Такое взаимодействие требует от пользователей формулировать свои мысли как письма.

Как работает Thinking Machines?

Thinking Machines отказалась от традиционного пошагового подхода и перешла к потоковой обработке. Модель делит входные эти и ответы на куски по 200 миллисекунд, параллельно слушая и анализируя аудио и видео. Это позволяет ей генерировать текст почти моментально, что создает иллюзию живого общения.

Основные компоненты системы — TML-Interaction-Small и фоновая модель. Первая отвечает за взаимодействие в реальном времени, а вторая занимается более сложными задачами, такими как поиск информации. Архитектура MoE, используемая в системе, задействует 12 из 276 миллиардов параметров на каждом шаге, что оптимизирует производительность.

Тестирование и производительность

На тестах качества живого взаимодействия (FD-bench V1.5) модель набрала 77,8 балла — это в разы лучше, чем у аналогов. Например, в тестах визуальной проактивности, где модель должна реагировать на словесные триггеры и выполнять команды, TML показала 81,7 балла против 2,9 у GPT-realtime-2.0.

Что это значит для рынка?

Появление таких технологий, как у Thinkinig Machines, может значительно изменить подход к разработке чат-ботов и голосовых помощников. Для бизнеса это значит возможность уменьшить задержки в коммуникации с клиентами и повысить качество сервиса. Компании, планирующие внедрение ИИ решений, должны обратить внимание на эффективность новых подходов.

Ожидается, что Thinking Machines в ближайшие месяцы откроет ограниченный доступ к своей модели для партнеров, а полноценный релиз намечен до конца года. Это может стать интересной возможностью для стартапов и организаций, желающих улучшить взаимодействие с клиентами.

The post Стартап Миры Мурати запустил ИИ с живым взаимодействием — задержка 0,4 секунды appeared first on iTech News.