36 подписчиков

OpenAI готовит революцию в голосовом общении с ИИ

7 марта7 мар

1 мин

OpenAI разрабатывает новую аудиомодель с двунаправленной связью (BiDi), которая должна сделать диалог с искусственным интеллектом по-настоящему естественным. В чём отличие от текущих решений Сегодняшние голосовые ассистенты работают по схеме «вопрос — пауза — ответ». ИИ ждёт, пока пользователь закончит фразу, и только потом начинает обработку. BiDi-модель устроена иначе: она анализирует речь непрерывно и может адаптироваться к диалогу в реальном времени. Если собеседник перебивает или меняет тему, система скорректирует ответ на лету — как в живом разговоре. В OpenAI признают: текущие аудиомодели уступают текстовым по точности и скорости. Во время тестирования прототипы начинали сбоить уже через несколько минут диалога. По этой причине релиз перенесли с первого на второй квартал 2026 года, возможно ещё позже. Это уже не первая задержка: ранее откладывали запуск Advanced Voice Mode для GPT-4o из-за ошибок в инфраструктуре и системах безопасности. В ранних тестах фиксировали имитаци

OpenAI разрабатывает новую аудиомодель с двунаправленной связью (BiDi), которая должна сделать диалог с искусственным интеллектом по-настоящему естественным.

В чём отличие от текущих решений

Сегодняшние голосовые ассистенты работают по схеме «вопрос — пауза — ответ». ИИ ждёт, пока пользователь закончит фразу, и только потом начинает обработку.

BiDi-модель устроена иначе: она анализирует речь непрерывно и может адаптироваться к диалогу в реальном времени. Если собеседник перебивает или меняет тему, система скорректирует ответ на лету — как в живом разговоре.

В OpenAI признают: текущие аудиомодели уступают текстовым по точности и скорости. Во время тестирования прототипы начинали сбоить уже через несколько минут диалога.

По этой причине релиз перенесли с первого на второй квартал 2026 года, возможно ещё позже.

Это уже не первая задержка: ранее откладывали запуск Advanced Voice Mode для GPT-4o из-за ошибок в инфраструктуре и системах безопасности. В ранних тестах фиксировали имитацию голоса пользователя и неожиданные выкрики системы.

Новая модель — часть стратегии OpenAI по выходу на рынок потребительской электроники. В течение года компания планирует представить:

• Персональное аудиоустройство

• Умные колонки

• Умные очки

Для гаджетов и автомобилей создаются облегчённые версии моделей с локальной обработкой аудио. Это снизит затраты по сравнению с облачными вычислениями — подход, который уже использует Google с моделью Gemini Nano в смартфонах Pixel.

Для ускорения разработки все инженеры, исследователи и продукт-менеджеры объединены в единую команду, сфокусированную на аудиорешениях.