97 тыс подписчиков

OpenAI показала три новые голосовые модели от рассуждений до перевода

8 мая8 мая

1 мин

Компания OpenAI совершила тройной запуск, выпустив специализированные модели для работы с голосом в реальном времени: флагманскую GPT-Realtime-2, переводчик GPT-Realtime-Translate и транскрибатор GPT-Realtime-Whisper. Все три уже доступны разработчикам через API. Главная звезда анонса — GPT-Realtime-2, первая аудиомодель с логическим мышлением «класса GPT-5». Она на 11 процентов превосходит предшественницу по производительности, а ее контекстное окно расширено с 32 до 128 тысяч токенов, что позволяет дольше удерживать нить беседы. Модель научилась выполнять параллельные действия и вставлять короткие реплики вроде «сейчас проверю», делая диалог почти неотличимым от человеческого. В компании Zillow после внедрения новинки зафиксировали скачок успешных звонков с 69 до 95 процентов — рост на 26 пунктов. Цены остались прежними: 32 доллара за миллион токенов аудиовхода и 64 доллара за аудиовыход. Вторая модель, GPT-Realtime-Translate, решает задачу синхронного перевода. Она понимает более 70

Главная звезда анонса — GPT-Realtime-2, первая аудиомодель с логическим мышлением «класса GPT-5». Она на 11 процентов превосходит предшественницу по производительности, а ее контекстное окно расширено с 32 до 128 тысяч токенов, что позволяет дольше удерживать нить беседы. Модель научилась выполнять параллельные действия и вставлять короткие реплики вроде «сейчас проверю», делая диалог почти неотличимым от человеческого. В компании Zillow после внедрения новинки зафиксировали скачок успешных звонков с 69 до 95 процентов — рост на 26 пунктов. Цены остались прежними: 32 доллара за миллион токенов аудиовхода и 64 доллара за аудиовыход.

Вторая модель, GPT-Realtime-Translate, решает задачу синхронного перевода. Она понимает более 70 языков на входе и выдает речь на 13 языках, сохраняя темп и структуру речи собеседника. Тесты компании BolnaAI показали снижение числа ошибок на 12,5 процента для индийских языков, включая хинди, тамильский и телугу. Минута работы обойдется в 0,034 доллара.

Третий инструмент — GPT-Realtime-Whisper — отвечает за потоковую транскрипцию речи. Модель преобразует голос в текст практически в реальном времени, развивая семейство Whisper, впервые показанное еще в 2022 году. Стоимость — 0,017 доллара за минуту.

В OpenAI рассчитывают, что трио поможет создавать голосовые приложения нового поколения: от ИИ-ассистентов и автоматизированных колл-центров до систем синхронного перевода и интерактивных сервисов. Во все модели встроены механизмы безопасности для фильтрации нарушающего правила контента.

Автор: Адам Магомедов

Адам Магомедов

Гаджеты и электроника

5,73 млн интересуются