Развитие технологий искусственного интеллекта продолжает трансформировать способы взаимодействия человека с машинами. OpenAI представляет новое поколение аудиомоделей, которые обещают сделать голосовых агентов более точными, интуитивными и персонализированными. Эти инновации открывают новые горизонты для разработчиков, в области аудио помощников. Одним из ключевых достижений OpenAI стало внедрение новых моделей для преобразования речи в текст (speech-to-text) и текста в речь (text-to-speech). Модели "gpt-4o-transcribe" и "gpt-4o-mini-transcribe" демонстрируют значительное улучшение точности распознавания речи благодаря снижению уровня ошибок (Word Error Rate) и способности работать в сложных условиях, таких как акценты, шумы или изменяющаяся скорость речи. Это делает их особенно полезными для таких сценариев, как транскрипция звонков в контакт-центрах или создание заметок с совещаний. С другой стороны, новая модель "gpt-4o-mini-tts" позволяет не только генерировать речь, но и задава
OpenAI продолжает радовать следующими поколениями аудиомоделей
25 марта 202525 мар 2025
2
2 мин