Эта модель обладает уникальной способностью восприятия и создания аудио, визуального контента и текста, и будет предоставлена пользователям на бесплатной основе. Префикс “omni” в названии GPT-4o подчеркивает ее всесторонние возможности.
Новая версия опережает предыдущие по скорости и эффективности, занимая лидирующие позиции в тестированиях, в том числе превосходя Google Gemini. Особенности GPT-4o включают:
- Быстрый отклик на аудиосигналы — всего за 232 миллисекунды, среднее время реакции — 320 миллисекунд, что сопоставимо с человеческой реакцией в беседе.
- “Человеческое” общение — модель способна менять интонации, имитируя естественную речь.
- Улучшенная память — GPT-4o запоминает все диалоги с пользователем.
- Соответствие производительности GPT-4 Turbo для английского текста и программного кода.
- Улучшенная работа с неанглоязычным текстом — поддержка 50 языков.
- 3D-синтез объектов.
- Улучшенное восприятие и анализ изображений — включая графики, диаграммы и скриншоты.
Полный перечень функций доступен в блоге OpenAI. Во время демонстрации сотрудники OpenAI взаимодействовали с GPT-4o голосом, показывая ее способность понимать нюансы разговора и шутить. Модель также продемонстрировала способность имитировать роботизированный голос.
Постепенное внедрение GPT-4o начнется сегодня, с приоритетом на текстовые и визуальные функции для ChatGPT. Для разработчиков API новой модели уже доступен, как сообщила технический директор OpenAI Мира Мурати. Также компания планирует выпустить специализированное приложение для ПК.
]]>