В понедельник вечером OpenAI объявила о выходе GPT-4o (omni) - более быстрой мультимодальной (многорежимной) преемницы знаменитого чат-бота ChatGPT. Новая модель использует передовую архитектуру больших языковых моделей (LLM) для обработки аудио, визуальных данных и текстовых запросов в режиме реального времени, как в устной форме, так и на экране. Пользователи платных версий ChatGPT Plus и Enterprise получат полный доступ к GPT-4o, а пользователи бесплатной версии 3.5 начнут получать ограниченный доступ к модели уже на этой неделе.
В отличие от ChatGPT, который обрабатывает запросы текстовых и голосовых команд с задержкой примерно 3 секунды, GPT-4o, как утверждает OpenAI, может обрабатывать запросы всех типов (текст, голосовые команды, изображения и видео) со скоростью, сравнимой с обычным человеческим разговором. Во время прямой трансляции в понедельник OpenAI заявила, что пользователи смогут сфотографировать достопримечательность и обсудить её историю с GPT-4o в режиме реального времени — новая способность, которая может составить конкуренцию Ray-Ban Meta. Также можно сфотографировать содержимое холодильника, чтобы получить рекомендации по приготовлению ужина. Сообщается, что пользователи могут привлечь GPT-4o к групповой беседе, чтобы разрешить спор, или подготовиться к собеседованию, поговорив с GPT-4o "лицом к лицу".
График, показывающий производительность аудиоперевода GPT-4o в сравнении с другими ведущими ИИ-моделями. Автор: OpenAI
OpenAI утверждает, что GPT-4o обеспечивает производительность GPT-4 Turbo, но в два раза быстрее. Сообщается, что при обработке звуковых запросов она допускает меньше ошибок, чем предварительно обученная модель Whisper-v3 для автоматического распознавания речи. Она также переводит звук быстрее и с более высоким уровнем точности, чем Google AudioPalm-2 и Microsoft Gemini, а визуальные файлы «понимает» точнее и быстрее, чем GPT-4 Turbo, Gemini 1.0 Ultra, Gemini 1.5 Pro и Anthropic's Claude Opus.
Несмотря на довольно распространенный скептицизм относительно влияния чат-ботов с искусственным интеллектом на окружающую среду, OpenAI не поделилась никакими данными об экологичности GPT-4o (или её отсутствии) по сравнению с существующими моделями. В прошлом году исследование показало, что создание всего лишь нескольких изображений с помощью искусственного интеллекта потребляет столько же энергии, сколько требуется для зарядки смартфона. Исследователи также обнаружили, что на каждые пять запросов, на которые отвечает ChatGPT, расходуется количество воды, эквивалентное полулитровой бутылки.
OpenAI также опровергла слухи о том, что на этой неделе представит новую функцию веб-поиска. Хотя все указывает на то, что в конечном итоге будет выпущена функция GPT-поиска с ссылками на источники. Возможно, OpenAI еще не готова продемонстрировать свою новую функцию и собирается выпустить ее с новой версией чат-бота GPT-5.