5 подписчиков

OpenAI выпустили мультимодальную модель GPT-4o

14 мая 202414 мая 2024

2 мин

Буква "o" в названии модели означает "omni" - GPT-4o может обрабатывать любую комбинацию текста, аудио и изображений и предоставлять информацию во всех этих форматах. Кроме того, модель способна распознавать эмоции, прерывать себя в процессе речи и реагировать на общение так же быстро, как и человек.

Технический директор OpenAI Миры Мурати отметил, что новый алгоритм предоставляет интеллект "уровня GPT-4", но обладает лучшими возможностями в различных модальностях и средах.

Во время демонстрации OpenAI GPT-4o продемонстрировала свои возможности. Алгоритм в прямом эфире переводил текст с английского на итальянский, помогал исследователю решить линейное уравнение на бумаге в реальном времени и давал рекомендации по глубокому дыханию.

Отличие GPT-4o от предыдущих в

Лаборатория OpenAI представила новую мультимодальную модель искусственного интеллекта GPT-4o. Согласно заявлению компании, эта технология является еще одним шагом к более естественному взаимодействию человека с компьютером.

Буква "o" в названии модели означает "omni" - GPT-4o может обрабатывать любую комбинацию текста, аудио и изображений и предоставлять информацию во всех этих форматах. Кроме того, модель способна распознавать эмоции, прерывать себя в процессе речи и реагировать на общение так же быстро, как и человек.

Технический директор OpenAI Миры Мурати отметил, что новый алгоритм предоставляет интеллект "уровня GPT-4", но обладает лучшими возможностями в различных модальностях и средах.

Во время демонстрации OpenAI GPT-4o продемонстрировала свои возможности. Алгоритм в прямом эфире переводил текст с английского на итальянский, помогал исследователю решить линейное уравнение на бумаге в реальном времени и давал рекомендации по глубокому дыханию.

Отличие GPT-4o от предыдущих версий заключается в том, что она обладает расширенными возможностями в обработке изображений и аудио. Предыдущий алгоритм GPT-4 Turbo мог анализировать изображения и текст, но GPT-4o добавляет обработку речи.

Благодаря тому, что новая модель обучена использованию трех форматов данных, входная и выходная информация обрабатывается одной и той же нейронной сетью. Это делает взаимодействие с ChatGPT более естественным и быстрым.

GPT-4o также расширяет возможности ChatGPT в области зрения. Теперь чат-бот может быстро отвечать на вопросы, связанные с изображениями, такими как анализ программного кода или определение марки рубашки на человеке на фотографии.

OpenAI утверждает, что новый алгоритм более многоязычен и может понимать около 50 языков.

Через API OpenAI и Azure OpenAI Service от Microsoft GPT-4o работает в два раза быстрее, распространяется дешевле и менее ограничен по скорости в сравнении с GPT-4 Turbo.

Пока поддержка голоса в API GPT-4o не доступна для всех пользователей. Сначала эта функция будет доступна для "небольшой группы доверенных партнеров" в ближайшие недели.

OpenAI предоставит новую модель для всех пользователей ChatGPT в течение следующих недель. Пользователи премиум-подписок Plus и Team получат доступ к модели с ограничением по количеству запросов в пять раз меньшем, чем у бесплатных пользователей.

Также OpenAI представила обновленный пользовательский веб-интерфейс ChatGPT с более диалоговым главным экраном и макетом сообщений. Для платных пользователей доступно также приложение для macOS, а версия для Windows появится позже в этом году.

Бесплатные пользователи ChatGPT получат доступ к GPT Store - библиотеке и инструментам для создания сторонних чат-ботов с использованием искусственного интеллекта. Некоторые ранее платные опции ChatGPT, такие как функция "памяти", также станут доступны бесплатно.