6050 подписчиков

#ии

OpenAI представила мощную мультимодальную модель генеративного искусственного интеллекта (ИИ) GPT-4o

Буква «о» в названии GPT-4o означает omni (всесторонний), что указывает на мультимодальность GPT-4o

Технический директор OpenAI Мира Мурати (Mira Murati) сообщила, что GPT-4o имеет интеллект «уровня GPT-4», но более высокие возможности в работе с текстом и изображениями, а также с аудио

GPT-4o воспринимает голос, текст и визуальные образы, — сообщила Мурати. — И это невероятно важно, поскольку мы думаем о будущем взаимодействии между нами и машинами

Её предшественница — GPT-4 Turbo — обучалась на сочетании изображений и текста. Она способна анализировать изображения и текст для выполнения таких задач, как извлечение текста из изображений и даже описание содержимого этих изображений

В свою очередь, в GPT-4o к этим возможностям добавили речь

Чат-бот уже давно поддерживает голосовой режим, в котором ответы чат-бота расшифровываются с использованием модели преобразования текста в речь, но GPT-4o усилит эту функцию, позволяя пользователям взаимодействовать с чат-ботом больше как с помощником

Например, ему можно будет задать вопрос и прервать его, когда он отвечает

По словам OpenAI, модель GPT-4o обеспечивает реагирование «в реальном времени» и может даже улавливать эмоции в голосе пользователя, генерируя в ответ голос «в различных эмоциональных стилях» в соответствии с текущей ситуацией

GPT-4o также улучшит визуальные возможности ChatGPT

Исходя из предложенной фотографии или экрана рабочего стола, ChatGPT теперь сможет быстро отвечать на сопутствующие вопросы: от «Что происходит в этом программном коде» до «Какую рубашку какого бренда носит этот человек?»

В дальнейшем возможности модели будут расширяться. Если сейчас GPT-4o позволяет, например, переводить сфотографированное меню на другой язык, то в будущем с её помощью ChatGPT сможет «смотреть» спортивную игру в прямом эфире и объяснять вам правила, говорит Мурати

@imaxai Подписаться

#ии OpenAI представила мощную мультимодальную модель генеративного искусственного интеллекта (ИИ) GPT-4o Буква «о» в названии GPT-4o означает omni (всесторонний), что указывает на мультимодальность

1 минута

14 мая 2024