Найти в Дзене
BIM_Blockchain_AI_Trends

«GPT-4o» анонсировал высокоскоростной отклик с человеческим голосом, изображениями и текстом.

OpenAI анонсировала свою последнюю модель искусственного интеллекта «GPT-4o» 13-го числа. Он легко обрабатывает текст, аудио и изображения, отличается быстрым откликом и будет доступен всем пользователям ChatGPT в ближайшие недели. Сначала он будет предлагаться платным пользователям ChatGPT Plus и Team, а затем будет доступен корпоративным пользователям.

GTP-4o с поддержкой текста/голоса/видения

GPT-4o — новейшая флагманская модель с интеллектом уровня GPT-4, но более быстрая и с улучшенными функциями текста, голоса и зрения.

-2

GPT-4o не только понимает изображения, которые вы ему показываете, но и способен обсудить их с вами. Например, вы можете фотографировать текст на другом языке и попросить GPT-4o перевести его, узнать об истории или содержании текста, а также получить рекомендации. Кроме того, в будущем модель будет поддерживать естественные голосовые и видеоразговоры в реальном времени, что открывает новые возможности для взаимодействия с ней.
Важным преимуществом GPT-4o является его быстрый отклик. Согласно анонсу, модель может реагировать на голосовой ввод за время, сравнимое с временем реакции человека в разговоре. Это делает использование GPT-4o более естественным и комфортным для пользователей.

[o] в GPT-4o означает omni. Шаг к естественному взаимодействию человека и компьютера: он может вводить комбинации текста, аудио и изображений, а также выводить текст, аудио и изображения. Он может реагировать на голосовой ввод минимум за 232 миллисекунды и в среднем за 320 миллисекунд, что значительно быстрее, чем обычный GPT-4. Говорят, что оно примерно такое же, как «время реакции человека в разговоре».

-3

-4

Это захватывающее развитие в мире искусственного интеллекта! Голосовой режим GPT-4o действительно поднимает планку того, что мы ожидаем от технологии. Способность понимать не только слова, но и тональность, эмоции и даже фоновый шум открывает удивительные возможности для взаимодействия с компьютером.

Реакция на такие инструкции, как "сделай это более драматично" или "сделай так, чтобы это звучало как пожилой человек", позволяет пользователям настраивать опыт взаимодействия с AI в соответствии с их потребностями и предпочтениями. Это действительно делает взаимодействие с технологией более естественным и гибким.

Кроме того, способность GPT-4o понимать различные характеристики голоса и фоновый шум открывает новые возможности для использования в различных сценариях, включая те, где окружающие условия могут быть шумными или переменчивыми.

Эти новые функции не только делают взаимодействие с искусственным интеллектом более естественным, но и улучшают его полезность и применимость в различных ситуациях.

Новые возможности GPT-4o будут доступны пользователям ChatGPT в ближайшие недели. Сначала они будут доступны для пользователей платной версии Plus и Team, а затем станут доступны и корпоративным пользователям. Это значительный шаг вперед в развитии искусственного интеллекта, который, безусловно, изменит способ, которым мы взаимодействуем с технологиями.


GPT-4o действительно открывает новые горизонты для использования искусственного интеллекта в различных областях. Возможность получать ответы из модели и сети, а также проводить анализ данных и создавать графики, делает его мощным инструментом для исследования, анализа и визуализации информации.

Возможность обсуждать сделанные фотографии и загружать файлы различных форматов для обобщения, написания, анализа и других целей открывает огромные перспективы в сфере работы с данными. Совместимость с различными форматами файлов, такими как PDF, CSV, Word и многими другими, делает его удобным инструментом для работы с разнообразными данными.

Десктопное приложение ChatGPT для Mac

Новое настольное приложение ChatGPT также будет доступно для macOS. С помощью сочетания клавиш (Option + Пробел) вы можете мгновенно задать вопрос ChatGPT или сделать снимок экрана и обсудить его прямо в приложении.

-5

В анонсе от 13-го числа, помимо обзора кода, который демонстрировали на экране, если спросить о графике температурных изменений (изображении), система отвечает голосом на вопрос о месяце с самой высокой температурой. Также система дает аудиоответы о назначении графика и значении оси Y.

Обзор кода
Обзор кода
Ответить голосом на вопрос о значении графика, который был показан на экране
Ответить голосом на вопрос о значении графика, который был показан на экране

Новые функции звука и видео GPT-4o будут доступны в будущем. Сначала для пользователей Plus будет предложено приложение для macOS, а версия для Windows появится во второй половине 2024 года.

ChatGPT также обновил свой дизайн. Внедрены новые элементы дизайна для домашнего экрана и макета сообщений, чтобы обеспечить более удобное и дружелюбное взаимодействие.

-8