130 подписчиков

GPT-4o - новая модель от OpenAI

14 мая 202414 мая 2024

3 мин

Привет, друзья! Сегодня у меня для вас невероятная новость из мира технологий. OpenAI анонсировали свою новую флагманскую модель — GPT-4o! Эта модель представляет собой мультимодальную нейросеть, способную обрабатывать и генерировать текст, аудио, изображения и видео (хотя видео генерировать пока не оптимально). Что такое GPT-4o? Название "GPT-4o" происходит от слова "omni", что значит "всё". Эта модель может одновременно работать с текстом, аудио и изображениями. Это значит, что вы можете задавать вопросы голосом, показывать картинки и получать ответы в любом удобном для вас формате. Время реакции модели на аудио-вводы составляет всего 232 миллисекунды, в среднем — 320 миллисекунд, что сравнимо со временем ответа человека в разговоре. Основные возможности GPT-4o GPT-4o имеет множество впечатляющих возможностей, включая: Технические улучшения GPT-4o значительно превосходит предыдущие модели по ряду показателей: Speech-to-Speech и мультимодальность GPT-4o также улучшила возможности расп

Что такое GPT-4o?

Название "GPT-4o" происходит от слова "omni", что значит "всё". Эта модель может одновременно работать с текстом, аудио и изображениями. Это значит, что вы можете задавать вопросы голосом, показывать картинки и получать ответы в любом удобном для вас формате. Время реакции модели на аудио-вводы составляет всего 232 миллисекунды, в среднем — 320 миллисекунд, что сравнимо со временем ответа человека в разговоре.

Основные возможности GPT-4o

GPT-4o имеет множество впечатляющих возможностей, включая:

Интервью и подготовка к ним: Модель может помочь в подготовке к интервью, моделируя различные сценарии и вопросы.
Игры: Например, "Камень, ножницы, бумага". Модель способна участвовать в различных интерактивных играх.
Понимание сарказма: GPT-4o может различать и реагировать на сарказм, что делает общение с ним более естественным.
Решение математических задач: Модель может помогать с решением сложных математических задач.
Вокальные взаимодействия: GPT-4o может не только понимать, но и воспроизводить вокальные данные, включая пение.
Обучение иностранным языкам: Модель может помочь в изучении иностранных языков, таких как испанский.
Ведение встреч: GPT-4o может помочь в организации и ведении встреч, предоставляя полезные рекомендации и напоминания.
Перевод в реальном времени: Модель способна переводить речь в реальном времени.
Рассказание сказок на ночь: GPT-4o может рассказывать сказки, что особенно понравится детям.
Подготовка поздравлений ко дню рождения: Модель может создавать персонализированные поздравления.
Рассказывание шуток: GPT-4o умеет шутить, делая общение более веселым.
Генерация псевдо-3D: Модель может создавать кадры, которые затем сшиваются в короткий ролик с вращающимся объектом.

Технические улучшения

GPT-4o значительно превосходит предыдущие модели по ряду показателей:

Скорость и стоимость: GPT-4o работает в два раза быстрее и на 50% дешевле, чем GPT-4 Turbo. Это делает использование модели более доступным и эффективным.
Единая нейронная сеть: В отличие от предыдущих моделей, которые использовали несколько отдельных моделей для обработки текста, аудио и изображений, GPT-4o использует одну единую нейронную сеть. Это позволяет лучше сохранять контекст и детали, такие как тон голоса и фоновый шум.
Многоязычность: GPT-4o значительно улучшила свои способности к обработке текстов на различных языках, что делает её более универсальной. Русский язык теперь использует в 1.7 раза меньше токенов, что делает модель быстрее и дешевле в использовании.
Большое контекстное окно: Контекстное окно составляет 128 тысяч токенов, но есть вероятность, что оно станет больше в будущем.
API: GPT-4o в два раза быстрее и дешевле в API по сравнению с GPT-4 Turbo. Стоимость составляет $5 за миллион входных токенов и $15 за миллион выходных токенов. Также модель способна обрабатывать до 10 миллионов токенов в минуту.

Speech-to-Speech и мультимодальность

GPT-4o также улучшила возможности распознавания и генерации речи. Она способна понимать множество языков, переводить разговоры в реальном времени, распознавать эмоции и генерировать аудио с эмоциональной окраской. Теперь ChatGPT стал полноценным ассистентом, с которым можно общаться голосом.

Благодаря своей нативной мультимодальности, GPT-4o поддерживает все трюки, которые мы использовали для текста. Модель можно заставить говорить в замедленном времени или ускоренной перемотке, а также генерировать специфические звуки. Кроме того, она поддерживает few-shot запросы, позволяя давать примеры того, что нужно сгенерировать, и персонажи на разных картинках будут одинаковыми.

Доступность и интеграция

GPT-4o уже доступна на сайте для платных пользователей с лимитом 80 запросов каждые 3 часа за $20. Бесплатные пользователи могут отправлять до 10 сообщений каждые 3 часа. Если у вас еще не появился доступ, вы можете поиграться с моделью в lmsys arena.

Десктопные и мобильные приложения

В будущем планируется запуск десктопных приложений, которые позволят показывать нейросети свой экран для понимания и обсуждения графиков, правки кода и других задач. Также будет работать камера на телефоне — достаточно открыть камеру, показать объект и задать вопрос.

GPT-4o — это огромный шаг вперёд в области искусственного интеллекта. Жду с нетерпением возможности протестировать все её функции и поделиться с вами своими впечатлениями. Пишите в комментариях, что вы думаете о новом анонсе и какие функции вас больше всего заинтересовали.

OpenAI

60,9 тыс интересуются