7 подписчиков

Встречайте - GPT-4o

14 мая 202414 мая 2024

3 мин

Всем привет, только глянул презентацию OpenAI и точно могу сказать, что без эмоций я не остался.

GPT-4o («o» означает «omni») представляет собой новый шаг в направлении более естественного интерактивного опыта между человеком и компьютером. Эта модель способна обрабатывать и генерировать текст, звук и изображения, что делает её универсальной в разных средствах ввода и вывода информации. Среднее время реакции модели на аудиовход составляет всего 320 миллисекунд, что сопоставимо с временем реакции человека в беседе. При этом она соответствует производительности GPT-4 Turbo по работе с текстами и кодами на английском языке, демонстрируя улучшенные результаты с текстами на других языках. В сравнении с предыдущими моделями, GPT-4o заметно лучше справляется с визуальной информацией и звуковыми данными.

Возможности модели:
Ранее для голосового общения с ChatGPT использовались отдельные модели для транскрипции аудио в текст, генерации отклика и преобразования текста обратно в аудио, что приводило к значительным задержкам (2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4) и потере информации. Модель не могла учитывать тональность речи, наличие нескольких говорящих, фоновые шумы и эмоции, такие как смех или пение.
GPT-4o объединяет все три модальности в одной нейронной сети, что позволяет обрабатывать текст, изображения и аудио параллельно. Это первая модель такого рода, поэтому исследование её возможностей и ограничений только начинается.

Оценки модели:
GPT-4o демонстрирует производительность на уровне GPT-4 Turbo в текстовом анализе, рассуждениях и кодировании. При этом она устанавливает новые эталоны в многоязыковом анализе, работе со звуком и изображениями.

Безопасность модели и ограничения:
GPT-4o имеет встроенные механизмы безопасности для всех модальностей за счет фильтрации данных и настройки поведения модели на этапе посттренинга. Разработаны специальные меры безопасности для голосового вывода. Модель была тщательно проверена на кибербезопасность, автономность, а также на соответствие требованиям по предотвращению распространения дезинформации и предвзятости.

Процесс оценки охватывал автоматические и ручные тестирования на всех этапах тренировки модели. Более 70 внешних экспертов оценивали модель по аспектам социальной психологии, справедливости и других тем, чтобы выявить и минимизировать риски. На основе этих оценок были разработаны стратегии для повышения безопасности GPT-4o. Работы в этом направлении продолжаются.

Поскольку аудиомодальности модели несут дополнительные риски, текстовый и графический вводы/выводы были выпущены первыми. В ближайшем будущем планируется запуск аудиовыходов с предварительно настроенными безопасными голосами. Подробная системная карта и полный спектр возможностей модели будут опубликованы позднее.

На этапе тестирования и эксплуатации я обнаружил некоторые ограничения, общие для всех модальностей модели, которые требуют дальнейшей работы.

Доступность модели:
GPT-4o представляет собой новый шаг в эволюции глубокого обучения, направленного на повышение практического удобства использования. За последние два года они значительно улучшили эффективность на всех уровнях системы. Первыми результатами этих усилий стало то, что теперь модели уровня GPT-4 стали доступными для более широкой аудитории. Возможности GPT-4o будут вводиться постепенно, начиная с расширенного доступа для «красной команды» с сегодняшнего дня.

Функции GPT-4o по работе с текстом и изображениями уже начинают внедряться в ChatGPT. OpenAI предлагает доступ к GPT-4o в бесплатном уровне, а также увеличивает лимит сообщений в пять раз для подписчиков Plus. В ближайшие недели выйдет новая версия голосового режима с GPT-4o в альфа-версии для пользователей ChatGPT Plus.

Разработчики смогут использовать GPT-4o через API как текстовую и визуальную модель. GPT-4o отличается вдвое большей скоростью обработки, при этом стоимость её использования также снижена вдвое, а допустимая скорость запросов увеличена в пять раз по сравнению с GPT-4 Turbo. Также планируют добавить поддержку новых аудио и видеовозможностей GPT-4o для небольшой группы надежных партнёров через API в ближайшие недели.