Через год у нас наконец появилась новая модель от OpenAI, последняя версия их семейства трансформеров, GPT-4o ("омнимодальный").
Она невероятно быстра в обработке текста, аудио, изображений и видео, а также в генерации изображений. Также заметно улучшилась в программировании и мультимодальном рассуждении, позволяя использовать новые модальности, такие как 3D-рендеринг.
Более того, согласно сайту lmsys.org в разделе чат-ботов, она уже является лучшей универсальной моделью на основе результатов, полученных от её прокси-модели, известной gpt2-chatbot, о которой мы говорили две недели назад.
Но на этот раз причины выпуска не связаны с "продвижением занавеса невежества вперёд", как вербатим выразился Сэм Альтман, а с предоставлением передового ИИ в руки миллиардов бесплатно.
Вот что вам нужно знать о ChatGPT-4o.
Проклятие мультимодальности
Хотя мультимодальные крупные языковые модели, или MLLM, существуют уже довольно долго, GPT-4o, похоже, является первой, которая действительно родная для четырех различных модальностей: аудио, видео, изображений и текста.
Да, модели вроде Gemini 1.5 казались действительно мультимодальными для последних трех, но не для аудио. Действительно, GPT-4V позволял обрабатывать/генерировать аудио и генерировать изображения, но обеспечивал эти возможности через интеграцию с отдельными моделями, а именно Whisper, OpenAI TTO и Dall-e3. В отличие от них, ChatGPT-4o — это все-в-одном модель, что означает, что одна единственная модель нативно работает со всеми вышеупомянутыми модальностями.
Но что мы подразумеваем под этим?
Мультимодальный вход, мультимодальный выход
Хотя я обсужу это более подробно в своем бесплатном информационном бюллетене в этот четверг (см. выше), идея заключается в том, что ChatGPT-4o уже не "просто большая языковая модель".
Большие языковые модели (LLM) — это модели последовательность-к-последовательности (вход является последовательностью, так же как и выход), которые обычно принимают текст и выводят другой текст.
И когда они комбинируются с компонентами, такими как кодеры изображений, они также могут обрабатывать изображения, и то же самое относится к остальным модальностям.
Но во многих случаях эти компоненты являются экзогенными; они действительно не являются частью модели. Следовательно, LLM может использовать их входные данные для обработки других типов данных, но не может выполнять межмодальное рассуждение.
Но что это значит?
Как подчеркнула Мира Мурати на официальной презентации, речь включает в себя не только слова. Она также включает интонацию, эмоции, паузы и различные другие сигналы, которые передают дополнительную информацию о том, что сообщает говорящий.
Например, фраза "Я собираюсь тебя убить!" может иметь совершенно разные интерпретации, если человек, который это говорит, показывает ясные намерения или смеется на полуслове.
Но до сих пор то, что предыдущая версия ChatGPT фактически получала, было лишь стенограммой речи, теряя все остальные сигналы в процессе. Таким образом, модель была очень ограничена при интерпретации речи, и два предыдущих примера были для нее идентичны.
Но теперь ChatGPT-4o включает все компоненты для обработки и генерации текста, изображений, аудио и видео (за исключением генерации видео) в одной модели. Другими словами, GPT-4o — первая модель, которая комбинирует все модальности и рассуждает через них, как это делает человек.
Зная это, какие новые захватывающие возможности были представлены вчера?
Всесторонний зверь
Несмотря на короткую продолжительность презентации (30 минут), было показано много достойного упоминания.
Фактически, у ChatGPT-4o есть множество необходимых качеств, чтобы превратить ChatGPT из продукта, используемого миллионами, в продукт, используемый миллиардами.
Впечатляющая демонстрация
Для начала, что, вероятно, одно из двух самых впечатляющих вещей на мой взгляд, это то, что ChatGPT выполняет распознавание видео в реальном времени, что Google говорил о Gemini, но на самом деле это не так.
На другом видео кто-то из аудитории OpenAI X предложил перевод в реальном времени, который ChatGPT-4o выполняет идеально благодаря другому великому улучшению: задержка на уровне человека.
Если вы интересуетесь, почему задержка так сильно сократилась, это, скорее всего, потому, что модели больше не нужно отправлять данные в другие модели, как раньше, теперь все обрабатывается одной и той же моделью.
Еще один интересный случай использования, который могут означать голосовые помощники, такие как ChatGPT-4o, — это образование, поскольку всегда терпеливая модель ИИ может помочь студентам изучать сложные задачи:
На сколько «интеллектуальной» является эта модель для помощи в сложном образовании, неясно. Они упомянули, что у ChatGPT-4o есть «интеллект уровня GPT-4», так что рассматривайте эту демонстрацию скорее как «взгляд в будущее», чем как реальность прямо сейчас.
Память была еще одной очень интересной функцией, которая осталась незамеченной во время видеодемонстраций. На видео ниже президент OpenAI, Грег Брокман, имеет «незваного гостя» в своем видеокадре, которого модель сначала игнорирует.
Однако, когда Грег попросил отреагировать на это, модель вспоминает точное взаимодействие, которое произошло ранее, что означает две вещи:
Модель, похоже, способна вспоминать предыдущие события Похоже, существует некий механизм, согласно которому модель фокусируется на определенных задачах и игнорирует остальные. Это может означать, что OpenAI разработала высокоэффективный механизм кодирования видео с иерархическим фокусом.
Другими словами, модель эффективно фокусируется на важных в данный момент вещах и игнорирует остальное, делая весь процесс более эффективным и, вероятно, помогая объяснить невероятно маленькую задержку, несмотря на высокое разрешение видео.
Конечно, X был в восторге от всего этого, и появились очень интересные темы. Наверное, та, которая меня больше всего впечатлила, была создана Уиллом Депью из OpenAI, который продемонстрировал множество примеров, доказывающих родную мультимодальность GPT-4o.
Модель, похоже, имеет согласованность персонажей через множество поколений без какого-либо очевидного использования управления изображениями типа Control-net:
В ControlNet вы можете влиять на процесс генеративной диффузии, чтобы генерировать новые изображения, предоставляя эскизы, которые модель затем использует в качестве ориентира для их создания. Здесь, просто попросив модель сделать девочку и собаку постоянными в новых изображениях, она просто выполняет это.
Модель даже может взять изображение и сгенерировать альтернативные 3D-виды, которые затем можно собрать в фактическую 3D-визуализацию.
Следует отметить, что GPT-4o не является текстом в 3D. Однако он может генерировать различные виды, которые затем могут быть использованы в качестве входных данных для программного обеспечения 3D-рендеринга, несмотря на то, что многие утверждали на X.
Помимо демонстраций, модель, похоже, является новым королем бенчмарков.
Более интеллектуальная, но не AGI
Как подозревалось уже довольно давно и подтверждено на странице X lmsys.org, а также исследователями из OpenAI, «im-also-a-good-gpt2-chatbot», член линейки «gpt2-chatbot», на самом деле был ChatGPT-4o.
На изображении, предоставленном бывшим, gpt2-chatbots, также известные как чат-боты GPT-4o, на много миль впереди по общему ELO (мера качества) по сравнению с моделями GPT-4 и Claude 3 Opus.
Другое резкое улучшение можно увидеть в программировании, где улучшение увеличивается на невероятные 100 пунктов ELO. Для справки, разница в 100 пунктов между двумя моделями означает, что проигравшая модель предпочтительна только 1/3 времени.
Другими словами, ChatGPT-4o выходит на первое место в 66% случаев по сравнению с предыдущим передовым состоянием.
Конкретно говоря о программировании, одним из самых заметных объявлений было приложение ChatGPT для настольных компьютеров, которое предоставит полноэкранный доступ к модели для поддержки вас в задачах, таких как отладка, как показано на этом видео.
Кроме того, объявление сопровождалось сильными языковыми улучшениями.
97% мирового населения обслуживается ими, похоже, сильно улучшили токенизатор модели, особенно учитывая неанглийские языки (они утверждают, что теперь могут обслуживать до 97% населения мира, что довольно заявление).
Для доказательства этого они выпустили таблицу, утверждающую, что модель имеет значительное сокращение токенов на язык.
Если вас интересует, почему сжатие актуально, они, по сути, утверждают, что не только более быстрые и эффективные поколения (чем меньше токенов нужно генерировать, тем лучше), но это также демонстрация большей «языковой интеллектуальности».
Проще говоря, чем меньше токенов у языка, тем лучше модель знает, как генерируется язык.
Например, «ing» — самая используемая трехбуквенная комбинация в английском языке.
Следовательно, по мере того, как модель становится умнее, она признает этот факт и, вместо того, чтобы генерировать эту комбинацию тремя отдельными токенами, «i», «n» и «g», а следовательно, более медленным и «глупым» генеративным процессом, она поймет, что они очень часто встречаются вместе и, таким образом, поймет, что «ing» является подходящим токеном для генерации на английском языке.
Но действительно ли ChatGPT-4o настолько превосходен и представляет собой огромный скачок в интеллекте?
Ну нет.
Придержите коней, это не AGI
Как доказывает график, опубликованный OpenAI, модель в настоящее время является лучшей, но её улучшения в интеллекте по сравнению с остальными незначительны.
Учитывая «улучшения интеллекта», этот выпуск может показаться недостаточно впечатляющим. Однако я полностью не согласен, так как этот выпуск никогда не был о следующем большом рубеже, а о чем-то другом.
Однако в чем смысл, если модель не стала умнее?
Истинные намерения
OpenAI Как я это вижу, этот выпуск имеет три составляющие:
Выигрывание времени для большого выпуска следующего рубежа, так называемого «GPT-5» Вмешательство в конференцию Google I/O, которая проходит сегодня Победа над Apple Давайте рассмотрим каждый по очереди.
Следующий рубеж близок, но еще не наступил
Технический директор OpenAI, Мина Мурати, открыто обратилась к этому вопросу. GPT-4o не является скачком в интеллекте; фактически, они явно заявили, что у него «интеллект уровня GPT-4».
Кроме того, они упомянули, что «скоро» мы получим новости и обновления о следующем рубеже, как бы они его ни назвали.
Как я уже много раз говорил, мое чутье подсказывает мне, что этот следующий рубеж будет объединять миры MLLM с алгоритмами поиска, где модель исследует различные возможные пути решения, прежде чем действительно отвечать.
Это гораздо более дорогая парадигма и, таким образом, объясняла бы, почему все эти игроки кажутся такими одержимыми покупкой все большего и большего количества вычислений, несмотря на то, что модели в целом становятся меньше.
Худший кошмар Google
На этом этапе, если вы хотите предсказать, когда OpenAI выпустит что-то, просто посмотрите, что делает Google.
Например, когда Google выпустил довольно замечательное окно контекста на миллион для Gemini 1.5, огромный скачок в объеме данных, которые MLLM могут обрабатывать в любой данный момент, OpenAI полностью изменил нарратив и выпустил Sora, свою модель генерации видео.
Теперь, накануне высоко ожидаемой конференции Google I/O, которая начнется сегодня, OpenAI провела свою собственную за день до этого, устанавливая безумно высокие ожидания для аналитиков сегодня по отношению к последним.
Проще говоря, это не Google представляет свои новые функции ИИ; это теперь случай «давайте посмотрим, как Google отреагирует на основе объявлений OpenAI».
Мы можем соглашаться или не соглашаться с безумно агрессивным конкурентным подходом Сэма Альтмана. Но, боже, это работает. Мало кто в этом мире, с кем я бы предпочел не бороться, чем с этим человеком.
И, наконец, учитывая широко обсуждаемую «битву» между Google и OpenAI за завоевание короны Siri, которая сейчас выставлена на аукцион, нам нужно поговорить об Apple.
Изначальная цель?
Если учесть потенциальную отдачу от партнерства с Apple, получение контракта на Siri, возможно, было целью OpenAI с самого начала.
С такой мощной демонстрацией задержки, кокетливого поведения голоса, отличных возможностей с несколькими типами данных и, что важно, отличных функций на экране, не секрет, что OpenAI предлагает Apple стать их партнером-соучастником, чтобы улучшить примитивную Siri.
Фактически, если Apple не предложит удивительную модель на устройстве, правда в том, что пользователям будет все равно, и они сразу начнут сравнивать ее с передовым состоянием.
Следовательно, хотя это явно не отличная перспектива PR для Apple, компании, которая настолько богата, что провела самую большую программу выкупа акций в истории капитализма, 131 миллиард долларов, но все еще не может исправить Siri, у Apple мало места для ошибок в этом.
Поэтому соблазн делать ставки на GPT-4o (или то, что Google покажет сегодня) будет велик, пока они не уладят свой внутренний «беспорядок в ИИ» и не начнут выпускать хорошие продукты ИИ.
Если это так, нам придется вдаваться в догадки, чтобы узнать, как это партнерство будет реализовано.
Apple известна своим крайне ревностным отношением к защите конфиденциальности пользователей, что, похоже, несовместимо с использованием облачного решения LLM для Siri от компании, которая однозначно нарушила авторские права и правила безопасности для обучения своих моделей.
Но когда этика мешает деньгам, мы знаем, что компании выбирают, независимо от сомнительной этичности решения.
Возможно, OpenAI сможет предоставить ChatGPT на устройстве, очень маленькую модель с аналогичными возможностями ChatGPT-4o, которая могла бы справиться с задачей, но это лишь мои догадки.
От миллионов к миллиардам
В общем и целом, OpenAI никогда не разочаровывает. Но на этот раз их намерения могут быть не так очевидны, как раньше.
Продукты GenAI известны тем, что не оправдывают своих обещаний, утверждение, которое справедливо даже для таких случаев, как ChatGPT. Задержка и плохое межмодальное рассуждение, среди прочего, мешают этому.
Теперь OpenAI считает, что у нее есть продукт, который наконец доставляет ИИ в соответствии с высокими ожиданиями того, что считается «самым большим открытием с момента изобретения Интернета».
Хотя слишком рано говорить, является ли это так, это определенно дает им амуницию, чтобы напугать Google и купить достаточно времени для своего самого большого выпуска, следующего рубежа ИИ.
Тем не менее, у GPT-4o все еще есть ограничения, и он определенно не приближает нас к AGI больше, чем это сделал GPT-4.
Но он приближает генеративный ИИ к обществу, делая мощный ИИ широко доступным (продукт будет бесплатным), даже потенциально миллиардам, если они получат Siri, и это именно то, что нужно ИИ, чтобы начать выполнять свои обещания.