Найти в Дзене
КОСМОС

Анализ эффективности GPT-4o против GPT-4 и Gemini 1.5 ⭐

Оглавление

Недавнее представление OpenAI модели GPT-4o открыло новую эру в области языковых моделей ИИ и нашем взаимодействии с ними.

Самой впечатляющей частью была поддержка живого взаимодействия с ChatGPT.

Несмотря на некоторые неполадки во время живой демонстрации, я не могу не восхищаться тем, чего достигла команда.

Самое приятное, что сразу после демонстрации OpenAI предоставила доступ к API GPT-4o.

В этой статье я представлю свой независимый анализ, измеряющий способности к классификации GPT-4o в сравнении с GPT-4 и моделями Gemini и Unicorn от Google, используя англоязычный набор данных, который я создал.

Какая из этих моделей лучше всего понимает английский?

-2

Что нового в GPT-4o?

На переднем плане концепция Omni-модели, предназначенной для понимания и обработки текста, аудио и видео без проблем.

Кажется, что фокус OpenAI сместился к демократизации интеллекта на уровне GPT-4 для масс, делая интеллект языковой модели доступным даже для бесплатных пользователей.

OpenAI также объявила, что GPT-4o включает улучшенное качество и скорость работы более чем на 50 языках, обещая более инклюзивный и глобально доступный опыт ИИ за более низкую цену.

Также упоминалось, что платные подписчики получат в пять раз больше возможностей по сравнению с неплатными пользователями.

Кроме того, они выпустят настольную версию ChatGPT для обеспечения реального времени рассуждений через аудио, видео и текстовые интерфейсы для масс.

Как использовать API GPT-4o

Новая модель GPT-4o следует существующему API чат-завершений от OpenAI, делая его обратно совместимым и простым в использовании.

from openai import OpenAI


OPENAI_API_KEY = "<your-api-key>"


def openai_chat_resolve(response: dict, strip_tokens = None) -> str:
if strip_tokens is None:
strip_tokens = []
if response and response.choices and len(response.choices) > 0:
content = response.choices[0].message.content.strip()
if content is not None or content != '':
if strip_tokens:
for token in strip_tokens:
content = content.replace(token, '')
return content
raise Exception(f'Cannot resolve response: {response}')


def openai_chat_request(prompt: str, model_name: str, temperature=0.0):
message = {'role': 'user', 'content': prompt}
client = OpenAI(api_key=OPENAI_API_KEY)
return client.chat.completions.create(
model=model_name,
messages=[message],
temperature=temperature,
)


response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13")
answer = openai_chat_resolve(response)
print(answer)
-3

Официальная оценка

Пост в блоге OpenAI включает оценки известных наборов данных, таких как MMLU и HumanEval.

-4

Как мы можем видеть из графика, производительность GPT-4o можно классифицировать как передовую в этой области — что звучит очень многообещающе, учитывая, что новая модель дешевле и быстрее.

Тем не менее, за последний год я видел несколько моделей, которые утверждали, что имеют передовую языковую производительность по известным наборам данных.

На самом деле некоторые из этих моделей были частично обучены (или переобучены) на этих открытых наборах данных, что привело к нереалистичным оценкам в рейтингах. Посмотрите эту статью, если вас это интересует.

Поэтому важно проводить независимые анализы производительности этих моделей с использованием менее известных наборов данных — таких как тот, который я создал 😄

Мой набор данных для оценки 🔢

Как я объяснял в предыдущих статьях, я создал тематический набор данных, который мы можем использовать для измерения производительности классификации между различными LLMs.

Набор данных состоит из 200 предложений, разделенных на 50 тем, некоторые из которых тесно связаны, что усложняет задачи классификации.

Я вручную создал и пометил весь набор данных на английском языке.

Затем я использовал GPT-4 (gpt-4–0613) для перевода набора данных на несколько языков.

Однако в этой оценке мы будем оценивать только английскую версию набора данных — это означает, что результаты не должны быть затронуты потенциальными предвзятостями, возникающими из-за использования той же модели языка для создания набора данных и предсказания тем.

Посмотрите набор данных самостоятельно: тематический набор данных.

Результаты производительности 📊

Я решил оценить следующие модели:

GPT-4o: gpt-4o-2024-05-13

GPT-4: gpt-4-0613

GPT-4-Turbo: gpt-4-turbo-2024-04-09

Gemini 1.5 Pro: gemini-1.5-pro-preview-0409

Gemini 1.0: gemini-1.0-pro-002

Palm 2 Unicorn: text-unicorn@001

Задача, данная языковым моделям, — сопоставить каждое предложение в наборе данных с правильной темой.

Это позволяет нам рассчитать точность для каждого языка и показатель ошибок каждой модели.

Поскольку модели в основном классифицируют правильно, я строю график показателя ошибок для каждой модели.

Помните, что более низкий показатель ошибок указывает на лучшую производительность модели.

-5

Как мы можем видеть по графику, GPT-4o имеет самый низкий уровень ошибок среди всех моделей, всего лишь две ошибки.

Также видно, что Palm 2 Unicorn, GPT-4 и Gemini 1.5 близки к показателям GPT-4o, что демонстрирует их сильную производительность.

Интересно, что GPT-4 Turbo работает похоже на GPT-4-0613. Дополнительную информацию о моделях можно найти на странице моделей OpenAI.

В конце концов, Gemini 1.0 отстает, что ожидаемо, учитывая его ценовую категорию.

Многоязычные возможности — предварительный просмотр

В настоящее время я работаю над другой статьей, в которой измеряются многоязычные возможности gpt4o по сравнению с другими LLM. Вот предварительный просмотр результатов:

Предварительный просмотр многоязычной производительности передовых LLM от OpenAI.
Предварительный просмотр многоязычной производительности передовых LLM от OpenAI.

Оставайтесь с нами, скоро выйдет статья! 😄

Заключение 💡

Этот анализ, использующий уникально созданный англоязычный набор данных, раскрывает возможности передовых языковых моделей.

GPT-4o, последнее предложение от OpenAI, выделяется наименьшим показателем ошибок среди тестированных моделей, что подтверждает заявления OpenAI о его производительности.

Сообщество ИИ и пользователи должны продолжать проводить независимые оценки с использованием разнообразных наборов данных, поскольку они помогают дать более ясное представление о практической эффективности модели, помимо того, что предлагается стандартизированными оценками.

Следует отметить, что набор данных довольно мал, и результаты могут варьироваться в зависимости от набора данных. Оценка была проведена только с использованием англоязычного набора данных, в то время как сравнение на нескольких языках придется отложить на другой раз.