Оценивать большие языковые модели и чат-ботов, которые их используют, представляется сложной задачей. Кроме подсчета фактических ошибок, грамматических опечаток и скорости обработки, нет общепринятых объективных показателей.
Chatbot arena от lmsys, это краудсорсинговая платформа, где проводятся соревнования между ведущими представителями ИИ в их "естественной среде обитания". Здесь используется рейтинговая система elo, широко применяемая для определения ранга игроков в играх с нулевой суммой, например, в шахматах. Два llm соревнуются в случайных личных встречах, и людям предлагается выбирать, какой чат-бот им нравится больше, исходя из его производительности.
С момента запуска в прошлом году, gpt-4 удерживает лидерскую позицию на арене чат-ботов. Он даже стал золотым стандартом, и системы с высшим рейтингом описываются как модели "класса gpt-4". Однако, магистр права от OpenAI был свергнут с первого места вчера, когда Claude 3 opus от Anthropic незначительно победил gpt-4 со счетом 1253 против 1251. Результат был настолько близким, что предел погрешности поместил Claude-3 и gpt-4 в тройку лидеров на первом месте, с еще одной предварительной сборкой gpt-4.
Еще более впечатляющее достижение - появление Claude 3 haiku в десятке лучших. Haiku - это "локальный" модуль Anthropic, сравнимый с Gemini nano от Google. Он экспоненциально меньше opus, который имеет триллионы параметров, что делает его гораздо быстрее для сравнения. Согласно lmsys, выпускники Haiku занимают седьмое место в рейтинге и продвигаются в класс gpt-4.
Вероятно, Anthropic не удержит свое лидерство надолго. На прошлой неделе внутренние источники OpenAI сообщили, что gpt-5 почти готов к публичному дебюту и будет запущен "в середине года". Новая модель llm значительно превосходит gpt-4. Известно, что она использует несколько "внешних агентов искусственного интеллекта" для решения конкретных задач, что делает ее намного более эффективной в решении сложных проблем.