139 тыс подписчиков

Обзор сервиса Chatbot Arena - бесплатное общение с ИИ и рейтинг нейросетей

29 июля 202429 июл 2024

12 мин

Оглавление

Какой в этом смысл для пользователя?
Какие нейросети самые умные?
Безопасность, цензура, ограничения

Если вы следите за новостями, то не раз видели, как в ленте мелькают сообщения о новых релизах различных нейросетей, предназначенных для диалога с пользователем. Это касается новых версий ChatGPT, Claude, Google Gemini, различных китайских больших языковых моделей и так далее.

Наверняка у многих хоть раз возникало желание всё это попробовать, сравнить ответы разных ИИ, прогресс одной и той же нейросети на фоне её предыдущей версии или попытаться узнать ответы на вопросы, с которыми не помогают поисковые системы.

В сети есть много ресурсов, которые дают возможность пообщаться с нейросетями. Однако лишь с некоторыми, часто платно, с регистрацией, рекламой и лимитами. Поэтому если вы интересуетесь темой, но до сих пор не знали о существовании Chatbot Arena – это большое упущение.

Самое главное: это бесплатный, некоммерческий ресурс, созданный для исследовательских целей. То есть здесь перед вами внезапно не выскочит сообщение с просьбой оплатить подписку или ещё что-то подобное. За разработку отвечает команда LMSYS, связанная с университетом UC Berkeley.

Интерфейс сервиса. Для заданного вопроса выбрана и отвечает нейросеть Gemini 1.5 Pro.

На ресурсе доступны для теста ключевые большие языковые модели. Chatbot Arena бесплатно предоставляет доступ к сетям, с которыми в других местах так просто не пообщаешься. Например, ресурс сходу давал доступ к GPT-4, хотя нейросеть была доступна лишь на платных тарифах ChatGPT. То же самое до сих пор касается Claude 3.0 Opus и других наиболее продвинутых систем.

Главная цель «арены» – сталкивать ИИ «лбами» друг с другом в одинаковых вопросах, а пользователь должен выбирать победителя, который ответил на вопрос лучше. На основании сотен тысяч голосов Chatbot Arena формирует итоговый рейтинг и обновляет его примерно раз в неделю. Новые нейросети на портале также появляются оперативно, порой прямо в день релиза.

Выбор доступных нейросетей постоянно меняется и сейчас насчитывает 59 пунктов.

Какой в этом смысл для пользователя?

Впрочем, я использую Chatbot Arena отнюдь не для того, чтобы что-то тестировать и вести абстрактные разговоры с нейросетями. Для меня за прошедшие полгода с момента первого «знакомства» этот ресурс обрёл вполне конкретный практический смысл, начав часто заменять Google и Яндекс.

То есть вместо того, чтобы ходить по страницам поисковой выдачи, кликать по ссылкам, искать нужные мне фрагменты ответа среди тысяч знаков текста, я задаю вопрос на арене и получаю ответ. Причём этот ответ хоть и не всегда, но часто бывает весьма качественным, без «воды», рекламы, он хорошо структурирован и так далее.

Разумеется, классические поисковые системы со ссылками на сайты никуда не исчезнут, но в некоторых случаях нейронки и правда справляются лучше. В идеале вы получаете точечный и более качественный ответ, всегда можете его уточнить, спросить что-то дополнительно.

В отличие от общих ответов в сети, ответы нейросети с помощью уточнений в запросе можно «заточить» именно под собственную ситуацию.

И это в ряде случаев разительно быстрее и комфортнее, чем ходить по веб-страницам из поисковой выдачи. Вдобавок топ у поисковика запросто могли забить SEO-оптимизированные страницы с тоннами текста, повторяющими фразами, по факту не помогающими вам в решении вашей задачи.

Мой пример работы с Chatbot Arena прост. Я перехожу на вкладку «Arena side-by-side». Выбираю из выпадающих списков две наиболее умные, на мой взгляд, нейросети. Далее задаю свой вопрос или серию вопросов по нужной теме, получая сразу двойные ответы.

Вдобавок ничего не мешает вам задать тот же вопрос и другим нейросетям, чтобы в итоге получить ещё более комплексный ответ по теме, если это нужно. Разумеется, ни о каком превознесении «нейронок» речи идёт не идёт. Они ошибаются, ещё как. И всё же иногда могут быть реально полезны.

Подзабыли математику – не беда.

Что касается основной функции ресурса – голосования, то вы можете в нём как участвовать, нажимая кнопки под появившимися ответами, так и игнорировать, если у вас нет на это времени или желания. Если же есть, то голосовать лучше на первой вкладке «Arena Battle», так как там не раскрываются названия моделей, тест идёт вслепую и такие голоса для системы особо ценны.

Какие нейросети самые умные?

Если верить голосованию пользователей на Chatbot Arena (голосов, к слову, уже 1.5 миллиона), то золото сейчас у GPT-4 Omni и Omni mini, серебро у Claude 3.5 Sonnet, бронза у Google Gemini 1.5 Pro. Именно их я, как правило, выбираю в основные «советчики», хотя некоторые модели рейтингом пониже тоже весьма неплохи.

Пробовать в целом разумнее сразу несколько нейросетей, не ограничиваясь лишь какой-то одной. Claude и Gemini хоть и ниже в общем рейтинге, нередко дают отдельные ответы лучше лидера.

Вдобавок всё быстро меняется. На горизонте уже маячат существенно более продвинутые ИИ. Например, для Claude ожидается куда более мощная версия 3.5 Opus. Для Gemini скоро может выйти версия 2.0. Ну а на смену GPT-4 Omni может прийти некая модель с качественно более высоким уровнем логики и рассуждений. Возможно, это будет ещё не GPT-5, а некая промежуточная версия.

Текущий рейтинг «нейронок» в Chatbot Arena. Впрочем, он изменится очень быстро. Начисление баллов идёт по системе ELO, о ней см. чуть ниже.

В целом на Chatbot Arena сейчас находятся практически все главные ИИ-собеседники. Нет отечественных Гигачата и Яндекс GPT, а из наиболее крупных глобальных игроков отсутствует Grok от Илона Маска. Последний на момент написания текста доступен лишь в X (Twitter) и исключительно платно.

Текущая версия Grok 1.5, если верить тестам, вряд ли сможет вас сильно удивить на фоне GPT-4, Claude и Gemini. Однако Маск, судя по многочисленным новостям, вкладывает астрономические ресурсы в будущее этого ИИ-бота. Так что Grok 2 (август) и особенно Grok 3 (декабрь) ещё могут удивить. Для обучения Grok 2 задействуют около 24 тысяч ускорителей H100 от Nvidia. Для Grok 3 – уже ~100 тысяч H100. Ну а Grok 4 будет обучаться на куда более быстрых B200.

Также Chatbot Arena предоставляет доступ к нескольким сильным китайским ИИ-моделям. Игнорировать их не стоит, порой их ответы весьма хороши, хоть и общий рейтинг немного пониже лидеров. Из «китайцев» особо стоит отметить Qwen от Alibaba, GLM, Yi Large и Deepseek.

«Объясни простыми словами» работает хоть и не идеально, но является одним из моих любимых сценариев использования нейросетей.

Безопасность, цензура, ограничения

Общаясь с нейросетями на любом сайте, в любом приложении, стоит держать в уме несколько самых базовых моментов.

Первый – не переоценивайте нейросети. Порой они выдают весьма хорошие по качеству ответы, но часто, напротив, могут допускать чуть ли не детские ошибки. Буквально недавно в сети гремела история, где самые сильные ИИ часто ошибаются в вопросе «9,11 или 9,9 – что больше?». Так что, разговаривая с ИИ, стоит руководствоваться правилом «доверяй, но проверяй».

Второй совет ещё более очевиден. Не вводите в текстовые поля никаких личных данных. Адреса, номера карт или даже что-то, лишь косвенно указывающее на вас. Помните, что не только вы получаете ответы в общении с ИИ, но и он учится, общаясь с вами и миллионами других пользователей. Возможно, это и есть тот подвох, из-за которого Chatbot Arena предоставляет доступ даже к платным нейросетям.

Ещё на сайте Chatbot Arena довольно строгая цензура, причём работает она отдельно и поверх самих ИИ-моделей. Таким образом, даже если какая-то ИИ-модель согласится пообщаться с вами на «этакие» темы, система безопасности сайта все равно может автоматически прервать такую беседу.

Один из вопросов, с ответом на который мне не помог «гугл», но справилась нейросеть.

Наконец, обратная сторона бесплатности Chatbot Arena заключается в том, что здесь нет никаких удобств для пользователей. У ИИ нет голосового режима, переписка не сохраняется и сразу удаляется, как только вы обновите страницу или выберете другого ИИ-собеседника. Максимальный предел текста в одном диалоге, судя по всему, суммарно ограничен 100 тысячами знаков.

Рейтинг ELO, будущие ИИ и тестирование «зрения»

Основное рассказано, далее несколько дополнительных деталей. Прежде всего, несколько слов о системе ELO, по которой выстраивается рейтинг. Она также применяется в шахматах, на её основе строятся рейтинги в некоторых компьютерных играх.

Если вы с ней не знакомы, то сперва может показаться, что отличия между всеми моделями, включая лидеров и аутсайдеров, – не существенные. На самом деле баллы важнее, чем кажется. К примеру, отставание на 100 баллов уже крайне существенно. Оно означает, что более мощная модель будет иметь шанс ~64% выдать более качественный ответ, а модель, у которой на 100 баллов меньше, – лишь ~36%.

Впрочем, из этого же следует, что у модели с более низкими баллами все равно есть возможность ответить лучше в определённой ситуации или определённой области знаний. Некоторые из этих ситуаций и областей также можно отследить: в списке лидеров есть выпадающее меню, где вместо общего рейтинга можно выбрать рейтинг в отдельных категориях.

Например, «hard prompts» означает наиболее сложные вопросы, «longer query» – длинные запросы и так далее. Можно упорядочить модели по их знаниям в математике, умению следовать инструкциям и знанию программного кода. После применения этих фильтров рейтинг пусть и не очень существенно, но всё же будет меняться.

Таблицу лидеров ChatBot Arena можно отсортировать по определённым задачам, критериям и языку.

В этом же списке можно найти и сортировку по языкам. То есть вместо общих значений можно узнать, насколько хорошо модель, например, общается конкретно на русском. И вот здесь сразу же небольшой сюрприз: сейчас лучшей для русского языка, если верить итогам голосования, является не GPT-4o и не новенькая Claude 3.5 Sonnet, а большая модель Claude 3.0 Opus, вышедшая ещё в конце зимы.

Впрочем, ключевые конкуренты отстают от Opus 3.0 скорее лишь символически, а Opus 3.5 должна выйти уже весьма скоро.

Далее. ChatBot Arena стала настолько популярной, что в итоге заинтересовала и самих разработчиков. Например, создателей ChatGPT (GPT-4o, GPT-4 и т. д.). Они официально используют ChatBot Arena, чтобы протестировать отдельные подсистемы или ранние альфа-версии своих будущих моделей.

К примеру, сейчас в списке моделей можно найти странные названия «im-a-good-gpt2-chatbot» и «im-also-a-good-gpt2-chatbot». За них можно голосовать, но результаты в общем рейтинге не отображаются. Это не что иное, как некие компоненты будущей модели OpenAI, которая придёт на смену GPT-4o (Omni).

По любому из полученных у каждой нейросети ответов можно задавать любые уточняющие вопросы.

Как уже было сказано выше, это ещё не GPT-5, так как та начала обучаться лишь в конце мая и на это обучение могут уйти минимум несколько месяцев, а то и больше. Вероятно, в промежутке между GPT-4o и GPT-5 будет что-то ещё. Журналисты сообщают о некой новой модели, которая очень сильна в последовательных рассуждениях, логике и способна самообучаться.

Конкретно модели, скрытые под «im-a-good», особого прогресса, на первый взгляд, не показывают. Однако пользователи обратили внимание, что они гораздо лучше работают с программным кодом даже по сравнению с GPT-4o и в целом порой выдают более качественные ответы.

К слову, OpenAI не единственные, кто эксплуатирует ChatBot Arena для экспериментов, чтобы получать множественную обратную связь ещё до выхода новых релизов. В списке моделей на «арене» есть и другие странные названия, которые не отображаются в общем рейтинге. Хотя голосовать за них можно.

Ну и последнее. Помимо общения текстом ChatBot Arena ведёт рейтинг «зрения» среди моделей. Поучаствовать в нём можно, перейдя на первую вкладку «Arena (Battle)». Далее загрузите картинку, график или диаграмму, после чего вы можете задавать по ним вопросы.

Однако для пользователя здесь гораздо больше ограничений: загрузить можно только одну картинку, а сам тест исключительно «слепой», то есть вы не можете выбрать и даже знать, какая модель вам отвечает. Это может быть простенькая LLaVA или же, напротив, кто-то из лидеров а-ля GPT-4o или Claude 3.5. Я этим режимом не пользуюсь, но поэкспериментировать с ним можно:

Работа режима «зрения», где нейросеть отвечает на вопросы по отправленному ей изображению.

Где ещё можно бесплатно пообщаться с большими языковыми моделями?

Не хотелось бы всю статью превращать в «рекламу» одного ресурса, пусть даже бесплатного, некоммерческого. Тем более он не всегда бывает доступен, на нём есть цензура даже поверх самих моделей, диалоги не могут быть сохранены и так далее.

Поэтому вот ещё несколько вариантов бесплатного общения с большими языковыми моделями. Прежде всего, это браузерные расширения. Для Chrome их создано уже весьма много, некоторые довольно качественные, многофункциональные.

Однако конкретно я порекомендовал бы расширение Merlin – его авторы несколько более щедрые, чем другие. Например, когда все давали бесплатный доступ к GPT-3.5, Merlin, хоть и с крайне жёсткими ограничениями (3 вопроса в день), давал бесплатно попробовать GPT-4. Сейчас они продолжают в том же духе, предлагая бесплатно то, за что другие требуют платную подписку. Вдобавок у расширения немало дополнительных возможностей.

Листайте вправо, чтобы увидеть больше изображений

В Merlin пользователю каждый день начисляется около 100 бесплатных кредитов. Напротив представлены доступные для разговора модели и их расценки в тех же кредитах.

Среди прочего, можно вести чат, показывая ботам отдельные веб-страницы и задавая вопросы по их содержимому. Также можно отправлять файлы, вставлять в чат картинки. Разумеется, перед загрузкой чего-то своего не забывайте об элементарной безопасности.

Ещё есть ресурс labs.perplexity.ai – там можно бесплатно поговорить с некоторыми моделями, хотя список весьма скромен. Из имеющихся разумно выбрать Gemma 29B (малая, но способная модель от Google), Llama 3* 70B и Nvidia Nemotron 340B. Возможно, в будущем здесь появится новая большая Llama 3.1 405B, а также новенькие Mistral, которые будут сильно лучше текущих. К слову, у Mistral цензуры меньше других, но сами модели пока так себе.

Далее обратите внимание на платформу huggingface.co/chat. Здесь тоже есть на выбор некоторые хорошие модели, причём список оперативно обновляется. Также на Huggingface есть демо-спейсы (раздел Spaces на сайте) с отдельными языковыми моделями. Мне лучше остальных показалась китайская Qwen от Alibaba. Сейчас актуальна версия 2.0 72B, однако более сильные версии с увеличенным числом параметров должны выйти уже вот-вот.

* Llama 3 принадлежит компании Meta. Деятельность Meta (владеет соцсетью Instagram и Facebook) запрещена в России как экстремистская.