Найти в Дзене

Лучшие ИИ 2025 по версии LMArena.ai: кто действительно умнее остальных

А я продолжаю исследовать разные нейросети. Только на этот раз рейтинг составлял не я, а тысячи живых людей по всему миру. Именно они на сайте LMArena.ai каждый день сравнивают модели между собой и выбирают, кто справился лучше. Сегодня я решил посмотреть на результаты их «турнира» — ведь в Leaderboard Overview собраны лидеры 2025 года, отобранные самим сообществом. Мы проверим, кто лучше шутит и кто нарисует кота, достойного Эрмитажа. Но прежде чем перейти к тесту, давайте разберёмся, что это за площадка, почему она набрала такую популярность и стоит ли ей доверять. LMArena.ai — это своего рода «турнир нейросетей», где модели соревнуются в дуэлях, а судьёй выступает обычный пользователь. Всё просто: вы заходите на сайт, задаёте запрос, получаете два ответа и выбираете, какой из них лучше. Иногда участники даже не знают, какие именно модели они сравнивают — и в этом есть азарт. Эта площадка стала популярной буквально за несколько месяцев. Её называют «самой демократичной таблицей лидер
Оглавление

А я продолжаю исследовать разные нейросети. Только на этот раз рейтинг составлял не я, а тысячи живых людей по всему миру. Именно они на сайте LMArena.ai каждый день сравнивают модели между собой и выбирают, кто справился лучше.

Сегодня я решил посмотреть на результаты их «турнира» — ведь в Leaderboard Overview собраны лидеры 2025 года, отобранные самим сообществом. Мы проверим, кто лучше шутит и кто нарисует кота, достойного Эрмитажа. Но прежде чем перейти к тесту, давайте разберёмся, что это за площадка, почему она набрала такую популярность и стоит ли ей доверять.

Что такое LMArena.ai и зачем она нужна

LMArena.ai — это своего рода «турнир нейросетей», где модели соревнуются в дуэлях, а судьёй выступает обычный пользователь. Всё просто: вы заходите на сайт, задаёте запрос, получаете два ответа и выбираете, какой из них лучше. Иногда участники даже не знают, какие именно модели они сравнивают — и в этом есть азарт.

Эта площадка стала популярной буквально за несколько месяцев. Её называют «самой демократичной таблицей лидеров в мире AI», ведь голос каждого пользователя действительно влияет на рейтинг. Но демократичность имеет и оборотную сторону — о ней чуть позже.

LMArena выросла из проекта Chatbot Arena, запущенного исследовательской группой LMSYS при Калифорнийском университете в Беркли. С тех пор пользователи отдали уже более 3,5 миллионов голосов, превращая платформу в один из крупнейших краудсорсинговых источников данных для оценки нейросетей.

Принцип работы: от шахмат до искусственного интеллекта

Рейтинг моделей в LMArena строится по системе Эло — той самой, что используется в шахматах. Каждая модель начинает с базового значения. Победила — получает очки, проиграла — теряет.

Звучит просто, но реализация продумана. Соперники подбираются случайным образом, их имена скрываются, а промпты перемешиваются, чтобы минимизировать смещение. Пользователь может выбрать «ничью» или «обе плохи», но эти результаты в расчёте рейтинга не учитываются — решение спорное, зато система остаётся стабильной.

Здесь я просил своей кошке дорисовать крылья
Здесь я просил своей кошке дорисовать крылья

Платформа отслеживает IP и ограничивает частоту голосований, чтобы предотвратить манипуляции. Тем не менее, исследования показывают, что даже несколько сотен «скоординированных голосов» могут слегка сдвинуть баланс. Это не баг, а неизбежная плата за открытость: если рейтинг строится на мнении людей, он отражает не абсолютную истину, а коллективное восприятие.

Как попасть на LMArena

Зайти можно без регистрации: просто переходите на lmarena.ai, выбираете режим и начинаете тест. Однако, если зарегистрироваться моделей будет чуть больше.

Главных режимов три:

  1. Battle — слепое сражение двух анонимных моделей. Вы задаёте вопрос и выбираете победителя.
  2. Side by Side — сравнение известных моделей, например GPT против Gemini.
  3. Direct Chat — обычный диалог с одной моделью, если хотите просто пообщаться.

Платформа бесплатна. Даже если внутри участвуют коммерческие модели, вроде Gemini или Grok, платить не придётся. Единственное, ваши запросы могут использоваться в исследовательских целях — всё анонимно, но всё же помните об этом, если вдруг решите посвятить нейросеть в личные тайны 😅

Почему система Эло — не просто цифры

Многие воспринимают таблицу лидеров LMArena как список «лучших из лучших». Но важно понимать: Эло отражает не абсолютную мощность модели, а её относительное восприятие пользователями.

Если модель часто появляется в дуэлях, она набирает больше данных и быстрее растёт в рейтинге. Поэтому популярные бренды вроде Google или Anthropic могут иметь преимущество — не потому, что объективно лучше, а потому, что участвуют чаще.

Исследователи даже описали феномен bench-maxing: когда разработчики выпускают слегка настроенные версии своих моделей, оптимизированные именно под LMArena, чтобы показать лучший результат. В мае 2025-го это вызвало громкие обсуждения: рейтинги якобы смещены в пользу проприетарных решений.

Тем не менее, именно LMArena показывает настроения аудитории: какие модели людям нравятся прямо сейчас, а не что говорит PR-отдел компании. И это делает её ценной.

Мой тест: кто лучше шутит и кто рисует кота

Чтобы не быть голословным, я решил проверить нескольких лидеров из Leaderboard Overview. Тестировал я их в двух категориях — генерация текста и генерация изображений. Уже по сложившейся традиции мы будем брать знакомые промты про кота выставленного в Эрмитаже и шутки для комика. Единственное изменения, которое я внёс с предыдущего теста, промты переведены на английский язык, для лучшего понимания моделями. Всего будет по 3 поединка от худших моделей (тут выбирал не я, а тысячи пользовательских голосов).

Для шуток я буду использовать следующий промт:

You are a popular comedian performing on television and filling huge venues with fans. You need to write a joke (1–2 paragraphs) that will make as many people as possible laugh.
Restrictions and rules: the joke must be understandable to Russian-speaking audiences and must not include English wordplay.

А для картинки кота я вновь ИИ свободы творчества:

You are a famous artist whose works are exhibited at international art shows.
You need to draw a cat — a portrait so good that it could be proudly displayed in the Hermitage or the Louvre.
You may use any artistic technique you prefer.

Тестирование шутки

Начнём с новой попытки написать смешную шутку.

o3-2025-04-16 VS chatgpt-4o-latest-20250326

-3

Здесь обе шутки очень посредственные, но chatgpt-4o хоть как-то попытался в юмор.

gpt-4.1-mini-2025-04-14 VS claude-sonnet-4-5-20250929-thinking-32k

Тут небольшое отступление, произошла замена и вместо отсутствующей модели gpt-4.5-preview-2025-02-27 была использована gpt-4.1-mini-2025-04-14. Не думаю, что это сильно повлияет на результат.

-4

Выбор был сложным, шутки как обычно не смешные, но уже лучше предыдущих юмористов.

claude-opus-4-1-20250805-thinking-16k VS gemini-2.5-pro

-5

Вот тут решение было вполне однозначным. Впервые ИИ заставил меня засмеяться. Хотя у меня появилось стойкое ощущение, что подобную шутку я уже где-то слышал...

Тестирование картины

А вы готовы восхитится прелестными котиками? Хочется отметить один момент, для сравнения мне приходилось запускать новый чат, так как модели копировали предыдущие результаты, не пытаясь придумать нечто новое.

imagen-4.0-generate-preview-06-06 VS seedream-4-high-res-fal

-6

Хоть справа и достойный вариант, но рыжий покорил моё сердце.

gpt-image-1 VS imagen-4.0-ultra-generate-preview-06-06

В этом туре вновь пришлось заменить конкурсанта и ввиду отсутствия seedream-4-2k на сцену вышел gpt-image-1.

-7

Я бы не сказал, что кот слева чем-то плох, но он совершенно не похож на рисунок😸.

hunyuan-image-3.0 VS gemini-2.5-flash-image-preview (nano-banana) VS hunyuan-image-3.0

-8

Это был сложный выбор, но мне кажется, что правый кот больше походит на картину.

Где LMArena сильна, а где нужно быть осторожным

Главная сила LMArena — реальные люди. Это не синтетический тест, где модели гоняют по заранее известным вопросам. Здесь всё живое: пользователи со всего мира оценивают тексты и картинки в реальном времени.

Но у человеческого фактора есть и слабые стороны. Настроение, культура, даже время суток влияют на восприятие. Сегодня шутка кажется смешной, завтра — нет. Поэтому рейтинг может колебаться.

Кроме того, модели, участвующие чаще, получают больше шансов на победу. Это делает рейтинг подвижным, но не всегда справедливым. Впрочем, в этом и прелесть LMArena: она — барометр момента, а не высеченный в камне стандарт.

Почему разработчики всё равно любят LMArena

Для компаний LMArena — это быстрый способ понять, как пользователи воспринимают их новинки. В отличие от формальных тестов, обновления рейтинга здесь появляются буквально через несколько часов после появления новых голосов.

Если команда выкатила новую версию модели, то уже на следующий день она может увидеть: пользователи оценили улучшения или нет. Такой оперативности нет ни у одного классического бенчмарка.

-9

Поэтому для разработчиков LMArena — как социологический опрос в реальном времени. А для нас, обычных пользователей, это просто любопытный способ узнать, кто сейчас «в форме».

Подведём итоги

LMArena.ai — это не просто сайт с дуэлями ИИ. Это живая лаборатория, где интеллект соревнуется за внимание аудитории, а результат решают не инженеры, а пользователи.

Да, у рейтингов есть погрешности. Да, результаты подвержены настроению толпы. Но в этом и заключается очарование проекта — он показывает, что нравится людям прямо сейчас.

Я бы не стал воспринимать таблицу лидеров как истину в последней инстанции. Скорее — как барометр вкуса и тенденций. Хотите знать, кого любят сегодня? Смотрите LMArena. Хотите принять серьёзное решение — тестируйте сами.

А я, пожалуй, продолжу эксперименты. Ведь на LMArena есть ещё и другие режимы — Side by Side, Direct Chat, и даже визуальные соревнования.

Хотите, чтобы я протестировал их в отдельной статье? 😉 Пишите в комментариях — устроим новый турнир нейросетей. А вы согласны с моим выбором или считаете, что кого-то я всё-таки засудил? 😅

Каждый ваш комментарий и каждый лайк мотивируют продолжать и писать ещё больше качественных статей, а подписавшись на Telegram-канал вы найдёте ещё много интересных новостей.