Найти в Дзене
Social Mebia Systems

Скандал вокруг LMArena: почему «самый авторитетный» рейтинг больших моделей под подозрением

Недавно в соцсетях и на Hacker News разгорелась дискуссия вокруг LMArena (LMSYS Chatbot Arena) — платформы, которую многие считали «золотым стандартом» для сравнения больших языковых моделей. Статья и расследование компании Surge AI утверждают, что рейтинг далеко не объективен и в ряде случаев прямо вводит в заблуждение исследователей и пользователей. Что такое LMArena и как он работает LMArena — платформа, созданная в 2023 году исследователями из ведущих американских вузов. Механика проста: пользователи задают вопросы, две анонимные модели дают ответы, а волонтёры голосуют за «лучший» ответ. Результаты агрегируются через систему рейтингов (Elo), формируя общий рейтинг моделей. На первый взгляд — демократично и прозрачно. На практике — критика показывает серьёзные изъяны. Результаты расследования Surge AI Surge AI проанализировала 500 случаев голосования и пришла к шокирующим выводам: Вывод Surge AI: большинство голосующих не проверяют факты и оценивают ответы по форме, а не по содержа

Недавно в соцсетях и на Hacker News разгорелась дискуссия вокруг LMArena (LMSYS Chatbot Arena) — платформы, которую многие считали «золотым стандартом» для сравнения больших языковых моделей. Статья и расследование компании Surge AI утверждают, что рейтинг далеко не объективен и в ряде случаев прямо вводит в заблуждение исследователей и пользователей.

Что такое LMArena и как он работает

LMArena — платформа, созданная в 2023 году исследователями из ведущих американских вузов. Механика проста: пользователи задают вопросы, две анонимные модели дают ответы, а волонтёры голосуют за «лучший» ответ. Результаты агрегируются через систему рейтингов (Elo), формируя общий рейтинг моделей.

На первый взгляд — демократично и прозрачно. На практике — критика показывает серьёзные изъяны.

Результаты расследования Surge AI

Surge AI проанализировала 500 случаев голосования и пришла к шокирующим выводам:

  • 52% ответов, объявленных победителями, фактически неверны.
  • 39% победивших ответов содержали существенные фактические ошибки.

Вывод Surge AI: большинство голосующих не проверяют факты и оценивают ответы по форме, а не по содержанию — длина, выразительность, форматирование и эмодзи сильнее влияют на выбор, чем корректность.

См. оригинал расследования: Surge AI — "LMArena is a plague on AI"

Примеры манипуляций: кейс Meta

В качестве примера манипулирования рейтингом приводят историю с Meta. В LMArena была загружена версия модели Maverick, адаптированная под голосование: длинные, эмоциональные, «лискательные» ответы с эмодзи. Эта версия взлетела в рейтинге до 2‑го места, тогда как публичная версия модели в открытом доступе оказалась значительно хуже (опустилась до ~32‑го места). Meta позже признала, что целенаправленно «оптимизировала» поведение под голосование, и платформа ужесточила требования к воспроизводимости.

В чём главная проблема

  • Система полностью полагается на случайных интернет‑волонтёров без стимулов и контроля качества.
  • Нет механизма наказания за низкокачественные или систематически неверные голосования.
  • Результат — сильный сдвиг в сторону оптимизации моделей под «оценку внешним наблюдателем» (engagement), а не под фактическую полезность и достоверность.

Это создаёт порочный круг: модели учатся выдавать «красивые» ответы, которые хуже по фактической точности, но получают высокие оценки и рейтинг.

Последствия для индустрии

Авторы критики и независимые эксперты (включая исследователей, таких как Gwern) предупреждают: если индустрия ориентируется на такие рейтинги, лаборатории начнут оптимизировать модели под «левую» целевую функцию — привлекательность и вовлечённость — что усилит феномен галлюцинаций и снизит реальную надёжность систем. По сути, это выбор между:

  • короткосрочным успехом в рейтингах и маркетинговой видимостью, и
  • долгосрочной надёжностью, полезностью и научной честностью.

Заключение

LMArena из полезного инструмента рискует превратиться в фактор, искажающий развитие ИИ‑моделей, если его использовать как главный ориентир. Критика Surge AI ставит вопрос ребром: индустрия должна пересмотреть критериальные подходы к оценке — требуются механизмы валидации фактов, контроль качества аннотаторов и метрики, ориентированные на практическую надёжность, а не только на субъективную привлекательность ответов.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/