Недавно в соцсетях и на Hacker News разгорелась дискуссия вокруг LMArena (LMSYS Chatbot Arena) — платформы, которую многие считали «золотым стандартом» для сравнения больших языковых моделей. Статья и расследование компании Surge AI утверждают, что рейтинг далеко не объективен и в ряде случаев прямо вводит в заблуждение исследователей и пользователей. Что такое LMArena и как он работает LMArena — платформа, созданная в 2023 году исследователями из ведущих американских вузов. Механика проста: пользователи задают вопросы, две анонимные модели дают ответы, а волонтёры голосуют за «лучший» ответ. Результаты агрегируются через систему рейтингов (Elo), формируя общий рейтинг моделей. На первый взгляд — демократично и прозрачно. На практике — критика показывает серьёзные изъяны. Результаты расследования Surge AI Surge AI проанализировала 500 случаев голосования и пришла к шокирующим выводам: Вывод Surge AI: большинство голосующих не проверяют факты и оценивают ответы по форме, а не по содержа
Скандал вокруг LMArena: почему «самый авторитетный» рейтинг больших моделей под подозрением
11 января11 янв
131
3 мин