Рынок русскоязычных языковых моделей (LLM) продолжает развиваться, и теперь у разработчиков и исследователей есть новый инструмент для оценки их эффективности. Компания Vikhrmodels, известная своими усилиями в создании и дообучении русскоязычных open-source моделей, представила свой набор бенчмарков — RuArenaGeneral. Эта новинка представляет собой уникальный бенчмарк на основе системы lmsys arenahard, адаптированный для русского языка. В отличие от классической арены, RuArenaGeneral использует GPT-4o в качестве судьи, что позволяет значительно ускорить процесс оценки моделей. Теперь новые модели могут быть добавлены и оценены всего за час, а результаты можно воспроизводить локально. Что делает RuArenaGeneral особенно интересной? Во-первых, это первый полностью открытый бенчмарк на русском языке, что важно для оценки и сравнения русскоязычных моделей. Во-вторых, система использует ELO ранги для оценки моделей, что делает процесс более прозрачным и точным. Бенчмарк включает фиксированны
Новая арена для оценки русскоязычных LLM: Vikhrmodels запускает RuArenaGeneral
27 августа 202427 авг 2024
11
1 мин