26 подписчиков

Новая арена для оценки русскоязычных LLM: Vikhrmodels запускает RuArenaGeneral⁠⁠

27 августа 202427 авг 2024

1 мин

Рынок русскоязычных языковых моделей (LLM) продолжает развиваться, и теперь у разработчиков и исследователей есть новый инструмент для оценки их эффективности. Компания Vikhrmodels, известная своими усилиями в создании и дообучении русскоязычных open-source моделей, представила свой набор бенчмарков — RuArenaGeneral. Эта новинка представляет собой уникальный бенчмарк на основе системы lmsys arenahard, адаптированный для русского языка. В отличие от классической арены, RuArenaGeneral использует GPT-4o в качестве судьи, что позволяет значительно ускорить процесс оценки моделей. Теперь новые модели могут быть добавлены и оценены всего за час, а результаты можно воспроизводить локально. Что делает RuArenaGeneral особенно интересной? Во-первых, это первый полностью открытый бенчмарк на русском языке, что важно для оценки и сравнения русскоязычных моделей. Во-вторых, система использует ELO ранги для оценки моделей, что делает процесс более прозрачным и точным. Бенчмарк включает фиксированны

Эта новинка представляет собой уникальный бенчмарк на основе системы lmsys arenahard, адаптированный для русского языка. В отличие от классической арены, RuArenaGeneral использует GPT-4o в качестве судьи, что позволяет значительно ускорить процесс оценки моделей. Теперь новые модели могут быть добавлены и оценены всего за час, а результаты можно воспроизводить локально.

Что делает RuArenaGeneral особенно интересной? Во-первых, это первый полностью открытый бенчмарк на русском языке, что важно для оценки и сравнения русскоязычных моделей. Во-вторых, система использует ELO ранги для оценки моделей, что делает процесс более прозрачным и точным. Бенчмарк включает фиксированный набор из 500 промптов, разбитых на 50 тем, а результаты сравниваются с ответами модели-бейзлайна (gpt-3.5-turbo-0125).

Кроме того, RuArenaGeneral обеспечивает отличную корреляцию с оригинальной ареной lmsys.org, благодаря использованию LLM в качестве судьи и известности запросов заранее. Каждое сравнение проводится дважды для устранения позиционного биаса, а также используются функции генерации с gigachat и yandexgpt, что делает результаты еще более надежными.

Каждую неделю на арене появляются новые модели с поддержкой русского языка или русифицированные версии. Это делает RuArenaGeneral ценным инструментом как для разработчиков, так и для исследователей, стремящихся улучшить и оценить свои модели.

Бенчмарк доступен на Hugging Face: RuArenaGeneral и Dataset. Вы также можете ознакомиться с Colab-версией для воспроизведения результатов: Colab.

Если вы интересуетесь развитием русскоязычных моделей и хотите отслеживать их прогресс, RuArenaGeneral — это ресурс, который вам определенно стоит изучить!

______________________________________

Всех, кто интересуется последними новинками из мира AI призываем подписываться на наш канал. А тех, кто уже сейчас хочет попробовать себя в роли нейрокреатора, приглашаем на наш сайт.