В России заработала первая независимая платформа для оценки качества больших языковых моделей на русском языке под названием LLM Arena. Проект реализован Романом Куцевым в сотрудничестве с экспертами по нейросетям и бывшими разработчиками TrainingData.ru.
LLM Arena позволяет в режиме реального времени тестировать русскоязычные нейросети и оценивать их ответы на основании пользовательских задач. Пользователи могут вводить запросы, сравнивать ответы двух случайно выбранных моделей и выбирать лучший. Это обеспечивает объективный рейтинг качества генеративных нейросетей на русском языке.
На платформе доступна для тестирования 21 популярная генеративная нейросеть, включая как зарубежные языковые модели (ChatGPT, LLaMa), так и российские (YandexGPT, GigaChat, Saiga). Список регулярно обновляется.
«Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Тестирование российских LLM на родном языке на реальных задачах было сложно, поэтому мы решили создать свою платформу, чтобы пользователи могли сравнивать модели и делать выводы», – говорит основатель LLM Arena Роман Куцев отметил.
В ближайшем будущем на платформе планируется внедрение новых функций для оценки качества ответов по различным категориям запросов, включая написание кода, решение сложных вопросов и поддержку длинного контекста беседы. Также будут введены мультимодальные задачи, такие как понимание изображений и генерация видео по тексту.
LLM Arena создана по открытой лицензии и работает по принципу популярного международного рейтинга LMSYS Chatbot Arena.Она также позволяет пользователям вводить запросы, получать ответы от двух случайных моделей и выбирать лучший, что формирует объективный рейтинг. LMSYS Chatbot Arena используется во всем мире и признана одним из наиболее эффективных инструментов для оценки генеративных нейросетей.
Сейчас на LLM Arena лидируют модель gpt-4o от OpenAI (доступна в ChatGPT), Llama 3.1 405B Instruct Turbo, gpt-4-turbo, а также Claude 3.5 Sonnet.
На втором месте – YandexGPT Experimental, эта модель находится ещё в процессе обучения, здесь же ещё одна российская разработка – saiga_llama3_70b, впрочем, это, скорее, попытка «твикнуть» Llama. Последние позиции занимает российский GigaChat 3.1.25.3 и его Pro-версия.