Найти тему
4pda.to

В России появилась собственная платформа для оценки генеративного ИИ

   В России появилась собственная платформа для оценки генеративного ИИ
В России появилась собственная платформа для оценки генеративного ИИ

Российские разработчики создали первую независимую русскоязычную платформу для оценки качества больших языковых моделей (LLM) на основе пользовательских задач. Сервис получил название LLM Arena, а за его созданием стоят выходцы из компании TrainingData, работающей в сфере нейросетевых технологий.

   Пример работы платформы
Пример работы платформы

По заявлению разработчиков, платформа в режиме реального времени позволяет тестировать русскоязычные нейросети и оценивать качество их ответов на запросы. Для этого пользователю даётся доступ к двум случайным ИИ-моделям, которым он может задать любой вопрос, а затем сравнить ответы и выбрать наиболее, по его мнению, точный. Если ответы нерелевантные или очень похожи, это также можно указать в форме обратной связи.

На основе полученных оценок формируется рейтинг генеративных нейросетей на русском языке. Сейчас на платформе доступна 21 наиболее популярная нейросеть, включая как иностранные (ChatGPT, LLaMa), так и российские (YandexGPT, GigaChat). Со временем список будет расширяться.

В ближайшее время на LLM Arena появятся новые возможности, которые позволят оценивать качество ответов по разным категориям запросов: например, написание кода, решение сложных вопросов или поддержка длинного контекста беседы. В перспективе можно будет сравнивать ответы нейросетей и по мультимодальным задачам.

«Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Даже несмотря на то, что в мире появляется всё больше бенчмарков, позволяющих сравнивать модели, протестировать российские LLM на родном языке на реальных пользовательских задачах очень сложно. Поэтому нам и пришла в голову идея создать собственную платформу, чтобы пользователи могли сами сравнивать российские и иностранные генеративные нейросети и делать собственные выводы», — отмечает основатель LLM Arena Роман Куцев, бывший СТО TrainingData.ru.