88,3 тыс подписчиков

В России появилась собственная платформа для оценки генеративного ИИ

1 августа 20241 авг 2024

1 мин

Российские разработчики создали первую независимую русскоязычную платформу для оценки качества больших языковых моделей (LLM) на основе пользовательских задач. Сервис получил название LLM Arena, а за его созданием стоят выходцы из компании TrainingData, работающей в сфере нейросетевых технологий. По заявлению разработчиков, платформа в режиме реального времени позволяет тестировать русскоязычные нейросети и оценивать качество их ответов на запросы. Для этого пользователю даётся доступ к двум случайным ИИ-моделям, которым он может задать любой вопрос, а затем сравнить ответы и выбрать наиболее, по его мнению, точный. Если ответы нерелевантные или очень похожи, это также можно указать в форме обратной связи. На основе полученных оценок формируется рейтинг генеративных нейросетей на русском языке. Сейчас на платформе доступна 21 наиболее популярная нейросеть, включая как иностранные (ChatGPT, LLaMa), так и российские (YandexGPT, GigaChat). Со временем список будет расширяться. В ближайшее

По заявлению разработчиков, платформа в режиме реального времени позволяет тестировать русскоязычные нейросети и оценивать качество их ответов на запросы. Для этого пользователю даётся доступ к двум случайным ИИ-моделям, которым он может задать любой вопрос, а затем сравнить ответы и выбрать наиболее, по его мнению, точный. Если ответы нерелевантные или очень похожи, это также можно указать в форме обратной связи.

На основе полученных оценок формируется рейтинг генеративных нейросетей на русском языке. Сейчас на платформе доступна 21 наиболее популярная нейросеть, включая как иностранные (ChatGPT, LLaMa), так и российские (YandexGPT, GigaChat). Со временем список будет расширяться.

В ближайшее время на LLM Arena появятся новые возможности, которые позволят оценивать качество ответов по разным категориям запросов: например, написание кода, решение сложных вопросов или поддержка длинного контекста беседы. В перспективе можно будет сравнивать ответы нейросетей и по мультимодальным задачам.

«Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Даже несмотря на то, что в мире появляется всё больше бенчмарков, позволяющих сравнивать модели, протестировать российские LLM на родном языке на реальных пользовательских задачах очень сложно. Поэтому нам и пришла в голову идея создать собственную платформу, чтобы пользователи могли сами сравнивать российские и иностранные генеративные нейросети и делать собственные выводы», — отмечает основатель LLM Arena Роман Куцев, бывший СТО TrainingData.ru.

Гаджеты и электроника

5,73 млн интересуются