В России создали «бенчмарк» для оценки нейросетей
В России разработали первую независимую платформу для оценки качества больших языковых моделей. Она называется LLM Arena. Ее создателем стал Роман Куцин, который взаимодействовал с экс-разработчиками TrainingData.ru, где он был техническим директором, и экспертами по ИИ-моделям. С помощью бенчмарка можно тестировать нейросети, которые работают на русском языке. Большие языковые модели оценивают на основе пользовательских задач. Все желающие могут сравнивать ответы в зависимости от запросов. Работает LLM Arena следующим образом...