Обновляемый рейтинг лучших нейросетей — по ссылке.

Аналитики сравнили самые популярные LLM с помощью собственной версии теста MMLU. Оценочные скрипты доступны на GitHub.

Нейронкам отправили 12 тысяч запросов в 14 различных категориях человеческого знания, в том числе точных науках. Производительность моделей старались проверять на задачах, требующих от чат-ботов рассуждений.

По версии исследователей, топ-5 больших языковых моделей сейчас таков: