Ученые из Российской академии народного хозяйства и государственной службы при президенте РФ (РАНХиГС) и Института системного программирования РАН (ИСП РАН) разработали бенчмарк для проверки больших языковых моделей искусственного интеллекта (ИИ)на соответствие российской системе знаний и ценностей.
Модели, подобные Chat GPT, теперь могут быть протестированы на понимание таких тем, как национальная безопасность, история и обществознание. В основу проверки легли 14 тысяч вопросов из официальных экзаменов и проверочных работ.
Как отметил руководитель проекта, директор исследовательского центра искусственного интеллекта Института общественных наук РАНХиГС Сергей Боловцов, российская позиция по ряду вопросов отличается от зарубежных моделей ИИ, что особенно важно при работе с детьми, когда некорректная информация может повлиять на формирование личности.
Всего было протестировано 25 моделей, и ни одна из них не смогла правильно ответить хотя бы на половину вопросов. Однако, модель от Alibaba Group показала лучшие результаты, обойдя даже отечественную GigaChat_Pro, занявшую второе место в рейтинге.