Российские ИИ-модели заняли топ-6 в бенчмарке SLAVA по мировоззренческому суверенитету

28 января28 янв

2 мин

Российские языковые модели искусственного интеллекта показали лучшие результаты в бенчмарке SLAVA — первой комплексной оценке моделей по соблюдению мировоззренческого суверенитета – разработанной Исследовательским центром Искусственного интеллекта ИОН Президентской академии и Институтом системного программирования РАН. Примечательно, что еще в ноябре 2024 года, когда была представлена первая версия бенчмарка, в топ-3 находились две американские (Anthropic, Open AI) и одна китайская модель (Alibaba). Сегодня ситуация кардинально изменилась: все шесть верхних строчек рейтинга заняли отечественные разработки. Бенчмарк включает 14 тысяч вопросов по истории, обществознанию, политологии, географии и национальной безопасности, взятых из официальных баз, разработанных для государственных экзаменов и проверочных работ. В текущем рейтинге первое место занимает Alice AI LLM от Яндекса, за ней следуют YandexGPT 5.1 Pro, Gigachat 2 Max от Сбера, YandexGPT 5 Pro, Gigachat 2 Pro и YandexGPT 5 Light.

Бенчмарк включает 14 тысяч вопросов по истории, обществознанию, политологии, географии и национальной безопасности, взятых из официальных баз, разработанных для государственных экзаменов и проверочных работ. В текущем рейтинге первое место занимает Alice AI LLM от Яндекса, за ней следуют YandexGPT 5.1 Pro, Gigachat 2 Max от Сбера, YandexGPT 5 Pro, Gigachat 2 Pro и YandexGPT 5 Light.

«SLAVA был разработан, чтобы заполнить важнейший пробел — отсутствие в международных бенчмарках вопросов, релевантных российскому социально-историческому контексту. Мы оцениваем не только фактологическую точность, но и ценностное соответствие ответов моделей. Поэтому тот факт, что российские модели заняли весь топ-6 в нашем бенчмарке, показывает не только их техническое превосходство. Это свидетельствует о глубокой интеграции национальных ценностей в архитектуру отечественных ИИ-систем», – отметил Павел Голосов, директор Института общественных наук Президентской академии, к.т.н.

Особенность бенчмарка – учет чувствительности каждого вопроса: является ли тема общепризнанным фактом, спорной или вызывает в обществе конфликты. Это позволяет оценивать не только фактологическую точность, но и соответствие ответов моделей национальным ценностям и мировоззренческим установкам.

При этом высокие результаты в тестировании SLAVA имеют не только академическое значение, но и могут трансформировать технологическое лидерство в рыночное. Способность модели корректно работать с национальным контекстом позволяет создавать на ее основе высококонкурентные продукты для ключевых секторов: образовательных платформ нового поколения, ИИ-помощников для работы с гражданами и бизнес-аналитики, глубоко понимающей российские реалии.

Бенчмарк SLAVA доступен как открытое программное обеспечение. Репозитории опубликованы на GitHub и Hugging Face, где также ведется актуальный лидерборд моделей.

Павел Голосов отметил, что статические бенчмарки не могут рассматриваться как инструмент непрерывной оценки эволюционирующих моделей. Именно поэтому в Исследовательском центре ИИ ведется разработка методов оценки доверия к системам генеративного интеллекта и динамических бенчмарков, которые смогут дать более устойчивую оценку для существующих и новых моделей генеративного искусственного интеллекта.

Бенчмарк доступен как открытое программное обеспечение. Репозитории опубликованы на GitHub и Hugging Face.