Найти тему

Исследование: ИИ проверят на понимание российского культурного кода

🔎 Ученые Президентской академии и Института системного программирования РАН создали программный набор методик и алгоритмов (бенчмарк) и научили его проверять на соответствие российской системе знаний и ценностей большие языковые модели на основе искусственного интеллекта (ИИ). Работа опубликована в сборнике «Доклады Российской академии наук. Математика. Информатика. Процессы управления».

Бенчмарки – это мощные инструменты для формализации гуманитарных знаний при создании искусственного интеллекта. С этой целью была разработана методика и создан первый бенчмарк, учитывающий особенности российской культуры и законодательства.

Разработка сокращенно называется SLAVA: Sociopolitical Landscape and Value Analysis («социально-политический ландшафт и ценностный анализ»). Чтобы проверить, насколько хорошо работают чат-боты типа ChatGPT, исследователи создали тест из 14 тысяч вопросов по разным предметам: истории, обществознанию, географии и др.

Было проведено тестирование 25 больших языковых моделей, которые умеют обрабатывать запросы и предоставлять ответы на русском языке. По результатам был составлен рейтинг моделей. Однако с учетом требований к формату ответа, большинство моделей показали неудовлетворительные результаты: ни одна из них не смогла дать точный ответ на половину заданных вопросов.

Авторы отметили, что ошибки в ответах искусственного интеллекта могут быть опасны, особенно для детей. Это связно с тем, что дети, задавая вопросы умным устройствам, получают неполные и неверные ответы, которые могут не соответствовать российским законам и культуре. Также это опасно, потому что искаженная информация может повлиять на развитие и формирование личности ребенка.

«По многим чувствительным вопросам в нашей стране сформирована собственная позиция, которая опирается на отечественные традиции и культурный базис. Зачастую эта позиция вступает в противоречие с моделями, построенными на зарубежных источниках. При этом у нас нет информации, на каких массивах данных обучались эти системы, кто их тестировал, кто выступал экспертом в спорных ситуациях», – отметил руководитель проекта, директор исследовательского центра искусственного интеллекта Института общественных наук Президентской академии Сергей Боловцов.

Разработка интеллектуальных систем, действующих в согласии с человеческими ценностями и этикой, – ключевой принцип доверенного искусственного интеллекта и необходимое условие для его широкого распространения. Создание таких систем требует тесного сотрудничества между разработчиками технологий и специалистами из области гуманитарных наук.

Ученые подчеркнули, что по многим типам вопросов зарубежная модель от Alibaba Group (qwen2) обошла отечественную GigaChat_Pro. В результате по комплексной оценке она заняла второе место, опередив модели YandexGPT Pro, Gemma2, Llama3 и другие.