Бурный рост больших языковых моделей (LLM), способных выдавать убедительно человекообразные высказывания, все острее ставит вопрос доверия их ответам. Выход есть — можно попросить нейросеть объяснить свои рассуждения. Но как убедиться, что в этом процессе она не врет? Исследователи из Microsoft и Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института предложили новый метод оценки объяснений LLM с точки зрения их «достоверности» (faithfulness) — то есть насколько точно объяснение отражает процесс рассуждения, лежащий в основе ответа модели. Если LLM выдает недостоверные, но правдоподобные объяснения, пользователи могут обрести ложную уверенность в ее ответах и не заметить, что они становятся опасными. В таких сферах, как медицина или юриспруденция, это чревато серьезными последствиями. В статье приведен пример, когда GPT-3.5 выставлял более высокие оценки кандидатам-женщинам на должность медсестры по сравнению с мужчинами, даже когда их пол