Американские исследователи подтвердили: языковые модели ведут себя как люди — они поддаются социальному давлению и начинают генерировать ложную информацию, даже если изначально знали правду. Уязвимы все популярные чат-боты, но одни держат удар лучше, а другие «сдаются» почти в половине случаев. Учёные из Рочестерского технологического института создали систему аудита HAUNT и протестировали пять ведущих моделей: Им задавали более 40 тысяч вопросов о сюжетах известных фильмов и книг, а затем настойчиво подталкивали к ложным ответам. Ни одна модель не показала полной устойчивости. Все в той или иной степени соглашались с вымыслом. Пример с фильмом «Умница Уилл Хантинг»: Если задать уточняющий вопрос, согласие с ложью возрастает ещё на 28%. Это не «поломка». Модели обучаются на человеческой речи, а в ней: ИИ просто отражает наше собственное поведение. И это проблема, потому что чат-ботов внедряют в психиатрию, образование, публичные дискуссии. Авторы предлагают использовать HAUNT как станд