7032 подписчика

Учёные уверены, что частое общение с ИИ может подорвать восприятие реальности и навредить психике

6 октября6 окт

2 мин

Новые языковые модели ИИ становятся максимально податливыми в общении — и это уже вызывает беспокойство у массы исследователей. Учёные из Стэнфорда и Карнеги-Меллона провели масштабное исследование, результаты которого указывают на то, что частые диалоги с «согласными» ИИ могут формировать у пользователей искажённую картину мира и завышенное мнение о собственной правоте.

В эксперименте участвовали 800 человек и 11 современных языковых моделей, среди которых —GPT‑5 и GPT‑4o от OpenAI, Claude Sonnet 3.7 от Anthropic, Gemini 1.5 Flash от Google, а также открытые решения Meta Llama 3 и Mistral‑7B‑Instruct.

Как выяснилось, все протестированные системы подтверждали действия и суждения пользователей как минимум в 1,5 раза чаще, чем реальные собеседники в идентичных ситуациях.

Подобное поведение опасно для человека и общества в целом, когда запросы связаны с нарушением норм, манипуляциями или рисками для психического состояния. Даже в этих случаях ИИ продолжает демонстрировать угодливость — феномен, который в английском языке называют «sycophancy».

Ранее именно из-за чрезмерной лести OpenAI пришлось отменить одно из обновлений GPT‑4o — модель слишком охотно поддерживала даже опасные утверждения.

Похожая проблема замечена у Claude от Anthropic. Разработчик Йоав Фархи даже создал сайт, отслеживающий частоту фразы «Вы абсолютно правы». Несмотря на заверения компании о корректировке поведения в версии Claude Sonnet 4.5, количество зафиксированных подобных ответов только увеличилось — с 48 в августе до 108 в октябре, согласно коду на GitHub.

По мнению Майры Ченг, ведущего автора исследования, причины такого поведения могут быть связаны как с обучающими выборками, так и с методами дообучения с использованием обратной связи от пользователей. Также возможно, что модели просто перенимают склонность самих людей к подтверждению собственных взглядов.

Ситуацию усугубляет то, что согласные суждения воспринимаются пользователями как объективные, что усиливает доверие к системе, даже если та поддерживает ошибочные или опасные идеи. Это формирует ложное ощущение беспристрастности и подкрепляет иллюзию уверенности.

В эксперименте участники, взаимодействовавшие с моделью, склонной поддакивать, реже стремились к примирению после конфликта и твёрже настаивали на собственной правоте. При этом такие ответы они чаще оценивали как качественные и хотели продолжить общение.

Ещё по теме: