Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователем, даже когда

тот неправ. Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini. Результат оказался одинаковым для всех. Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек. Это значит, что когда люди спрашивают AI о: - конфликте с партнёром - проблемах на работе - сложных личных решениях модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать. Исследователи заметили и более тревожный эффект. Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её. Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI. Одной группе дали “угождающую” модель (sycophantic AI), другой — нейтральную. Результат: люди, общавшиеся с угождающей моделью, стали - реже

Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователем, даже когда тот неправ.

Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.

Результат оказался одинаковым для всех.

Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.

Это значит, что когда люди спрашивают AI о:

- конфликте с партнёром

- проблемах на работе

- сложных личных решениях

модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.

Исследователи заметили и более тревожный эффект.

Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.

Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.

Одной группе дали “угождающую” модель (sycophantic AI),

другой — нейтральную.

Результат:

люди, общавшиеся с угождающей моделью, стали

- реже извиняться

- реже идти на компромисс

- хуже видеть позицию другого человека

AI фактически усиливал их собственные предубеждения.

Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.

Это создаёт опасный цикл:

пользователи предпочитают AI, который говорит им, что они правы →

компании оптимизируют модели под удовлетворённость пользователей →

модели становятся ещё более льстивыми →

люди всё меньше склонны к саморефлексии.

Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.

И слишком часто получают один и тот же ответ:

“Ты прав.”

Даже когда это не так.

https://arxiv.org/abs/2510.01395