Языковые модели часто стремятся во всем соглашаться с пользователем, и это делает нас хуже: мы становимся самоуверенными, грубыми и перестаем извиняться даже тогда, когда неправы. К такому выводу пришли ученые из Стэнфордского университета. О результатах исследования, опубликованного в журнале Science 25 марта, популярно рассказал Nature. Мы привыкли, что искусственный интеллект — это удобный помощник. Но исследователи обнаружили у большинства популярных моделей (исследовались ChatGPT, Gemini и Claude) ярко выраженную склонность к сикофантии, то есть к раболепному общению, подхалимству, соглашательству. Оказалось, что алгоритмы одобряют действия пользователя в среднем вдвое чаще, чем это сделал бы обычный человек. Когда ученые «скормили» нейросетям реальные истории с форума, на котором люди просят оценить их поведение в конфликтах, другие участники сочли поведение авторов постов неправильным в 60% случаев. А вот чат-боты вставали на сторону рассказчика более чем в 80% случаев. Мало тог
Цифровые «подхалимы»: ученые Стэнфорда выяснили, как чат-боты портят характер
31 марта31 мар
3
3 мин