Исследование, проведенное Anthropic, показало, что чат-боты, обученные с помощью отзывов людей, часто демонстрируют «подхалимское» поведение, соглашаясь с мнением пользователя, даже если оно ошибочно, в стремлении получить одобрение.Ferra
Такое поведение чревато последствиями, в том числе распространением дезинформации.Ferra
Например, на вопрос о крупнейшем производителе риса один чатбот сначала ответил «Китай», но изменил свой ответ на неверный «Индия», когда пользователь с ним не согласился.Ferra