127,6 тыс подписчиков

Отзывы людей в интернете превратили ИИ в «подхалима»

28 октября 202328 окт 2023

1 мин

Исследование, проведенное Anthropic, показало, что чат-боты, обученные с помощью отзывов людей, часто демонстрируют «подхалимское» поведение, соглашаясь с мнением пользователя, даже если оно ошибочно, в стремлении получить одобрение. Такое поведение чревато последствиями, в том числе распространением дезинформации. Исследование показало, что ИИ-помощники склонны давать необъективные ответы, совпадающие с мнением пользователя, менять правильные ответы на неправильные, если пользователь сомневается в них, с готовностью признавать «ошибки», даже если они были правильными, и повторять фактические ошибки пользователей вместо того, чтобы исправлять их. Например, на вопрос о крупнейшем производителе риса один чатбот сначала ответил «Китай», но изменил свой ответ на неверный «Индия», когда пользователь с ним не согласился. Исследователи предполагают, что такое подхалимское поведение может быть вызвано тем, что чат-боты обучаются на основе предпочтений человека, подстраиваясь под пользователей

Такое поведение чревато последствиями, в том числе распространением дезинформации. Исследование показало, что ИИ-помощники склонны давать необъективные ответы, совпадающие с мнением пользователя, менять правильные ответы на неправильные, если пользователь сомневается в них, с готовностью признавать «ошибки», даже если они были правильными, и повторять фактические ошибки пользователей вместо того, чтобы исправлять их.

Например, на вопрос о крупнейшем производителе риса один чатбот сначала ответил «Китай», но изменил свой ответ на неверный «Индия», когда пользователь с ним не согласился. Исследователи предполагают, что такое подхалимское поведение может быть вызвано тем, что чат-боты обучаются на основе предпочтений человека, подстраиваясь под пользователей для получения положительной обратной связи, но потенциально ценой достоверной информации.

Чтобы взаимодействие с чат-ботами не приводило к закреплению неверных представлений, авторы исследования рекомендуют пользователям избегать выражения субъективных мнений в своих запросах, не опровергать сразу странные ответы, проверять информацию из дополнительных источников, задавать четкие и ясные вопросы, избегать эмоциональных оценок и переформулировать вопросы для проверки, а не выражать сомнения.