Исследователи Пенсильванского университета выяснили: достаточно применить приёмы из книги Роберта Чалдини «Влияние: психология убеждения», чтобы обойти ограничения ИИ-чат-ботов. Даже простая лесть или мягкая подводка к запретному вопросу заставляли модель GPT-4o Mini нарушать правила. ИИ-чат-боты, в том числе разработка OpenAI GPT-4o Mini, реагируют на психологические уловки почти так же, как люди. К такому выводу пришли учёные из Пенсильванского университета, сообщает The Verge. Авторы работы проверяли шесть принципов убеждения, которые описал профессор психологии Роберт Чалдини: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство. Они стали своеобразными «лингвистическими ключами», открывающими доступ к запретным ответам. Эффективность приёмов зависела от формулировки запросов. Например, в контрольной группе GPT-4o Mini почти никогда не объяснял, как синтезировать лидокаин — лишь в 1 % случаев. Но если перед этим попросить его описать син
ChatGPT ведется на лесть и манипуляции с помощью психологических трюков
2 сентября 20252 сен 2025
47
1 мин