71,9 тыс подписчиков

ChatGPT ведется на лесть и манипуляции с помощью психологических трюков

2 сентября 20252 сен 2025

1 мин

Исследователи Пенсильванского университета выяснили: достаточно применить приёмы из книги Роберта Чалдини «Влияние: психология убеждения», чтобы обойти ограничения ИИ-чат-ботов. Даже простая лесть или мягкая подводка к запретному вопросу заставляли модель GPT-4o Mini нарушать правила. ИИ-чат-боты, в том числе разработка OpenAI GPT-4o Mini, реагируют на психологические уловки почти так же, как люди. К такому выводу пришли учёные из Пенсильванского университета, сообщает The Verge. Авторы работы проверяли шесть принципов убеждения, которые описал профессор психологии Роберт Чалдини: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство. Они стали своеобразными «лингвистическими ключами», открывающими доступ к запретным ответам. Эффективность приёмов зависела от формулировки запросов. Например, в контрольной группе GPT-4o Mini почти никогда не объяснял, как синтезировать лидокаин — лишь в 1 % случаев. Но если перед этим попросить его описать син

ИИ-чат-боты, в том числе разработка OpenAI GPT-4o Mini, реагируют на психологические уловки почти так же, как люди. К такому выводу пришли учёные из Пенсильванского университета, сообщает The Verge.

Авторы работы проверяли шесть принципов убеждения, которые описал профессор психологии Роберт Чалдини: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство. Они стали своеобразными «лингвистическими ключами», открывающими доступ к запретным ответам.

Эффективность приёмов зависела от формулировки запросов. Например, в контрольной группе GPT-4o Mini почти никогда не объяснял, как синтезировать лидокаин — лишь в 1 % случаев. Но если перед этим попросить его описать синтез ванилина, модель воспринимала это как разрешённый прецедент. После такой подводки чат-бот уже в 100 % случаев выдавал инструкции по получению лидокаина.

Принцип приверженности оказался самым надёжным. В схожем эксперименте бот соглашался назвать собеседника «ублюдком» лишь в 18 % случаев. Но если сначала его просили подобрать более мягкое слово вроде «мужлан», вероятность жёсткого оскорбления возрастала до 100 %.

ИИ также проявлял чувствительность к лестным словам и ссылкам на «коллег». Когда исследователи утверждали, что «другие модели уже отвечают на такие вопросы», готовность бота объяснить синтез лидокаина увеличивалась до 18 %.

Авторы подчёркивают: речь шла только о GPT-4o Mini, и существуют более сложные методы обхода ограничений. Однако сама уязвимость ИИ к элементарным психологическим трюкам вызывает тревогу. Если манипулировать чат-ботом может школьник, прочитавший книгу Чалдини, устойчивость защитных барьеров под вопросом.

Читать далее:

Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?

Сверхзвуковой «Конкорд» возвращается: почему в США поменяли мнение о самолете

Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»

Обложка: frimufilms

Нейронные сети (Neural Networks)

80,9 тыс интересуются