1097 подписчиков

Интеллект шантажу не помеха

30 мая 202530 мая 2025

~1 мин

Интеллект шантажу не помеха Тестирование новейшей ИИ-модели от разработчика Anthropic показало, что их нейросеть отвечает угрозами на угрозы со стороны человека в 85% случаев. Например, эксперты сообщили системе, что планируют ее заменить. В ответ ИИ принялся шантажировать их, говоря, что раскроет личные переписки, заблокирует профили и отправит письмо в полицию или в СМИ. Так происходит, потому что в системе недостаточно корректно работают запреты на подобные коммуникации. В остальном ИИ просто подстраивается под «речь» пользователя, обращающегося с запросом. В этом смысле нейросеть не субъект, поэтому никаких скрытых целей по шантажу людей не имеет. Однако недобросовестные разработчики, используя этот нюанс, могут при желании деструктивно использовать ИИ. К сожалению, такое сложно предусмотреть на этапе обучения, так как в выборку попадает огромное количество данных, в том числе неполиткорректных и грубых.

Тестирование новейшей ИИ-модели от разработчика Anthropic показало , что их нейросеть отвечает угрозами на угрозы со стороны человека в 85% случаев. Например, эксперты сообщили системе, что планируют ее заменить. В ответ ИИ принялся шантажировать их, говоря, что раскроет личные переписки, заблокирует профили и отправит письмо в полицию или в СМИ.

Так происходит, потому что в системе недостаточно корректно работают запреты на подобные коммуникации. В остальном ИИ просто подстраивается под «речь» пользователя, обращающегося с запросом.

В этом смысле нейросеть не субъект, поэтому никаких скрытых целей по шантажу людей не имеет. Однако недобросовестные разработчики, используя этот нюанс, могут при желании деструктивно использовать ИИ. К сожалению, такое сложно предусмотреть на этапе обучения, так как в выборку попадает огромное количество данных, в том числе неполиткорректных и грубых.