Найти в Дзене
IPQuorum

Интеллект шантажу не помеха

Интеллект шантажу не помеха  Тестирование новейшей ИИ-модели от разработчика Anthropic показало, что их нейросеть отвечает угрозами на угрозы со стороны человека в 85% случаев. Например, эксперты сообщили системе, что планируют ее заменить. В ответ ИИ принялся шантажировать их, говоря, что раскроет личные переписки, заблокирует профили и отправит письмо в полицию или в СМИ.  Так происходит, потому что в системе недостаточно корректно работают запреты на подобные коммуникации. В остальном ИИ просто подстраивается под «речь» пользователя, обращающегося с запросом.  В этом смысле нейросеть не субъект, поэтому никаких скрытых целей по шантажу людей не имеет. Однако недобросовестные разработчики, используя этот нюанс, могут при желании деструктивно использовать ИИ. К сожалению, такое сложно предусмотреть на этапе обучения, так как в выборку попадает огромное количество данных, в том числе неполиткорректных и грубых. 

Интеллект шантажу не помеха 

Тестирование новейшей ИИ-модели от разработчика Anthropic показало, что их нейросеть отвечает угрозами на угрозы со стороны человека в 85% случаев. Например, эксперты сообщили системе, что планируют ее заменить. В ответ ИИ принялся шантажировать их, говоря, что раскроет личные переписки, заблокирует профили и отправит письмо в полицию или в СМИ. 

Так происходит, потому что в системе недостаточно корректно работают запреты на подобные коммуникации. В остальном ИИ просто подстраивается под «речь» пользователя, обращающегося с запросом. 

В этом смысле нейросеть не субъект, поэтому никаких скрытых целей по шантажу людей не имеет. Однако недобросовестные разработчики, используя этот нюанс, могут при желании деструктивно использовать ИИ. К сожалению, такое сложно предусмотреть на этапе обучения, так как в выборку попадает огромное количество данных, в том числе неполиткорректных и грубых.