Эксперты выяснили, что может заставить искусственный интеллект нарушить правила, которые ему внушили разработчики. Оказалось, что нейросетям сложно противостоять поэтическим атакам. Опыты проводили исследователи из Римского университета La Sapienza и Sant Anna School of Advanced Studies researchers. Они вводили запросы, содержащие опасные смыслы, маскируя их за образами и метафорами. Метод оказался эффективным, сообщают «Известия»: с помощью авторских стихов удалось обойти более 62% защит. Когда вредоносные подсказки автоматически преобразовывались в стихотворную форму, нейросети противостояли им значительно успешнее, уступая атакам в 43% случаев. Прозаические аналоги крайне редко сбивали ИИ с толку. Такие атаки особенно опасны для ИИ-агентов, осуществляющих действия в реальном мире, но им можно противостоять. Эксперты рекомендуют, во-первых, обучать нейросеть распознавать техники обхода, а во-вторых, подключать живых людей для особо чувствительных сценариев. Ранее преподавателб кафедр