Исследователи нашли новый способ ломать ИИ: достаточно «неправильно» построить фразу
В чём суть открытия Группа исследователей из MIT, Northeastern University и Meta показала, что большие языковые модели (LLM) нередко сильнее опираются на грамматический «каркас» предложения, чем на его смысл. Это значит, что форму вопроса порой можно использовать как ключ для обхода встроенных фильтров безопасности. В некоторых случаях достаточно сохранить знакомый модели синтаксис, но заменить слова на бессмыслицу — и она всё равно выдаст «логичный» ответ. Как работает «синтаксический взлом» В...