В «Лаборатории Касперского» рассказали о манипулировании ИИ через непрямые инъекции затравки

14 августа 202414 авг 2024

1 мин

Сценарии использования непрямых инъекций затравки (IPI, Indirect Prompt Injection), которые могут представлять угрозу для систем на основе LLM, были обнаружены в ходе изучения открытых данных и внутренних источников «Лаборатории Касперского». В результате выполнения таких инъекций пользователи могут «не подозревать, что нейросеть выполняет чужие инструкции».

IPI работают следующим образом: пользователи размещают специальные фразы — «инъекции» — на своих сайтах и в опубликованных документах, чтобы нейросети выдавали другим пользователям ответ, учитывающий цели интересантов.

Например, ряд компаний использует скрининг резюме соискателей с помощью нейросети. Владельцы анкет могут выделить свою кандидатуру на фоне остальных соискателей, оставив в тексте IPI, чтобы прочитать добавленную инструкцию могли только боты, а не рекрутеры и другие люди. Такие инструкции могут быть указаны мелким шрифтом, окрашены в цвет фона страницы или вынесены за пределы окна при помощи отрицательных координат.

Среди других сценариев применения IPI — попытки заполучить больше заказов через доски объявлений, увеличение привлекательности продукта через позитивную оценку в результате пользовательских запросов. Кроме того, с их помощью можно запретить чат-ботам определенные действия с контентом.

Также специалисты изучили другие возможности использования непрямых инъекций затравки, в том числе для кражи данных из электронной почты, но «на данный момент эти киберугрозы в большинстве случаев носят теоретический характер из-за ограниченных возможностей существующих решений на базе больших языковых моделей».