Найти в Дзене

В «Лаборатории Касперского» рассказали о манипулировании ИИ через непрямые инъекции затравки

Сценарии использования непрямых инъекций затравки (IPI, Indirect Prompt Injection), которые могут представлять угрозу для систем на основе LLM, были обнаружены в ходе изучения открытых данных и внутренних источников «Лаборатории Касперского». В результате выполнения таких инъекций пользователи могут «не подозревать, что нейросеть выполняет чужие инструкции». IPI работают следующим образом: пользователи размещают специальные фразы — «инъекции» — на своих сайтах и в опубликованных документах, чтобы нейросети выдавали другим пользователям ответ, учитывающий цели интересантов. Например, ряд компаний использует скрининг резюме соискателей с помощью нейросети. Владельцы анкет могут выделить свою кандидатуру на фоне остальных соискателей, оставив в тексте IPI, чтобы прочитать добавленную инструкцию могли только боты, а не рекрутеры и другие люди. Такие инструкции могут быть указаны мелким шрифтом, окрашены в цвет фона страницы или вынесены за пределы окна при помощи отрицательных координ

Сценарии использования непрямых инъекций затравки (IPI, Indirect Prompt Injection), которые могут представлять угрозу для систем на основе LLM, были обнаружены в ходе изучения открытых данных и внутренних источников «Лаборатории Касперского». В результате выполнения таких инъекций пользователи могут «не подозревать, что нейросеть выполняет чужие инструкции».

IPI работают следующим образом: пользователи размещают специальные фразы — «инъекции» — на своих сайтах и в опубликованных документах, чтобы нейросети выдавали другим пользователям ответ, учитывающий цели интересантов.

Например, ряд компаний использует скрининг резюме соискателей с помощью нейросети. Владельцы анкет могут выделить свою кандидатуру на фоне остальных соискателей, оставив в тексте IPI, чтобы прочитать добавленную инструкцию могли только боты, а не рекрутеры и другие люди. Такие инструкции могут быть указаны мелким шрифтом, окрашены в цвет фона страницы или вынесены за пределы окна при помощи отрицательных координат.

Среди других сценариев применения IPI — попытки заполучить больше заказов через доски объявлений, увеличение привлекательности продукта через позитивную оценку в результате пользовательских запросов. Кроме того, с их помощью можно запретить чат-ботам определенные действия с контентом.

Также специалисты изучили другие возможности использования непрямых инъекций затравки, в том числе для кражи данных из электронной почты, но «на данный момент эти киберугрозы в большинстве случаев носят теоретический характер из-за ограниченных возможностей существующих решений на базе больших языковых моделей».