Сценарии использования непрямых инъекций затравки (IPI, Indirect Prompt Injection), которые могут представлять угрозу для систем на основе LLM, были обнаружены в ходе изучения открытых данных и внутренних источников «Лаборатории Касперского». В результате выполнения таких инъекций пользователи могут «не подозревать, что нейросеть выполняет чужие инструкции». IPI работают следующим образом: пользователи размещают специальные фразы — «инъекции» — на своих сайтах и в опубликованных документах, чтобы нейросети выдавали другим пользователям ответ, учитывающий цели интересантов. Например, ряд компаний использует скрининг резюме соискателей с помощью нейросети. Владельцы анкет могут выделить свою кандидатуру на фоне остальных соискателей, оставив в тексте IPI, чтобы прочитать добавленную инструкцию могли только боты, а не рекрутеры и другие люди. Такие инструкции могут быть указаны мелким шрифтом, окрашены в цвет фона страницы или вынесены за пределы окна при помощи отрицательных координ
В «Лаборатории Касперского» рассказали о манипулировании ИИ через непрямые инъекции затравки
14 августа 202414 авг 2024
1
1 мин