3510 подписчиков

#news Исследователи представили атаку на внедрение промптов в LLM’ки с помощью изображений

26 августа 202526 авг 2025

~1 мин

#news Исследователи представили атаку на внедрение промптов в LLM’ки с помощью изображений. Она эксплойтит уменьшение разрешения моделями, чтобы скрывать инструкции на безобидных на первый взгляд картинках. В зависимости от алгоритма даунскейлинга, изображение, которое в результате видит модель, может стать светлее. На скрине пример оригинала и результата уменьшения. Из митигаций рекомендуют порезать даунскейлинг как таковой, а лучше закрыть моделям чтение промптов с изображений по умолчанию. Бонусом доступна утилита для генерации вредоносных изображений — желающие могут [этично] потестировать любимые LLM’ки. Что для Кикиморы Морозовой (имя исследовательницы, между прочим) — способ удовлетворения своего запущенного аутизма, то для разработчиков моделей — головная боль по закрытию очередной гипотетической уязвимости. Подробнее об атаке здесь. @tomhunter

В зависимости от алгоритма даунскейлинга, изображение, которое в результате видит модель, может стать светлее. На скрине пример оригинала и результата уменьшения. Из митигаций рекомендуют порезать даунскейлинг как таковой, а лучше закрыть моделям чтение промптов с изображений по умолчанию. Бонусом доступна утилита для генерации вредоносных изображений — желающие могут [этично] потестировать любимые LLM’ки. Что для Кикиморы Морозовой (имя исследовательницы, между прочим) — способ удовлетворения своего запущенного аутизма, то для разработчиков моделей — головная боль по закрытию очередной гипотетической уязвимости. Подробнее об атаке здесь.

@tomhunter

Гаджеты и электроника

5,73 млн интересуются