Найти тему
172 подписчика

🍄Ученые из Университета Ватерлоо в Канаде разработали универсальный "бэкдор" для заражения больших моделей классификации изображений и вызывания галлюцинаций у ИИ


Ранее, бэкдоры были направлены только на конкретные классы данных в системах классификации изображений. Однако, команда из Университета Ватерлоо разработала метод генерации триггеров для своего бэкдора, который применим к любому классу в наборе данных.

Один из ученых пояснил, что при занятиях классификацией изображений модель "учится" распознавать объекты, такие как глаза или уши. Они же, наоборот, тренировали разнообразные признаки, которые затем используются вместе со всеми изображениями.

Ученые утверждают, что используя лишь небольшую часть изображений в наборе данных, можно создать универсальный бэкдор, вызывающий неправильную классификацию для любого класса изображений, которые модель может распознать.

🫥Они подчеркнули, что их бэкдор успешно атакует все 1000 классов в наборе данных ImageNet-1K, отравляя всего 0,15% обучающих данных. Эффективность атаки говорит о том, что специалистам по глубокому обучению следует учитывать универсальные бэкдоры при обучении и развертывании систем классификации изображений.

🫥Атаки могут осуществляться различными способами, такими как создание "отравленной" модели через внесение подготовленных изображений, размещение изображений в интернете и ожидание, пока их соберет краулер для отравления модели, а также идентификация изображений в известных наборах данных и приобретение доменов с истекшим сроком действия, связанных с этими изображениями.

🍄Ученые из Университета Ватерлоо в Канаде разработали универсальный "бэкдор" для заражения больших моделей классификации изображений и вызывания галлюцинаций у ИИ  Ранее, бэкдоры были направлены...
1 минута