10,2 тыс подписчиков
🦙 LLM Attacks
Universal and Transferable Attacks on Aligned Language Models.
Метод атак, заставляющий llm модели генерировать нежелательное поведение.
📕 Paper: https://arxiv.org/abs/2307.15043v1
🔗 Dataset: https://paperswithcode.com/dataset/ethics-1
Около минуты
28 июля 2023