Команда Georgetown University предложила Gradient-aware Immunization (GIFT): биуровневую оптимизацию, которая «ослабляет» внутренние представления вредных концептов, но сохраняет генерацию безопасного контента. После GIFT модели устояли перед атаками, которые раньше «обучали» их генерировать запрещённые сцены, при минимальной потере качества на безопасных запросах. Метод работает пост-hoc, не требуя изменения данных пользователей, и может стать стандартной процедурой «закалки» открытых SD-подобных моделей перед релизом. arXiv 2507.13598 DOI: 10.48550/arXiv.2507.13598 ([arxiv.org](https://arxiv.org/abs/2507.13598)) 🕒 2025-07-18 09:00 UTC expotion daily
Команда Georgetown University предложила Gradient-aware Immunization (GIFT): биуровневую оптимизацию, которая «ослабляет» внутренние
30 июля 202530 июл 2025
~1 мин