Найти тему
14 подписчиков

🧠 Как удалить нежелательные знания из языковых моделей?


Исследователи из Northeastern University разработали новый метод под названием Erasure of Language Memory (ELM), который позволяет языковым моделям «разучивать» определенные концепции, не теряя при этом своих ключевых способностей.

💻 Представьте, что вы хотите, чтобы модель забыла, как генерировать информацию по опасным темам (например, как создать биологическое оружие). При этом важно, чтобы модель не выдавала бессвязный текст и продолжала правильно работать с другими задачами.

🔍 ELM использует специальные методы низкорангового обновления модели, которые изменяют вероятности выдачи определённых текстов. Таким образом, модель теряет «память» о нежелательных темах, сохраняя свою общую функциональность.

🔥 Данный метод уже показал свою эффективность в тестах кибербезопасности. Он сохраняет высокую точность на безопасных темах, но выдаёт случайные ответы на вопросы по удалённым концепциям.

📊 Преимущества ELM:

- Полное удаление нежелательных знаний (например, о вредоносных концепциях).
- Сохранение общей производительности модели.
- Устойчивость к атакам злоумышленников.

Разработанный подход открывает новые горизонты в безопасности и контроле языковых моделей, снижая риск генерации опасной информации.

🔗 Подробнее о ELM можно прочитать в полном тексте исследования.

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #кибербезопасность #AI #LLM #безопасность
🧠 Как удалить нежелательные знания из языковых моделей?
1 минута