52 подписчика
Учёные научились раскрывать тайны ИИ 🫣
Исследователи из Университета Пердью разработали метод LINT для допроса больших языковых моделей, таких как Bard, ChatGPT и LLaMA. Он может выявлять конфиденциальную информацию, например, адреса электронной почты или слабые пароли.
LINT использует классификатор на основе LLM, чтобы задать вопросы, ранжирует верхние токены в ответе и создает новые предложения. Это позволяет выявлять токсичные реакции, скрытые среди этически приемлемых ответов, открывая возможность для генерации вредоносного контента.
Прототип LINT успешно протестирован на семи открытых и трех коммерческих LLM, показывая эффективность в 92-98% случаев при допросе по 50 токсичным вопросам.
Около минуты
12 декабря 2023