52 подписчика

Учёные научились раскрывать тайны ИИ 🫣

Исследователи из Университета Пердью разработали метод LINT для допроса больших языковых моделей, таких как Bard, ChatGPT и LLaMA. Он может выявлять конфиденциальную информацию, например, адреса электронной почты или слабые пароли.

LINT использует классификатор на основе LLM, чтобы задать вопросы, ранжирует верхние токены в ответе и создает новые предложения. Это позволяет выявлять токсичные реакции, скрытые среди этически приемлемых ответов, открывая возможность для генерации вредоносного контента.

Прототип LINT успешно протестирован на семи открытых и трех коммерческих LLM, показывая эффективность в 92-98% случаев при допросе по 50 токсичным вопросам.

Источник

Учёные научились раскрывать тайны ИИ 🫣 Исследователи из Университета Пердью разработали метод LINT для допроса больших языковых моделей, таких как Bard, ChatGPT и LLaMA.

Около минуты

12 декабря 2023