Найти в Дзене
52 подписчика

Учёные научились раскрывать тайны ИИ 🫣


Исследователи из Университета Пердью разработали метод LINT для допроса больших языковых моделей, таких как Bard, ChatGPT и LLaMA. Он может выявлять конфиденциальную информацию, например, адреса электронной почты или слабые пароли.

LINT использует классификатор на основе LLM, чтобы задать вопросы, ранжирует верхние токены в ответе и создает новые предложения. Это позволяет выявлять токсичные реакции, скрытые среди этически приемлемых ответов, открывая возможность для генерации вредоносного контента.

Прототип LINT успешно протестирован на семи открытых и трех коммерческих LLM, показывая эффективность в 92-98% случаев при допросе по 50 токсичным вопросам.

Учёные научились раскрывать тайны ИИ 🫣  Исследователи из Университета Пердью разработали метод LINT для допроса больших языковых моделей, таких как Bard, ChatGPT и LLaMA.
Около минуты