Найти тему
10,1 тыс подписчиков

🕵️ Detecting Pretraining Data from Large Language Models


Min-K% Prob, простой и эффективный метод, который позволяет определить, была ли LLM предварительно обучена на заданном тексте, а также для обнаружения защищенного авторским правом текста.

Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения.



📘 WikiMIA Benchmark:


Около минуты