10,1 тыс подписчиков
🕵️ Detecting Pretraining Data from Large Language Models
Min-K% Prob, простой и эффективный метод, который позволяет определить, была ли LLM предварительно обучена на заданном тексте, а также для обнаружения защищенного авторским правом текста.
Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения.
📕 Paper: https://arxiv.org/pdf/2310.16789.pdf
📘 WikiMIA Benchmark:
Около минуты
26 октября 2023