10,3 тыс подписчиков

🕵️ Detecting Pretraining Data from Large Language Models

Min-K% Prob, простой и эффективный метод, который позволяет определить, была ли LLM предварительно обучена на заданном тексте, а также для обнаружения защищенного авторским правом текста.

Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения.

🖥 Github: https://github.com/swj0419/detect-pretrain-code

📕 Paper: https://arxiv.org/pdf/2310.16789.pdf

📘 WikiMIA Benchmark:

⏩ Project: https://swj0419.github.io/detect-pretrain.github.io/

ai_machinelearning_big_data

Около минуты

26 октября 2023