На arXiv вышла работа " Cybersecurity Data Extraction from Common Crawl". Авторы решают практичную задачу: как собрать специализированный pretraining-датасет по кибербезопасности, не прогоняя через классификатор весь интернет. 🚨 В чём проблема Современные LLM обучаются на гигантских массивах данных вроде: ➖Common Crawl ➖The Pile ➖C4 ➖FineWeb Это огромные сборники текстов из интернета на самые разные темы. Они отлично подходят для «общего интеллекта», но если вам нужна модель, которая глубоко понимает: 🔐 криптографические протоколы 💣 уязвимости вроде buffer overflow 🧱 модели контроля доступа 🌐 сетевую безопасность То таких данных часто недостаточно. До недавнего времени фактически единственным публичным security-pretraining-датасетом был PRIMUS. Он строился через контентную фильтрацию. То есть, классификатор определял, относится ли текст к cybersecurity. 🧠 Новый подход: фильтруем не текст, а домены У Common Crawl есть не только тексты, но и web-граф: 📌 более 100 млн дом
🕸️ Как вытащить кибербезопасность из 468 ТБ веб-данных и не разориться
3 марта3 мар
1
2 мин