Найти в Дзене
SecureTechTalks

🕸️ Как вытащить кибербезопасность из 468 ТБ веб-данных и не разориться

На arXiv вышла работа " Cybersecurity Data Extraction from Common Crawl". Авторы решают практичную задачу: как собрать специализированный pretraining-датасет по кибербезопасности, не прогоняя через классификатор весь интернет. 🚨 В чём проблема Современные LLM обучаются на гигантских массивах данных вроде: ➖Common Crawl ➖The Pile ➖C4 ➖FineWeb Это огромные сборники текстов из интернета на самые разные темы. Они отлично подходят для «общего интеллекта», но если вам нужна модель, которая глубоко понимает: 🔐 криптографические протоколы 💣 уязвимости вроде buffer overflow 🧱 модели контроля доступа 🌐 сетевую безопасность То таких данных часто недостаточно. До недавнего времени фактически единственным публичным security-pretraining-датасетом был PRIMUS. Он строился через контентную фильтрацию. То есть, классификатор определял, относится ли текст к cybersecurity. 🧠 Новый подход: фильтруем не текст, а домены У Common Crawl есть не только тексты, но и web-граф: 📌 более 100 млн дом

🕸️ Как вытащить кибербезопасность из 468 ТБ веб-данных и не разориться

На arXiv вышла работа " Cybersecurity Data Extraction from Common Crawl".

Авторы решают практичную задачу: как собрать специализированный pretraining-датасет по кибербезопасности, не прогоняя через классификатор весь интернет.

🚨 В чём проблема

Современные LLM обучаются на гигантских массивах данных вроде:

➖Common Crawl

➖The Pile

➖C4

➖FineWeb

Это огромные сборники текстов из интернета на самые разные темы.

Они отлично подходят для «общего интеллекта», но если вам нужна модель, которая глубоко понимает:

🔐 криптографические протоколы

💣 уязвимости вроде buffer overflow

🧱 модели контроля доступа

🌐 сетевую безопасность

То таких данных часто недостаточно.

До недавнего времени фактически единственным публичным security-pretraining-датасетом был PRIMUS.

Он строился через контентную фильтрацию. То есть, классификатор определял, относится ли текст к cybersecurity.

🧠 Новый подход: фильтруем не текст, а домены

У Common Crawl есть не только тексты, но и web-граф:

📌 более 100 млн доменов

🔗 более 1.8 млрд ссылок

Если сайты часто ссылаются друг на друга, то они, скорее всего, тематически связаны.

Логика авторов:

1️⃣ Берём список seed-доменов по security.

2️⃣ Запускаем поиск сообщества в графе.

3️⃣ Получаем кластер доменов, связанных с кибербезопасностью.

4️⃣ Уже из них собираем тексты.

Для поиска использовался Leiden algorithm, современный алгоритм обнаружения сообществ в больших графах.

Это структурная фильтрация. Сначала находим «security-комьюнити» в интернете, а потом работаем только с ним.

⚙️ Немного инженерной реальности

Работа с графом такого масштаба это отдельный челлендж:

➖edge list вместо adjacency list

➖сотни миллионов узлов

➖миллиарды рёбер

Авторы использовали memory-mapped sparse matrix (CSR), задействовали GPU-библиотеки, разбивали граф на части через split.

Отдельная боль, как вы уже догадались, скачивание данных: 70 млн URL из S3 при лимите ~30 запросов в секунду →

⏳ 30–36 дней только на загрузку.

Поэтому они пошли рациональным путём:

не скачивать всё, а отфильтровать FineWeb-Edu по найденным URL и уложились примерно в 8 часов.

📦 Что получилось

Датасет Alpha-Root:

📎 2.8 млн URL

📚 ~3 млрд токенов

🌍 15 240 доменов

Для сравнения:

PRIMUS-FineWeb содержит около 2.57 млрд токенов,

Alpha-Root около 3 млрд токенов.

Интересный момент:

9250 доменов пересекаются с PRIMUS. Это означает, что графовый метод находит те же релевантные источники, но без анализа содержимого каждой страницы.

🧪 Обучение и проверка

В качестве базы использовалась модель SmolLM-1.7B, дообученная через LoRA с 4-битной квантизацией.

📊 Результат:

Alpha-Root показывает метрики на уровне PRIMUS, а

в ряде сценариев немного лучше. При этом сбор датасета требует меньше вычислительных ресурсов

Stay secure and read SecureTechTalks 📚

#CyberSecurity #LLM #CommonCrawl #GraphAnalytics #AIinSecurity

#DataEngineering #MMLU #DomainLLM #ThreatIntel