Найти в Дзене

Специалисты SentinelOne Labs опубликовали глубокое исследование о том, как превратить тонны неструктурированных отчетов о киберугрозах в

структурированные и понятные для машин данные. В чем проблема? Современная киберразведка (CTI) тонет в текстах. Отчеты об атаках пишутся людьми для людей. Чтобы извлечь из них пользу (связи между хакерами, вредоносным ПО и инфраструктурой), аналитикам приходится вручную переносить данные в базы. Традиционные методы автоматизации (RegEx или старые NLP-модели) часто пасуют перед сложностью и контекстом киберугроз. Решение: LLM как мост к Графам Знаний (Knowledge Graphs) Авторы предлагают использовать большие языковые модели для автоматического извлечения сущностей и отношений. Ключевые выводы исследования: 1. Извлечение сущностей и связей: LLM способны идентифицировать не только объекты (IP-адреса, названия группировок, типы малвари), но и сложные семантические связи между ними (например, «Группировка А использует Вредонос Б для атаки на Сектор В»). 2. Schema-Driven Extraction: Чтобы модель не «галлюцинировала», используется жесткая схема (ontology). Это позволяет стандартизировать

Специалисты SentinelOne Labs опубликовали глубокое исследование о том, как превратить тонны неструктурированных отчетов о киберугрозах в структурированные и понятные для машин данные.

В чем проблема? Современная киберразведка (CTI) тонет в текстах. Отчеты об атаках пишутся людьми для людей. Чтобы извлечь из них пользу (связи между хакерами, вредоносным ПО и инфраструктурой), аналитикам приходится вручную переносить данные в базы. Традиционные методы автоматизации (RegEx или старые NLP-модели) часто пасуют перед сложностью и контекстом киберугроз.

Решение: LLM как мост к Графам Знаний (Knowledge Graphs) Авторы предлагают использовать большие языковые модели для автоматического извлечения сущностей и отношений.

Ключевые выводы исследования:

1. Извлечение сущностей и связей: LLM способны идентифицировать не только объекты (IP-адреса, названия группировок, типы малвари), но и сложные семантические связи между ними (например, «Группировка А использует Вредонос Б для атаки на Сектор В»).

2. Schema-Driven Extraction: Чтобы модель не «галлюцинировала», используется жесткая схема (ontology). Это позволяет стандартизировать данные (например, в формат STIX), делая их пригодными для интеграции в системы защиты (SIEM/SOAR).

3. Граф vs Текст: Превращение текста в граф (например, в Neo4j) позволяет аналитикам видеть «невидимые» связи. Если два разных отчета упоминают один и тот же C2-сервер, в графе это сразу подсветит пересечение интересов разных группировок.

4. Эффективность: Использование LLM (даже через RAG-архитектуру) на порядки ускоряет обработку данных и снижает порог входа для младших аналитиков.

Мы переходим от эпохи «чтения отчетов» к эпохе «запросов к графам». Вместо того чтобы перечитывать 50 PDF-файлов, аналитик сможет спросить систему: «Какие субъекты угроз использовали уязвимости нулевого дня в финансовом секторе за последние полгода?» — и получить мгновенный визуальный ответ.

Но есть и минусы. О них в следующем посте.

@gostev_future