🧠 NER в кибераналитике: как данные путают модели Новое исследование поставило под сомнение ключевую гипотезу: что больше данных — это всегда лучше. Спойлер: нет. 📌 В чём суть? Модели для распознавания сущностей (NER), обученные на кибербезопасных датасетах, резко теряют точность, если объединить разные наборы данных. Потери достигают -27% по F1-score. Причина — противоречия в аннотациях: в одном датасете Google — это компания, в другом — система. ⚔️ Суть проблемы Исследователи объединили 4 популярных датасета из кибердомена: - APTNER — отчёты по APT-группам, 260K токенов, 21 тип сущности - CYNER — отчёты threat intelligence, 107K токенов, 5 сущностей - DNRTI — данные из GitHub и госструктур, 175K токенов, 13 сущностей - ATTACKER — блоги исследователей, 79K токенов, 18 сущностей После унификации все сущности были сведены к 4 основным классам: 🟩 Organization 🟧 System 🟥 Vulnerability 🟦 Malware Но… оказалось, что одни и те же слова аннотированы по-разному: • Linux в одном случ