Идея обнаружения по похожести не нова. Определенным образом от ВПО вычисляются неточные (фаззи) хеши, образцы, имеющие одинаковые хеши, считаются похожими. Есть масса хешей, например, SSDeep, а также у любого антивирусного вендора есть свои запатентованные хеши, работающие с разным качеством для разных типов файлов. Но качество уже позволяет переводить такие детекты в боевой режим, поэтому нарратив о том, что если EPP обнаруживает малвару, то образец должен обязательно быть в коллекции, уже давно неправда даже в сценарии без поведенческого детектирования. У ЛК есть еще KTAE, которая смотрит на более широкую совокупность параметров, и на выходе выдает аналогичный similarity результат - % похожести на известное зло. Но эпоха ML/DL открывает новые возможности для развития детектов по similarity. Например, можно с помощью графовых нейросетей (GNN) анализировать графы потока управления (Control Flow Graphs, CFG) и графы вызова функций (Function Call Graphs, FCG). В работе A Comparison of Gr