https://t.me/machine_learning_explained 7-минутная статья о том, как разбивать данные на train-validation-test сеты, если данные - это временные ряды. Вкратце, разбивать надо вдоль оси времени. То есть, тренировочные данные идут хронологически до валидационных. Валидационные до тестовых. Потому что модель не должна иметь никакую информацию о будущем. В статье есть очень понятные картинки о том, как именно разбивать...
В современных компаниях SIEM-системы ежедневно обрабатывают миллионы событий из разных источников. По статистике коллектив из 100 человек способен сгенерировать более 3000 входов Active Directory, а одна (!) работающая в штатном режиме VMware – порядка 4 млн событий в день. Чтобы выделить в потоке действительно значимые инциденты, в SIEM есть кросс-корреляция – сопоставление событий из разных источников, которые в совокупности говорят об угрозе. Обычно правила кросс-корреляции требуют программирования...