Я больше не верю публичным датасетам
• Исследователи MIT обнаружили до 10% ошибок в разметке популярных датасетов для обучения нейросетей.
• Автор статьи рассказывает о своем опыте работы с публичными датасетами для анализа сетевого трафика и машинного обучения моделей обнаружения компьютерных атак.
• В 2019 году автор и его коллеги использовали датасет CICIDS2017 для обучения модели обнаружения атак.
• CICIDS2017 был выбран из-за его цитируемости в академических работах и доступности.
• В статье обсуждаются проблемы датасета CICIDS2017, такие как дублирование признаков, нулевые значения идентификаторов сессий, нечисловые значения признаков и некорректное завершение сессий.
• Автор подчеркивает необходимость верификации данных и призывает к открытому общению с сообществом для исправления ошибок в датасетах.
• В заключение автор говорит о важности хороших данных для построения хороших классификаторов и анонсирует новый инструмент разметки NetFlowLyzer для решения проблем CICFlowMeter.
Подробнее читайте по ссылке https://habr.com/ru/companies/isp_ras/articles/829506/