Я больше не верю публичным датасетам

11 июля11 июл

~1 мин

• Исследователи MIT обнаружили до 10% ошибок в разметке популярных датасетов для обучения нейросетей.

• Автор статьи рассказывает о своем опыте работы с публичными датасетами для анализа сетевого трафика и машинного обучения моделей обнаружения компьютерных атак.

• В 2019 году автор и его коллеги использовали датасет CICIDS2017 для обучения модели обнаружения атак.

• CICIDS2017 был выбран из-за его цитируемости в академических работах и доступности.

• В статье обсуждаются проблемы датасета CICIDS2017, такие как дублирование признаков, нулевые значения идентификаторов сессий, нечисловые значения признаков и некорректное завершение сессий.

• Автор подчеркивает необходимость верификации данных и призывает к открытому общению с сообществом для исправления ошибок в датасетах.

• В заключение автор говорит о важности хороших данных для построения хороших классификаторов и анонсирует новый инструмент разметки NetFlowLyzer для решения проблем CICFlowMeter.

Подробнее читайте по ссылке https://habr.com/ru/companies/isp_ras/articles/829506/