Найти тему

Deductor Studio: предобработка данных

При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается. Для проведения предобработки данных, а также первичной работе с данными предназначен этот материал.

При подготовки материала использовалась литература:

Поллак, Г.А. Современные технологии анализа информации: учебное пособие к практическим работам / Г.А. Поллак– Челябинск: Издательский центр ЮУрГУ, 2013. – 99 с.

Для предобработки данных необходимо (см. рис. ниже):

  • изучить и предварительно проанализировать имеющуюся статистику по набору данных,
  • определить, имеются ли дубликаты и противоречия в наборах данных, если имеются, осуществить предварительную предобработку данных,
  • определить, имеются ли пропущенные данные, если необходимо, осуществить заполнение пропусков (вручную или автоматически),
  • выявить наличие выбросов, удалить их из набора данных,
  • осуществить фильтрацию, если необходимо, или нормирование набора данных.

Рассмотрим процесс оценки качества данных в Deductor Studio на конкретном примере.

Этап 1. Импортирование данных.

-2
-3

Этап 2. Устранение дубликатов и противоречий.

-4
-5
-6

Этап 3. Обработка пропусков.

-7
-8
-9

Этап 4. Проведение фильтрации.

-11
-12

Полученный предобработанный набор данных можно использовать для работы с нейронной сетью. см.