Deductor Studio: предобработка данных

При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается. Для проведения предобработки данных, а также первичной работе с данными предназначен этот материал.

При подготовки материала использовалась литература:

Поллак, Г.А. Современные технологии анализа информации: учебное пособие к практическим работам / Г.А. Поллак– Челябинск: Издательский центр ЮУрГУ, 2013. – 99 с.

Для предобработки данных необходимо (см. рис. ниже):

  • изучить и предварительно проанализировать имеющуюся статистику по набору данных,
  • определить, имеются ли дубликаты и противоречия в наборах данных, если имеются, осуществить предварительную предобработку данных,
  • определить, имеются ли пропущенные данные, если необходимо, осуществить заполнение пропусков (вручную или автоматически),
  • выявить наличие выбросов, удалить их из набора данных,
  • осуществить фильтрацию, если необходимо, или нормирование набора данных.
При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.

Рассмотрим процесс оценки качества данных в Deductor Studio на конкретном примере.

Этап 1. Импортирование данных.

При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-2
При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-3

Этап 2. Устранение дубликатов и противоречий.

При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-4
При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-5
При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-6

Этап 3. Обработка пропусков.

При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-7
При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-8
При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-9

Этап 4. Проведение фильтрации.

При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-11
При работе с нейронными сетями важнейшим является качество тех данных, на которых нейронная сеть обучается.-12

Полученный предобработанный набор данных можно использовать для работы с нейронной сетью. см.