Найти в Дзене
Big Lebowski

Термины обработки данных, которые вы должны знать

Оглавление

Чтобы построить работающую модель данных, вам необходимо понять все основы доступа к данным, их смешивания, очистки и проверки.

С общей терминологии начинается любой проект и обучение. Терминология в области науки о данных может смутить даже технических специалистов в большинстве технологических компаний. Некоторые люди могут задаться вопросом, что на самом деле означает наука о данных.

По своей сути наука о данных стремится понять вопросы « что  и почему» Эта статья призвана представить все отрасли науки о данных и объяснить ее различные этапы.

Ниже приведен краткий обзор всех терминов и методов, которые я буду рассматривать в этой статье:

Доступ к данным

  • файлы
  • Базы данных
  • Приложения
  • Облачное хранилище

смешивание ( Blending )

  • Изменение типов атрибутов
  • Переименование столбцов
  • фильтрация
  • Сортировка
  • Слияние, обрезка, замена, резка, регулировка, расщепление (Merging, Trimming, Replacing, Cutting, Adjusting, Splitting)

очистка (Clearing, Cleansing )

  • нормализация
  • Объединение данных (Binning)
  • Отсутствующие данные ( Missing Data )
  • Выпадения, всплески, выбросы ( Outliers )
  • Уменьшение размерности ( Dimensionality Reduction )
  • Подтверждение качества ( Quality Assertion )

Проверка

  • Перекрестная проверка ( Cross-Validation )
  • Сплит-валидация
  • Подтверждение начальной загрузки ( Bootstrap Validation )

ДОСТУП К ДАННЫМ

Доступ к данным - это первый шаг в любом проекте по науке о данных. Это относится к способности аналитика считывать, записывать или получать данные в базе данных или в удаленном хранилище. Человек, имеющий доступ к данным, имеет возможность хранить, извлекать, перемещать или манипулировать сохраненными данными из разных источников. Несколько примеров включают в себя выборку данных из онлайн-интерфейсов прикладного программирования (API) и ETL и доступ к ним, клонирование баз данных непосредственно с веб-сайтов и доступ к ним и т. Д. Вот несколько важных мест, где ученые данных получают доступ к данным.

  • Файлы . Файл - это просто компьютерный ресурс, созданный для записи отдельных данных. Он может использоваться для хранения информации (обычно текста или цифр). Для доступа к файлам используются две основные операции: чтение и запись. Эти операции также известны как режимы доступа. Операция чтения позволяет нам видеть и копировать данные, в то время как запись-операция позволяет редактировать и управлять содержимыми файлы. В науке о данных существует множество типов файлов, но наиболее часто используемыми являются CSV (значения, разделенные запятыми), TSV (значения, разделенные табуляцией), Excel, URL (универсальные указатели ресурсов) и XML (расширяемый язык разметки). Эти файлы загружаются с использованием инструментов Data Science, таких как Numpy, Pandas и т. Д., В зависимости от доступных режимов доступа.
  • База данных (хранилище данных, озеро данных): база данных является широко используемым термином в различных секторах. В основном используется при разработке веб-приложений. Короче говоря, база данных представляет собой организованную коллекцию данных, которые хранятся и доступны в виде таблиц. Три основные операции доступа к данным, используемые для баз данных: чтение , запись и обновление . Чтобы получать данные из различных баз данных и работать с ними, ученый должен уметь управлять соединениями с базами данных и управлять ими, выполняя различные запросы. Postgres, стандартный язык запросов (SQL), Mongo и т. д. Являются одними из наиболее часто используемых базы данных реляционные и NoSQL.
  • Приложения: Есть много приложений, которые обрабатывают и получают тонны и тонны данных каждый день. Эти приложения опять-таки имеют много разных типов, и данные, извлекаемые с их помощью, сильно различаются. Несколько примеров включают такие инструменты, как Salesforce, Hubspot и социальные сети, такие как Twitter и Facebook. Мы можем напрямую получать данные с помощью API или запрашивая их с помощью метода HTTP (HyperText Transfer Protocol), такого как GET или PUT . Операции здесь одинаковы: они позволяют читать , записывать , обновлять и удалять данные.
  • Облачное хранилище. Облачное хранилище представляет собой сложную модель обслуживания, которая позволяет хранить, поддерживать и управлять данными. У них есть несколько методов и альтернатив резервного копирования, которые помогают пользователям получать удаленный доступ к данным по сети. Облако - это лучшее место для работы и сохранения ваших проектов в области науки о данных, особенно при работе со сложными и большими наборами данных. Вы можете напрямую и удаленно работать с вычислениями данных и операциями в облаке. Наиболее конкурентоспособные сервисы облачного хранения для технически подкованных включают AWS S3 (Amazon Web Services), Google Storage и Dropbox. Эти услуги на рынке самые дешевые, быстрые и надежные.

Этот был раздел был о том, где  и как  данные хранятся и управляются. Но как нам организовать данные, когда они будут доступны? Давайте перейдем к следующему этапу - смешиванию .

СМЕШИВАНИЕ ( data blending )

Как следует из слова, смешивание данных - это процесс объединения данных из нескольких источников в правильно функционирующий набор данных. Это позволяет нашим данным быть менее избыточными и более удобными для работы. Используя методы смешивания, мы можем значительно упростить процесс анализа и анализа.

Три основные цели смешивания данных:

  • Обеспечить более интеллектуальные решения путем извлечения данных из нескольких источников.
  • Сократите количество времени, которое требуется ученым, чтобы выполнить аналитику.
  • Использование лучших процессов принятия решений по всей компании.

Есть несколько методов, необходимых для выполнения смешивания. Вот они, один за другим:

  • Изменение типов атрибутов. Изменение типа атрибута в наборе данных помогает нам преобразовать данные в полезную и функциональную информацию. Это также настраивает вычисления, чтобы сделать их быстрее и точнее. Например, если мы хотим, чтобы наши данные были округлены до ближайшего числа, изменение типа было бы быстрым и простым способом для выполнения этой операции. Вот несколько преобразований типов данных, которые часто используются: Float to Integer,  Real to Numeric, Numeric to Date, Text to Nominal.
  • Переименование столбцов. Данные могут иметь разные соглашения об именах для различных функций. Мы можем использовать эту технику для переименования набора атрибутов путем замены частей имен атрибутов указанной заменой. Например, рассмотрим два столбца: один называется «начальная широта, долгота», а другой - «конечная широта, долгота». В этом случае мы можем построить один столбец с именем просто «расстояние».
  • Фильтрация. Фильтрация данных - это процесс использования более мелких фрагментов или подмножеств в большом наборе данных. Это временный метод, который в основном используется для целей тестирования, если вычислительная мощность мала. Как только реализация будет выполнена для отфильтрованных данных, те же сценарии / логика будут использоваться в исходном наборе данных.
  • Сортировка. Сортировка - это простая техника смешивания, которая упорядочивает данные в упорядоченном порядке, либо в порядке возрастания, либо в порядке убывания. Полный набор данных затем должен быть отсортирован по одному значению. Это обеспечивает оперативную статистику о минимальных, максимальных и наиболее частых / наименее частых значениях, присутствующих в наборе данных.
  • Слияние, обрезка, замена, обрезка, настройка и разделение. Все эти операции основаны на соглашениях об именах.
  • Слияние: Эта операция просто объединяет два номинальных значения указанных постоянных атрибутов.
  • Обрезка: Обрезка удаляет начальные и конечные пробелы из заданных данных.
  • Замена: Вы можете быстро заменить определенное значение. Например, вы можете заменить все значения NaN (не число) цифрами.
  • Вырезание : Вырезание позволяет нам извлечь подстроку, которая является частью значений набора данных.
  • Корректировка : корректирует данные в указанном атрибуте, добавляя или вычитая указанное значение.
  • Разделение: Разделение относится к формулированию новых атрибутов из заданного набора номинальных атрибутов путем указания режима разделения. В качестве примера рассмотрим случай, когда у нас есть следующие данные:
  • Чтобы распределить эти данные по двум столбцам симметрично, мы бы хотели разделить данные по двум атрибутам. Таким образом, неупорядоченное разбиение, указывающее на наличие двух возможных значений (запрос и ответ), может быть выполнено следующим образом:
-2

ОЧИЩЕНИЕ, ОЧИСТКА

Очистка данных - это процесс очистки или исправления неточных записей в заданном наборе данных. Это один из важных шагов перед созданием любого алгоритма машинного обучения. Существует несколько методов очистки данных: удаление неважных значений, обновление неверных значений и заполнение пропущенных значений. Очистка данных не только очистит набор данных, но также обеспечит высокую эффективность полученных алгоритмов. Существует множество фреймворков и библиотек, в которых предварительно установлены методы очистки. Тем не менее, полезно знать различные функциональные возможности на случай, если вам когда-нибудь понадобится построить свои собственные модели. Самые популярные методы включают в себя:

  • Нормализация: Нормализация используется для ограничения значений конкретным диапазоном. Например, рассмотрим три значения: [100, 200, 300]. Мы можем разделить эти значения на 100, чтобы они поместились в диапазоне 0-10. Результирующий нормализованный список будет [1, 2, 3]. Это один из самых популярных методов очистки, который используется каждым аналитиком, прежде чем применять машинное обучение / глубокое обучение к любой модели. Это может использоваться с любым типом данных независимо от размера набора данных.
  • Биннинг (группировка) данных - это метод предварительной обработки данных, который уменьшает незначительные ошибки наблюдения. Метод позволяет сгруппировать несколько более или менее непрерывных значений в меньшее количество «бинов». Например, если у вас есть данные о группе людей, вы можете сгруппировать их возраст в меньшее количество возрастных интервалов. Числовые столбцы также можно временно сгруппировать, щелкнув правой кнопкой мыши по селектору столбцов и выбрав столбец
  • В этом методе мы используем ячейки, чтобы заменить исходные данные данными. Эти ячейки представляют интервалы исходных данных, часто имеющих общее центральное значение. Рассмотрим случай, когда вы хотите оформить корзину обуви в зависимости от их цены. В этом случае мы можем делать ставки на каждое повышение цены на 500 долларов; обувь, которая упадет ниже 500 долларов, будет организована в одну корзину, а обувь в диапазоне от 500 до 1000 долларов - в другую корзину и так далее.
  • Отсутствующие данные . В процессе очистки данных обработка пропущенных значений является одним из наиболее важных шагов. Ниже приведены несколько операций или шагов, которые мы можем выполнить, чтобы справиться с отсутствующими значениями:
  • Замена отсутствующих значений.
  • Полное удаление пропущенных значений (удаление кортежей).
  • Заполнение пропущенных значений константами.
  • Выбросы: выбросы - это экстремальные значения, которые отличаются от других наблюдений в данных. Обнаружение выбросов является мощным средством обнаружения изменчивости измерений, а также ошибок эксперимента. Ниже приведены несколько метрик для расчета выбросов:
  • Расстояние:  на основе расстояния между точками данных можно было бы сделать предположение о том, действительно ли точки данных дополняют рассматриваемые данные. Когда фактические метрики расстояния будут учтены, мы сможем отфильтровать и удалить не очень полезные точки данных или просто выбросы.
  • Плотность: когда малочисленные, "малонаселенные" данные присутствуют вместе с плотно заполненными данными, мы можем сказать, что разреженные данные не вносят вклад в фактические данные. Они также могут быть ответственны за отклонение моделей машинного обучения от правильного пути. Таким образом, разреженные точки данных считаются выбросами.
  • Уменьшение размерности. Уменьшение размерности помогает уменьшить количество объектов в данном наборе данных. Например, если у вас есть три объекта, мы обычно представляем их в трехмерном пространстве. Чтобы уменьшить количество элементов до двух, мы немного изменим ось и поместим их в двумерное пространство. Есть два основных компонента в уменьшении размерности, которые помогают уменьшить количество функций в наборе данных; они являются отбором признаков и выделение общих признаков (фичей).

    Примеры включают в себя:
  • PCA - Анализ основных компонентов
  • LDA - линейный дискриминантный анализ
  • GDA - Обобщенный Дискриминантный Анализ
  • T-SNE - t-распределенное стохастическое вложение соседей 
  • Подтверждение качества данных: Утверждение качества является процесс оценки данных на основе нескольких правил. Эти правила включают в себя спецификацию нулевых значений (может ли значение быть пустым), ненулевые значения (не должно ли значение быть пустым в любое время), атрибуты, сопоставление домена (независимо от того, отображаются ли данные в конкретный домен) и т. Д. ,

ПРОВЕРКА

Проверка данных - это метод, который используется до моделирования алгоритма машинного обучения. Это позволяет специалисту по данным проверять правильность выбранной модели машинного обучения, прежде чем данные будут отправлены в алгоритм. Это может быть выполнено для любого набора данных, включая простые листы Excel. Основная цель проверки данных заключается в создании согласованных, точных и полных данных, чтобы предотвратить потерю данных и ошибки при построении модели.

  • Перекрестная проверка: используется для оценки производительности модели. Он состоит из двух операций: обучение и тестирование . Данные обучения делятся на n подмножеств. n-1 подмножества используются для обучения, а одно подмножество используется для проверки производительности модели. Затем процесс перекрестной проверки повторяется n раз, когда каждое из подмножеств выступает в качестве тестовых данных. Результаты n усредняются, чтобы получить окончательную оценку производительности модели.
  • Проверка разделения: данные разделяются таким образом, чтобы определенный набор точек данных использовался для обучения, а остальные - для тестирования. Этот процесс обеспечивает приблизительную точность оценки модели машинного обучения.
  • Bootstrap Validation: проверка начальной загрузки первичных данных продвигает логику, лежащую в основе проверки разделения (данные обучения и тестирования) и основную сущность перекрестной проверки. В отличие от перекрестной проверки, он выбирает выборки (точки данных) из данных с заменой, что означает, что загруженный набор данных может содержать несколько экземпляров одного и того же класса. Это означает, что все выборки имеют одинаковую вероятность выбора. В конечном счете, этот метод позволяет более рандомизировать и перетасовывать данные, а это означает, что меньше шансов стать предвзятым к конкретному классу данных.

РЕЗЮМЕ

Предварительная обработка данных прокладывает путь для построения надежных моделей машинного обучения. Чтобы углубиться в области науки о данных, нужно обзорно знать и привыкнуть ко всем методам обработки, которыми можно манипулировать данными, чтобы получить их наиболее удобную форму. Как обсуждалось, эти методы можно было бы в целом разделить на четыре основные категории: легкий доступ к данным, доступным в различных форматах, смешивание данных для получения сложного представления всего куска данных, очистка данных, чтобы избавиться от нежелательных точек данных, и проверка данных для проверки их правильности.

Эти концепции будут использоваться при построении моделей данных. Вы также можете реализовать эти концепции, используя их на любом конкретном языке программирования.