Найти тему

Dataset в Машинном обучении простыми словами

Оглавление
Фото: @conscious_design
Фото: @conscious_design

Датасет – 1. Набор исследуемых данных, располагаемый на нескольких компьютерах одновременно ввиду большого объема. 2. Выборка из такого массивного объема данных, созданная с целью продемонстрировать тот или иной принцип или концепцию Машинного обучения (ML):

Датасет банка о потребителях кредитных продуктов
Датасет банка о потребителях кредитных продуктов

Датасеты – основа Науки о данных (Data Science) , материал, на котором основаны все исследования. В контексте науки принято рассматривать два их типа: традиционные и Большие данные (Big Data).

Традиционные и Большие данные

Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера; это табличное представление, содержащее числовые или текстовые значения. На самом деле, эпитет «традиционный» мы вводим для ясности: это помогает подчеркнуть различия.

Большие данные, в свою очередь, массивнее, чем традиционные, как в контексте разнообразия (числа, текст, изображения, аудио, видео и проч.), так и скорости извлечения и вычисления в реальном времени, и объема (тера-, пета-, эксабайты и проч.). Большие данные обычно распределяются по компьютерной сети. Так что учебные, "игрушечные" датасеты, с помощью которых мы осваиваем модели и окололежащие особенности Машинного обучения, это метонимия (перенос наименования с одного предмета или явления на другой на основе смежности).

Виды датасетов

Наука разделяет датасеты на три категории:

Простая запись

Это самая простая форма не имеет явной связи между строками-Наблюдениями (Observation) или столбцами-Признаками (Feature) , и каждая строка имеет одинаковый набор характеристик. Данные записи обычно хранятся либо в файлах (форматы .csv, .parquet), либо в реляционных базах данных:

-3

Существует несколько подвидов простых записей:

  • Транзакционные данные: например, покупки в супермаркете. Чаще всего это двоичные признаки, указывающие, был ли предмет куплен или нет:
-4
  • Матрица данных: если все объекты в коллекции имеют один и тот же фиксированный набор числовых признаков, то последние можно рассматривать как Векторы (Vector) в многомерном пространстве. Набор таких записей можно интерпретировать как Матрицу (Matrix) m × n, где имеется m строк, по одной для каждого объекта, и n столбцов, по одной для каждого признака. Следовательно, мы можем применять стандартные матричные операции для преобразования данных и управления ими. Матрица является стандартным форматом для большинства статистических данных:
-5
  • Матрица разреженных данных (иногда также матрицей данных документа): особая разновидность матрицы данных, в которой признаки одного типа и асимметричны; т.е. важны только ненулевые значения:
-6

Графы

  • Данные со связями между объектами: отношения между объектами фиксируются связями:
Часть графа статьи "Большие данные" на Википедии
Часть графа статьи "Большие данные" на Википедии
  • Структурированные графы: узловые компоненты взаимосвязаны друг с другом определенным образом:
Граф социальной сети
Граф социальной сети

Упорядоченные записи

Некоторые данные упорядочены во времени или пространстве. Их можно разделить на следующие типы:

  • Последовательные данные состоят из набора отдельных объектов, таких как слова или буквы. Здесь нет временных меток; вместо этого есть позиции в упорядоченной последовательности:
Геном
Геном
  • Временной ряд (Time Series) это особый тип последовательных данных, в которых каждая запись представляет собой временной ряд, то есть серию измерений, выполненных во времени:
Временной ряд энергопотребления с сезоными скачками
Временной ряд энергопотребления с сезоными скачками
  • Пространственные данные имеют координаты:
Трафик аэропортов США
Трафик аэропортов США

Атрибуты датасета

Выделяют три основные характеристики датасета:

  • Размерность (Dimensionality) – это количество признаков в наборе данных. Если таковых много (т.н. "высокая размерность"), тогда проанализировать такой набор данных будет сложнее. Эту проблему называют Проклятием размерности (Curse of Dimensionality).
  • Разреженность (Sparsity) – черта, характеризующая заполненность датасета, т.е. доля ячеек, заполненных ненулевыми значениями. Для некоторых наборов данных с асимметричными функциями, большинство признаков имеют значения 0; во многих случаях менее 1% записей не равны нулю:
  • Разрешение (Resolution) – это возможность обнаружить то или иное явление в случае, если данные подробны ровно настолько, сколько этого требует задача. Например, изменение атмосферного давления по часам отражает перемещение циклона, причем в масштабе месяцев такие явления незаметны. В статистике это называют Парадоксом Симпсона (Simpson Paradox).

Специальные методы датасетов

Для образовательных целей, как правило, достаточно игрушечных, небольших датасетов, и некоторые библиотеки подготавливают свои наборы данных для ускорения.

Встроенный метод библиотеки Pandas read_csv() позволяет преобразовать файл в Датафрейм (Dataframe), и это один из самых распространенных способов подгрузки данных в код:

-12

Метод позволяет также указать тип разделителя (sep = ':' ), кодировку (encoding = 'utf-8' ) и многие другие параметры загрузки.

У некоторых обширных библиотек вроде Scikit-learn также встречаются собственные методы, позволяющие быстро импортировать встроенные датасеты, прекрасно подходящие для демонстрации работы классов, функций, интерфейсов и других своих объектов.

-13

С перечнем других встроенных наборов данных в Scikit-learn можно ознакомиться по ссылке.