Датасет – 1. Набор исследуемых данных, располагаемый на нескольких компьютерах одновременно ввиду большого объема. 2. Выборка из такого массивного объема данных, созданная с целью продемонстрировать тот или иной принцип или концепцию Машинного обучения (ML):
Датасеты – основа Науки о данных (Data Science) , материал, на котором основаны все исследования. В контексте науки принято рассматривать два их типа: традиционные и Большие данные (Big Data).
Традиционные и Большие данные
Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера; это табличное представление, содержащее числовые или текстовые значения. На самом деле, эпитет «традиционный» мы вводим для ясности: это помогает подчеркнуть различия.
Большие данные, в свою очередь, массивнее, чем традиционные, как в контексте разнообразия (числа, текст, изображения, аудио, видео и проч.), так и скорости извлечения и вычисления в реальном времени, и объема (тера-, пета-, эксабайты и проч.). Большие данные обычно распределяются по компьютерной сети. Так что учебные, "игрушечные" датасеты, с помощью которых мы осваиваем модели и окололежащие особенности Машинного обучения, это метонимия (перенос наименования с одного предмета или явления на другой на основе смежности).
Виды датасетов
Наука разделяет датасеты на три категории:
Простая запись
Это самая простая форма не имеет явной связи между строками-Наблюдениями (Observation) или столбцами-Признаками (Feature) , и каждая строка имеет одинаковый набор характеристик. Данные записи обычно хранятся либо в файлах (форматы .csv, .parquet), либо в реляционных базах данных:
Существует несколько подвидов простых записей:
- Транзакционные данные: например, покупки в супермаркете. Чаще всего это двоичные признаки, указывающие, был ли предмет куплен или нет:
- Матрица данных: если все объекты в коллекции имеют один и тот же фиксированный набор числовых признаков, то последние можно рассматривать как Векторы (Vector) в многомерном пространстве. Набор таких записей можно интерпретировать как Матрицу (Matrix) m × n, где имеется m строк, по одной для каждого объекта, и n столбцов, по одной для каждого признака. Следовательно, мы можем применять стандартные матричные операции для преобразования данных и управления ими. Матрица является стандартным форматом для большинства статистических данных:
- Матрица разреженных данных (иногда также матрицей данных документа): особая разновидность матрицы данных, в которой признаки одного типа и асимметричны; т.е. важны только ненулевые значения:
Графы
- Данные со связями между объектами: отношения между объектами фиксируются связями:
- Структурированные графы: узловые компоненты взаимосвязаны друг с другом определенным образом:
Упорядоченные записи
Некоторые данные упорядочены во времени или пространстве. Их можно разделить на следующие типы:
- Последовательные данные состоят из набора отдельных объектов, таких как слова или буквы. Здесь нет временных меток; вместо этого есть позиции в упорядоченной последовательности:
- Временной ряд (Time Series) – это особый тип последовательных данных, в которых каждая запись представляет собой временной ряд, то есть серию измерений, выполненных во времени:
- Пространственные данные имеют координаты:
Атрибуты датасета
Выделяют три основные характеристики датасета:
- Размерность (Dimensionality) – это количество признаков в наборе данных. Если таковых много (т.н. "высокая размерность"), тогда проанализировать такой набор данных будет сложнее. Эту проблему называют Проклятием размерности (Curse of Dimensionality).
- Разреженность (Sparsity) – черта, характеризующая заполненность датасета, т.е. доля ячеек, заполненных ненулевыми значениями. Для некоторых наборов данных с асимметричными функциями, большинство признаков имеют значения 0; во многих случаях менее 1% записей не равны нулю:
- Разрешение (Resolution) – это возможность обнаружить то или иное явление в случае, если данные подробны ровно настолько, сколько этого требует задача. Например, изменение атмосферного давления по часам отражает перемещение циклона, причем в масштабе месяцев такие явления незаметны. В статистике это называют Парадоксом Симпсона (Simpson Paradox).
Специальные методы датасетов
Для образовательных целей, как правило, достаточно игрушечных, небольших датасетов, и некоторые библиотеки подготавливают свои наборы данных для ускорения.
Встроенный метод библиотеки Pandas read_csv() позволяет преобразовать файл в Датафрейм (Dataframe), и это один из самых распространенных способов подгрузки данных в код:
Метод позволяет также указать тип разделителя (sep = ':' ), кодировку (encoding = 'utf-8' ) и многие другие параметры загрузки.
У некоторых обширных библиотек вроде Scikit-learn также встречаются собственные методы, позволяющие быстро импортировать встроенные датасеты, прекрасно подходящие для демонстрации работы классов, функций, интерфейсов и других своих объектов.
С перечнем других встроенных наборов данных в Scikit-learn можно ознакомиться по ссылке.