729 подписчиков

Dataset в Машинном обучении простыми словами

3 февраля 20213 фев 2021

755

4 мин

Датасет – 1. Набор исследуемых данных, располагаемый на нескольких компьютерах одновременно ввиду большого объема. 2. Выборка из такого массивного объема данных, созданная с целью продемонстрировать тот или иной принцип или концепцию Машинного обучения (ML): Датасеты – основа Науки о данных (Data Science) , материал, на котором основаны все исследования. В контексте науки принято рассматривать два их типа: традиционные и Большие данные (Big Data). Традиционные и Большие данные Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера; это табличное представление, содержащее числовые или текстовые значения. На самом деле, эпитет «традиционный» мы вводим для ясности: это помогает подчеркнуть различия. Большие данные, в свою очередь, массивнее, чем традиционные, как в контексте разнообразия (числа, текст, изображения, аудио, видео и проч.), так и скорости извлечения и вычисления в реальном времени, и объема (тера-, пета-, эксабайты и проч.). Большие данные о

Оглавление

Традиционные и Большие данные
Виды датасетов
Простая запись

Датасеты – основа Науки о данных (Data Science) , материал, на котором основаны все исследования. В контексте науки принято рассматривать два их типа: традиционные и Большие данные (Big Data).

Традиционные и Большие данные

Традиционные данные структурированы и хранятся в базах, управляемых с одного компьютера; это табличное представление, содержащее числовые или текстовые значения. На самом деле, эпитет «традиционный» мы вводим для ясности: это помогает подчеркнуть различия.

Большие данные, в свою очередь, массивнее, чем традиционные, как в контексте разнообразия (числа, текст, изображения, аудио, видео и проч.), так и скорости извлечения и вычисления в реальном времени, и объема (тера-, пета-, эксабайты и проч.). Большие данные обычно распределяются по компьютерной сети. Так что учебные, "игрушечные" датасеты, с помощью которых мы осваиваем модели и окололежащие особенности Машинного обучения, это метонимия (перенос наименования с одного предмета или явления на другой на основе смежности).

Виды датасетов

Наука разделяет датасеты на три категории:

Простая запись

Это самая простая форма не имеет явной связи между строками-Наблюдениями (Observation) или столбцами-Признаками (Feature) , и каждая строка имеет одинаковый набор характеристик. Данные записи обычно хранятся либо в файлах (форматы .csv, .parquet), либо в реляционных базах данных:

Существует несколько подвидов простых записей:

Транзакционные данные: например, покупки в супермаркете. Чаще всего это двоичные признаки, указывающие, был ли предмет куплен или нет:

Матрица данных: если все объекты в коллекции имеют один и тот же фиксированный набор числовых признаков, то последние можно рассматривать как Векторы (Vector) в многомерном пространстве. Набор таких записей можно интерпретировать как Матрицу (Matrix) m × n, где имеется m строк, по одной для каждого объекта, и n столбцов, по одной для каждого признака. Следовательно, мы можем применять стандартные матричные операции для преобразования данных и управления ими. Матрица является стандартным форматом для большинства статистических данных:

Матрица разреженных данных (иногда также матрицей данных документа): особая разновидность матрицы данных, в которой признаки одного типа и асимметричны; т.е. важны только ненулевые значения:

Графы

Данные со связями между объектами: отношения между объектами фиксируются связями:

Часть графа статьи "Большие данные" на Википедии

Структурированные графы: узловые компоненты взаимосвязаны друг с другом определенным образом:

Упорядоченные записи

Некоторые данные упорядочены во времени или пространстве. Их можно разделить на следующие типы:

Последовательные данные состоят из набора отдельных объектов, таких как слова или буквы. Здесь нет временных меток; вместо этого есть позиции в упорядоченной последовательности:

Временной ряд (Time Series) – это особый тип последовательных данных, в которых каждая запись представляет собой временной ряд, то есть серию измерений, выполненных во времени:

Временной ряд энергопотребления с сезоными скачками

Пространственные данные имеют координаты:

Атрибуты датасета

Выделяют три основные характеристики датасета:

Размерность (Dimensionality) – это количество признаков в наборе данных. Если таковых много (т.н. "высокая размерность"), тогда проанализировать такой набор данных будет сложнее. Эту проблему называют Проклятием размерности (Curse of Dimensionality).
Разреженность (Sparsity) – черта, характеризующая заполненность датасета, т.е. доля ячеек, заполненных ненулевыми значениями. Для некоторых наборов данных с асимметричными функциями, большинство признаков имеют значения 0; во многих случаях менее 1% записей не равны нулю:
Разрешение (Resolution) – это возможность обнаружить то или иное явление в случае, если данные подробны ровно настолько, сколько этого требует задача. Например, изменение атмосферного давления по часам отражает перемещение циклона, причем в масштабе месяцев такие явления незаметны. В статистике это называют Парадоксом Симпсона (Simpson Paradox).

Специальные методы датасетов

Для образовательных целей, как правило, достаточно игрушечных, небольших датасетов, и некоторые библиотеки подготавливают свои наборы данных для ускорения.

Встроенный метод библиотеки Pandas read_csv() позволяет преобразовать файл в Датафрейм (Dataframe), и это один из самых распространенных способов подгрузки данных в код:

Метод позволяет также указать тип разделителя (sep = ':' ), кодировку (encoding = 'utf-8' ) и многие другие параметры загрузки.

У некоторых обширных библиотек вроде Scikit-learn также встречаются собственные методы, позволяющие быстро импортировать встроенные датасеты, прекрасно подходящие для демонстрации работы классов, функций, интерфейсов и других своих объектов.

С перечнем других встроенных наборов данных в Scikit-learn можно ознакомиться по ссылке.

Бизнес и финансы

1,13 млн интересуются