Датафрейм – это двумерная структура данных со столбцами и строками. Это специальный аналог таблицы Excel или SQL – наборе Серий (Series) и наиболее часто используемый объект библиотеки Pandas:
Наряду с данными вы можете дополнительно передать индекс – столбец с уникальными значениями, однозначно идентифицирующими каждое Наблюдение (Observation) .
Многие знают датафрейм как способ хранения данных в прямоугольных сетках, которые можно легко просмотреть. Каждая строка этой сетоки соответствует отдельному наблюдению, а каждый столбец – это Признак (Feature) . Cтроки датафрейма могут содержать значения разных типов: они могут быть числовыми, символьными, Булевыми (Boolean Data Type) и так далее. Можно сказать, что датафрейм состоит из трех основных компонентов: данных, индекса и столбцов.
Инициализация датафрейма
Первый из способов создания датафрейма – метод библиотеки Pandas read_csv():
Еще один способ – создать его из нескольких серий:
Способов инициализации великое множество – от передачи Списков (List) до создания Кортежей (Tuples) и превращения их в списки.
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.