Найти в Дзене

Pandas. Получение информации о данных в датафрейме.

Анализ данных — это прежде всего понимание данных. Каков их объем, размерность, характеристики. В общем все то, что описывает данные и помогает их понять называется описательными статистиками. Pandas предоставляет несколько методов помогающих понять и сделать выводы о данных содержащихся в датафрейме. Прежде всего создадим датафрейм. Датафрейм одна из основных конструкций хранений и представления данных в Pandas. Если проще, датафрейм простая таблица, имеющая столбцы (column) и строки (row). Подробнее о датафрейме Представление данных в Pandas Здесь же я буду использовать оба слова датафрейм = таблица. Вы можете загрузить датафрейм из Excel базы данных SQL или из других источников, а можете создать простой датафрейм передав в него словарь Python. Итак, создадим датафрейм. Создадим словарь, где ключи словаря будут названиями столбцов (column_1), а значения - данными таблицы. Если нам нужна однострочная таблица, то значения словаря будут одинарными, если в таблице должно быть несколько
Оглавление
Представление данных в Pandas
Дальний горизонт30 марта 2025

Анализ данных — это прежде всего понимание данных. Каков их объем, размерность, характеристики.

В общем все то, что описывает данные и помогает их понять называется описательными статистиками.

Pandas предоставляет несколько методов помогающих понять и сделать выводы о данных содержащихся в датафрейме.

Создание датафрейма

Прежде всего создадим датафрейм.

Датафрейм одна из основных конструкций хранений и представления данных в Pandas. Если проще, датафрейм простая таблица, имеющая столбцы (column) и строки (row).

Столбцы и строки Датафрейма
Столбцы и строки Датафрейма

Подробнее о датафрейме Представление данных в Pandas

Здесь же я буду использовать оба слова датафрейм = таблица.

Вы можете загрузить датафрейм из Excel базы данных SQL или из других источников, а можете создать простой датафрейм передав в него словарь Python.

Итак, создадим датафрейм.

Создадим словарь, где ключи словаря будут названиями столбцов (column_1), а значения - данными таблицы. Если нам нужна однострочная таблица, то значения словаря будут одинарными, если в таблице должно быть несколько строк, то количество этих строк определяется количеством значений списка ( [1, 2] ), который мы передаем как значение словаря. В нашем случае мы передаем в списке только два значения, соответственно и получим в таблице только две строки

dict_data = {'column_1': ['a_side', 'b_side'], 'column_2': [1, 2], 'column_3': [3.0, 4.5]}

Создаем датафрейм с именем df. Передаем словарь с данными в качестве аргумента data в метод pd.DataFrame

df = pd.DataFrame(data=dict_data)

Мы создали вот такую таблицу с данными различных типов.

Датафрейм с данными
Датафрейм с данными

info()

Начнем со стандартного и одного из самых часто употребляемых методов получения информации о датафрейме - info().

Для того чтобы применить метод к датафрейму, нужно просто написать его через точку df.info(). Сам датафрейм при этом остается неизменным. каждый информационный метод создает свой объект, который вы может присвоить какой-либо переменной.

Например так

infomaniac = df.info()

print(infomaniac)

Или стандартный путь

df.info()

Выходные данные df.info()
Выходные данные df.info()

Этот метод дает общую информацию о размерности датафрейма и типах данных, которые в нем содержатся.

RangeIndex показывает, что в нашем датафрейме содержится 2 строки от 0 до 1.

Датафрейм содержит всего 3 колонки, в которых содержатся следующие типы данных:

  • column_1 - тип данных ‘object’;
  • column_2 - тип данных ‘int64’;
  • column_3 - тип данных ‘float64’;

О типах данных здесь Представление данных в Pandas .

В каждом столбце, по два ненулевых значения (non-null), но скорее это не пустые значения, так как в определенных случаях значения 0 тоже показывается как non-null значение. Данный параметр очень удобен, когда нужно оценить количество данных по разным столбцам в датафрейме.

Всего у нас по одному столбцу с каждым типом данных.

Таблица занимает в памяти объем более 180 килобайт.

describe()

Данный метод показывает описательную статистику датафрейма. Метод демонстрирует центральную тенденцию, дисперсию и форму распределения набора данных. Важно, из расчета данных значений исключаются ячейки с отсутствующими данными - NaN.

df.describe()

Выходные данные df.describe()
Выходные данные df.describe()

count - количество значений в каждом столбце (2);

mean - средняя величина значений в каждом столбце;

std - величина стандартного отклонения данных в столбце;

min - минимальное значение данных в столбце;

25% - 25й перцентиль;

50% - 50й перцентиль, он же медиана;

75% - 75й перцентиль;

max - максимальное значение данных в столбце;

Данный тип описательной статистики характерен для числовых данных. Для объектных и временных данных статистика будет иная.

columns

df.columns

Выходные данные df.columns
Выходные данные df.columns

Возвращает индексный список столбцов датафрейма. С данным списком можно работать как с обычным списком Python (df.columns[0]). Аналогичный результат дает и метод df.keys().

index

df.index

Выходные данные df.index
Выходные данные df.index

Этот метод также возвращает индексный список, но не столбцов, а строк датафрейма.

shape

df.shape

Показывает размер датафрейма в виде кортежа Python. На первом месте количество строк, на втором количество столбцов.

memory_usage()

df.memory_usage()

Показывает использование памяти каждым столбцом. Сколько байт в памяти занимает каждый столбец.

size

df.size

Показывает количество элементов в датафрейме. Если проще, то количество строк, умноженное на количество столбцов, без учета индексов.

Теперь вы знаете как можно получить различную информацию о датафрейме. Методов получения информации о датафрейме много больше, можно получать информацию только о конкретном столбце. Если вас интересует более глубокое погружение в Pandas нужно читать официальную документацию.

Чтобы узнать еще больше об обработке данных подписывайся на канал.

Если вы что то не поняли, читайте начальные статьи:

Не хватает возможностей Excel? Возьмите Pandas!

Установка Anaconda Navigator и Jupyter lab

Представление данных в Pandas

Загрузка данных из Excel