Найти тему
Властелин машин

Ключевые способы преобразования типов датафрейма

Оглавление

Соберем все ключевые способы преобразования типов данных датафрейма вместе. Для примера создадим тренировочный датафрейм:

Дата

Используйте функцию to_datetime библиотеки Pandas, в которой задается колонка и по необходимости формат данных в ней:

-2

Числовые форматы

Функция to_numeric позволяет преобразовать численный формат до ближайшего целого или дробного для экономии места (об этом чуть ниже):

-3

-4

Целое с пропусками

Если столбец с целыми числами содержит пропуски по умолчанию у него будет тип дробного. Однако в последних версиях Pandas есть специальный целочисленный формат - Int64, который позволяет иметь пропуски:

-5

Категориальный формат

Если в колонке небольшой набор значений, то для оптимизации ее можно преобразовать в категориальный формат с помощью класса Pandas - Categorical:

-6

Теперь посмотрим, насколько сокращается используемая память благодаря нашим преобразования. Сэмплируем выборку строк с возвращениями из нашего датафрейма:

-7

Теперь преобразуем типы и выведем новый размер:

-8

Как можно заметить, размер сократился почти в два раза.

-9