Соберем все ключевые способы преобразования типов данных датафрейма вместе. Для примера создадим тренировочный датафрейм:
Дата
Используйте функцию to_datetime библиотеки Pandas, в которой задается колонка и по необходимости формат данных в ней:
Числовые форматы
Функция to_numeric позволяет преобразовать численный формат до ближайшего целого или дробного для экономии места (об этом чуть ниже):
Целое с пропусками
Если столбец с целыми числами содержит пропуски по умолчанию у него будет тип дробного. Однако в последних версиях Pandas есть специальный целочисленный формат - Int64, который позволяет иметь пропуски:
Категориальный формат
Если в колонке небольшой набор значений, то для оптимизации ее можно преобразовать в категориальный формат с помощью класса Pandas - Categorical:
Теперь посмотрим, насколько сокращается используемая память благодаря нашим преобразования. Сэмплируем выборку строк с возвращениями из нашего датафрейма:
Теперь преобразуем типы и выведем новый размер:
Как можно заметить, размер сократился почти в два раза.