Источник: Nuances of Programming Исследователям данных часто приходится работать с достаточно объемными наборами данных, которые трудно обработать компьютеру. Эта проблема не нова и, как и любая другая, не имеет универсального решения. Лучший выход из положения будет зависеть от конкретных данных и задач приложения. И все же попытаемся выделить из три наиболее оптимальных решения. 1. Сокращение используемой памяти путем оптимизации типов данных При загрузке данных с использованием Pandas типы определяются автоматически (если не указана иная задача). В большинстве случаев этот подход работает отлично, но выводимый тип не обязательно будет оптимизирован. Более того, если числовой столбец содержит отсутствующие значения, то автоматически вычисляемый тип будет float. Недавно я использовала этот метод для анализа в основном целочисленных типов данных, представляющих годы, месяцы и дни: В данном случае определение типов данных привело к значительному сокращению используемой памяти. Обратите
Как работать с большими наборами данных в Python: 3 способа
23 января 202223 янв 2022
142
3 мин