76 подписчиков
Привет!
Что делать, если у нас есть файл или таблица на десятки миллионов строк и pandas начинает долго думать над операциями?
Библиотека pandas является удобным инструментом для работы с маленькими файлами и таблицами, которые можно обрабатывать в формате датафрейма. С pandas знакомы практически все аналитики (или должны быть знакомы 😉).
Однако иногда возникают задачи, где нужно обработать файлы с большим объемом данных, включающие миллионы строк записей и занимающие гигабайты памяти.
Для этой задачи можно посмотреть в сторону библиотеки datatable. Операции чтения и многие операции преобразования данных она делает быстрее модуля pandas. Например, какая-нибудь выгрузка отчета из CRM или ERP системы в формате .csv, который необходимо преобразовать и проанализировать.
Более подробно про сравнение этих двух модулей можно почитать по ссылке
Около минуты
8 октября 2022