Найти тему

Привет!


Что делать, если у нас есть файл или таблица на десятки миллионов строк и pandas начинает долго думать над операциями?

Библиотека pandas является удобным инструментом для работы с маленькими файлами и таблицами, которые можно обрабатывать в формате датафрейма. С pandas знакомы практически все аналитики (или должны быть знакомы 😉).

Однако иногда возникают задачи, где нужно обработать файлы с большим объемом данных, включающие миллионы строк записей и занимающие гигабайты памяти.

Для этой задачи можно посмотреть в сторону библиотеки datatable. Операции чтения и многие операции преобразования данных она делает быстрее модуля pandas. Например, какая-нибудь выгрузка отчета из CRM или ERP системы в формате .csv, который необходимо преобразовать и проанализировать.

Более подробно про сравнение этих двух модулей можно почитать по ссылке

Около минуты