Найти тему
9851 подписчик

🖥 Загружай данные в 113 раз быстрее.


При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.

Для повышения скорости выполнения запросов следует переместить фильтры в движок PyArrow, чтобы использовать оптимизацию обработки PyArrow.

В приведенном ниже коде фильтрация набора данных из 100 млн строк с помощью PyArrow выполняется примерно в 113 раз быстрее, чем при использовании pandas.


🖥 Загружай данные в 113 раз быстрее.  При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.
Около минуты