9851 подписчик
🖥 Загружай данные в 113 раз быстрее.
При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.
Для повышения скорости выполнения запросов следует переместить фильтры в движок PyArrow, чтобы использовать оптимизацию обработки PyArrow.
В приведенном ниже коде фильтрация набора данных из 100 млн строк с помощью PyArrow выполняется примерно в 113 раз быстрее, чем при использовании pandas.
Около минуты
6 октября 2023