Несколько простых рекомендаций работы с индексами датафрейма помогут сэкономить значительную часть памяти и, возможно, приведут к повышению скорости его обработки. Создадим два датафрейма и посмотрим, какие индексы для них создает система: Конструкция RangeIndex обозначает границы индекса и шаг. Она предназначена для экономии памяти и ускорения работы с датафреймом. Однако, если создавать индексы вручную и проводить с ними операции система создает более тяжеловесную конструкцию Int64Index и др. Например, вот индекс после конкатенации наших массивов: Если мы создадим аналогичные индексы сами, все равно получим Int64Index. При этом, даже если они будут идти последовательно, при конкатенации не будет присвоен RangeIndex: А вот индекс можно сбросить и так получить конструкцию RangeIndex: Того же эффекта можно достичь при конкатенации, если в методе указать параметр ignore_index=True: Теперь сгенерируем большие датафреймы и посмотрим, как влияет тип индекса на память: Если же конкатенироват
Прожорливость индексов датафрейма, о которой следует знать каждому
13 марта 202213 мар 2022
5
1 мин