Работая с большими таблицами, зачастую сталкиваешься с задачей группировки записей по некоторым признакам с последующим подсчетом для каждого набора некоторых описательных статистик. Как делить данные я рассказывал ранее, поэтому остановлюсь на вычислении агрегированных показателей для групп. В демонстрационных целях будем использовать набор объявлений о продажах квартир в Республике Северная Осетия-Алания, имеющий следующий вид: Разобьем сведения об общей площади как рассказывалось в предыдущей статье на группы, различающихся в 5 кв.м., начиная от 10. А затем проиндексируем записи группой площади, к которой они относятся и временем публикации: # устанавливаем date_time в качестве индекса
df = df.set_index(['date_time'])
# преобразуем в подневный период (отбрасываем время)
df = df.to_period('D')
# формируем список границ площадей и создаем столбец, задающий для каждой квартиры полуинтервал площадей, к которому она относится
sqs = np.hstack([np.arange(10,140,5),np.array([1000])])