Найти в Дзене
ЦифроПроф

Разности временного ряда. Задача прогнозирования

Разности временного ряда (англ. time series difference) — это набор разностей между соседними элементами временного ряда, т. е. из каждого значения вычитается предыдущее. Для поиска разностей временного ряда применяется метод shift() (англ. «сдвиг»). Все значения он сдвигает вдоль временной оси на один шаг вперёд Задача Вычислите разности временного ряда. Пропущенные значения заполнять не нужно. На графике изобразите скользящее среднее и скользящее стандартное отклонение import pandas as pd
data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])
data.sort_index(inplace=True)
data = data['2018-01':'2018-06'].resample('1D').sum()
data=data['2018-01':'2018-06']-data.shift()
data['mean'] = data['PJME_MW'].rolling(15).mean()
data['std'] = data['PJME_MW'].rolling(15).std()
data.plot() Задача прогнозирования временного ряда состоит в построении модели, которая по историческим данным предскажет будущие значения временного ряда. Промежуток времени в будущем, на к
Фото из открытых источников
Фото из открытых источников

Разности временного ряда (англ. time series difference) — это набор разностей между соседними элементами временного ряда, т. е. из каждого значения вычитается предыдущее.

Для поиска разностей временного ряда применяется метод shift() (англ. «сдвиг»). Все значения он сдвигает вдоль временной оси на один шаг вперёд

Задача

Вычислите разности временного ряда. Пропущенные значения заполнять не нужно.

На графике изобразите скользящее среднее и скользящее стандартное отклонение

import pandas as pd

data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])
data.sort_index(inplace=True)
data = data['2018-01':'2018-06'].resample('1D').sum()
data=data['2018-01':'2018-06']-data.shift()
data['mean'] = data['PJME_MW'].rolling(15).mean()
data['std'] = data['PJME_MW'].rolling(15).std()
data.plot()

Задача прогнозирования временного ряда состоит в построении модели, которая по историческим данным предскажет будущие значения временного ряда.

Промежуток времени в будущем, на который строится прогноз, называется горизонтом прогнозирования (англ. forecast horizon). В задачах этой темы он будет равен одному шагу.

Задача

Разбейте датасет о потреблении электроэнергии на обучающую и тестовую выборки в соотношении 4:1. Возьмите данные за доступное время.

Напечатайте на экране минимальные и максимальные значения индексов выборок. Они нужны, чтобы убедиться в корректности деления.

import pandas as pd
from sklearn.model_selection import train_test_split

data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])
data.sort_index(inplace=True)
data = data.resample('1D').sum()

train, test = train_test_split(data, shuffle=False, test_size=0.2)

print(train.index.min(), train.index.max())
print(test.index.min(), test.index.max())