Найти в Дзене
ЦифроПроф

Временные ряды в машинном обучении

Временные ряды (англ. time series) — это последовательности чисел на оси времени. Задача 1 Измените тип данных Datetime с object на datetime64. Но прежде запустите код и просмотрите общую информацию о данных. В документации Pandas выберите любой способ преобразования данных. Формат вывода даты указывать не нужно: библиотека определит его самостоятельно. Напечатайте на экране информацию о таблице import pandas as pd
data = pd.read_csv('/datasets/energy_consumption.csv')
data['Datetime']=pd.to_datetime(data['Datetime'])
print(data.info()) Задача 2 Установите индекс таблицы равным столбцу Datetime. В документации Pandas выберите любой способ установки индекса. import pandas as pd
data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])
print(data.info()) Задача 3 Чтобы проверить, в хронологическом ли порядке расположены даты и время, посмотрите атрибут индекса таблицы is_monotonic (англ. «монотонный»). Если порядок соблюдён, атрибут вернёт True, если нет
Фото из открытых источников
Фото из открытых источников

Временные ряды (англ. time series) — это последовательности чисел на оси времени.

Задача 1

Измените тип данных Datetime с object на datetime64. Но прежде запустите код и просмотрите общую информацию о данных.

В документации Pandas выберите любой способ преобразования данных. Формат вывода даты указывать не нужно: библиотека определит его самостоятельно.

Напечатайте на экране информацию о таблице

import pandas as pd

data = pd.read_csv('/datasets/energy_consumption.csv')
data['Datetime']=pd.to_datetime(data['Datetime'])

print(data.info())

Задача 2

Установите индекс таблицы равным столбцу Datetime. В документации Pandas выберите любой способ установки индекса.

import pandas as pd

data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])

print(data.info())

Задача 3

Чтобы проверить, в хронологическом ли порядке расположены даты и время, посмотрите атрибут индекса таблицы is_monotonic (англ. «монотонный»). Если порядок соблюдён, атрибут вернёт True, если нет False.

Отсортируйте индекс таблицы. Метод найдите в документации.

Напечатайте на экране значение атрибута is_monotonic (уже в прекоде). Затем вызовом функции info() выведите на экран общую информацию о таблице.

import pandas as pd

data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])
data.sort_index(inplace=True)
print(data.index.is_monotonic)

Задача 4

Из временного ряда выделите данные с января по июнь 2018 года.

Даты во временных рядах можно указывать в срезах. В прекоде выбраны значения с 2016 по 2017 год включительно.

import pandas as pd

data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])
data.sort_index(inplace=True)

data = data['2018-01':'2018-06']
print(data.info())

Постройте график временного ряда.

import pandas as pd

data = pd.read_csv('/datasets/energy_consumption.csv', index_col=[0], parse_dates=[0])
data.sort_index(inplace=True)
data = data['2018-01':'2018-06']
data.plot()