Найти в Дзене

Autocorrelation в Машинном обучении простыми словами

Оглавление
Фото: Juan Davila / Unsplash
Фото: Juan Davila / Unsplash

Автокорреляция (последовательная корреляция) – сила взаимосвязи Наблюдений (Observation) во Временном ряду (Time Series). Коррелограммы – графики автокорреляции и частичной автокорреляции, широко используются при анализе и прогнозировании временных рядов.

Пример. Используем Датасет (Dataset) минимальных суточных температур за 10 лет (1981–1990) в г. Мельбурн, Австралия. Единицы измерения – градусы Цельсия, всего 3650 наблюдений. Для начала импортируем необходимые библиотеки:

-2

Получим токен Google Cloud SDK, чтобы использовать Google-таблицу:

-3

Загрузим набор данных:

-4

-5

Визуализируем данные, чтобы увидеть сезонные колебания:

-6
График набора данных минимальных суточных температур
График набора данных минимальных суточных температур

Температуры в данном случае – серия Pandas, и создается линейный график временного ряда.

Корреляция и автокорреляция

Статистическая корреляция отображает силу взаимосвязи между двумя переменными.

Мы можем предположить, что распределение каждой переменной соответствует распределению Гаусса (кривая колокола). В этом случае мы можем использовать Коэффициент корреляции Пирсона (Pearson Correlation Coefficient), чтобы суммировать корреляцию между переменными.

Коэффициент корреляции Пирсона – это число от -1 до 1, которое описывает отрицательную или положительную корреляцию соответственно. Нулевое значение указывает на отсутствие корреляции.

Мы можем вычислить корреляцию для наблюдений временного ряда, используя n-ное и (n-1)-е наблюдения. Последние еще называют лагами. Поскольку корреляция наблюдений временного ряда вычисляется со значениями того же ряда в предыдущие моменты времени, это еще называется последовательной корреляцией.

График автокорреляции временного ряда (AutoCorrelation Function – ACF) иногда называют коррелограммой. Давайте построим такой с помощью функции plot_acf() библиотеки statsmodels:

-8
Коррелограмма датасета минимальных суточных температур
Коррелограмма датасета минимальных суточных температур

При исполнении кода ячейки создается двухмерный график, демонстрирующий корреляцию между двумя временными рядами – исходным и сдвинутым на один день назад. Мы ограничили количество значений по оси x до 35, чтобы улучшить читаемость графика.

Поскольку температурная разница между 1 и 2-м июля, очевидно, небольшая, то и корреляция будет стремиться к единице (второй столбец графика слева). Но когда мы исследуем разницу температур между 1 июля и 4 августа (35 дней разницы – крайний столбец слева), коэффициент корреляции очевидно будет меньше.

Если вы хотите ознакомиться с пошаговой последовательностью построения графика автокорреляции, посмотрите обучающее видео от Brandon Rohrer.

Пошаговая процедура построения коррелограммы
Пошаговая процедура построения коррелограммы

Доверительные интервалы изображены в виде полупрозрачного голубого конуса. По умолчанию установлен доверительный интервал 95%. Если голубая точка каждого из 35 коэффициентов лежит за пределами этой фигуры, то является статистически значимой единицей.

Частичная автокорреляция

Частичная автокорреляция (Partial Autocorrelation – PACF) – это сводка отношений между наблюдением во временном ряду с наблюдениями на предыдущих временных шагах с удаленными взаимосвязями промежуточных наблюдений. Частичная автокорреляция при лаге k возникает после устранения влияния любых корреляций с более короткими лагами.

Автокорреляция для наблюдения и наблюдения на предыдущем временном шаге состоит как из прямой корреляции, так и из косвенной корреляции. Эти косвенные корреляции являются линейной функцией корреляция наблюдения с наблюдениями на промежуточных временных шагах.

Именно эти косвенные корреляции пытается устранить функция частичной автокорреляции. Построим такой график для нашего температурного датасета:

-11

При выполнении примера создается двухмерный график частичной автокорреляции для первых 50 лагов:

График частичной автокорреляции датасета минимальных суточных температур
График частичной автокорреляции датасета минимальных суточных температур

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Автор оригинальной статьи: Jason Brownlee

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курсы на Udemy.