10,9 тыс подписчиков

📝Анализ данных временных рядов: 5 советов Data Scientist’у

31 марта 202231 мар 2022

1 мин

Одна из самых распространенных ошибок в анализе данных временных рядов, которую совершают новички – это предположение, что данные имеют регулярные точки и не содержат пропусков. На практике это обычно не подтверждается и приводит к неверным результатам. В реальных датасетах часто отсутствуют точки данных, а имеющиеся расположены неравномерно или непоследовательно. Поэтому перед анализом данных временных рядов следует провести этап предварительной подготовки: • Понять временной диапазон и детализацию временного ряда по точкам данных с помощью визуализации датасета; • Сравнить фактическое количество тактов в каждом временном ряду с количеством ожидаемых тактов в зависимости от интервала между точками и общей длины временного ряда. Это соотношение иногда называют коэффициентом заполнения, равным разнице между максимальной и минимальной временной меткой, деленной на интервал между точками. Если это значение намного меньшее 1, то пропущено очень много данных. • Отфильтровать серии с низким

• Понять временной диапазон и детализацию временного ряда по точкам данных с помощью визуализации датасета;

• Сравнить фактическое количество тактов в каждом временном ряду с количеством ожидаемых тактов в зависимости от интервала между точками и общей длины временного ряда. Это соотношение иногда называют коэффициентом заполнения, равным разнице между максимальной и минимальной временной меткой, деленной на интервал между точками. Если это значение намного меньшее 1, то пропущено очень много данных.

• Отфильтровать серии с низким коэффициентом заполнения, установив ограничение, например, в 40% или то, что подходит для конкретной задачи.

• Стандартизировать интервал между отметками во временных рядах за счет повышения дискретизации до более детального разрешения.

• Заполнить пропуски с повышенной дискретизацией, используя соответствующий метод интерполяции, например, на основе последнего известного значения или линейной/квадратичной интерполяции. В Apache Spark для этого можно использовать метод applyInPandas в сгруппированном датафрейме PySpark, под капотом которого pandasUDF, производительность которой намного выше простых UDF-функций за счет более эффективной передачи данных через Apache Arrow и вычислений через векторизацию Pandas.

https://towardsdatascience.com/a-common-mistake-to-avoid-when-working-with-time-series-data-eedf60a8b4c1

t.me

Machinelearning

вв

Наука

7 млн интересуются