Найти в Дзене

День 179. Основы анализа данных и Python. Машинное обучение и Data Science.

Исследовательский анализ данных Найти все уникальные значения (то есть без повторов) можно специальным методом unique() из библиотеки pandas. Он выведет перечень уникальных значений в столбце State. Считать значения вручную тоже не придётся — для этого есть метод nunique(). Он выведет количество уникальных значений в столбце. Что делать, если мы хотим отобрать данные за определённый год, но порядковых номеров не знаем? Выход — добавить условие. Такой приём в pandas называют логической индексацией. Покажем на практике. Выберем все значения из столбца Production, для которых год (столбец Year) равен 2018: Данные по всем штатам. Агрегированные данные Объединить данные в такие группы поможет метод groupby() из библиотеки pandas. Метод groupby() чаще всего сочетают с другими командами, например, с sum() — этот метод посчитает сумму значений в каждой группе. Модель предсказания Сдвинуть столбец на одно значение вперёд поможет метод shift(). Он сдвигает значения в столбце на указанное колич

Исследовательский анализ данных

Найти все уникальные значения (то есть без повторов) можно специальным методом unique() из библиотеки pandas. Он выведет перечень уникальных значений в столбце State.

-2

Считать значения вручную тоже не придётся — для этого есть метод nunique(). Он выведет количество уникальных значений в столбце.

-3

Что делать, если мы хотим отобрать данные за определённый год, но порядковых номеров не знаем? Выход — добавить условие. Такой приём в pandas называют логической индексацией. Покажем на практике. Выберем все значения из столбца Production, для которых год (столбец Year) равен 2018:

-4
-5

Данные по всем штатам. Агрегированные данные

Объединить данные в такие группы поможет метод groupby() из библиотеки pandas. Метод groupby() чаще всего сочетают с другими командами, например, с sum() — этот метод посчитает сумму значений в каждой группе.

-6
-7

Модель предсказания

Сдвинуть столбец на одно значение вперёд поможет метод shift(). Он сдвигает значения в столбце на указанное количество шагов вперёд. Например, команда shift(1) сдвинет значения в столбце на один шаг.

Ошибки предсказаний

Удалить пропущенные значения из столбца можно с помощью метода dropna(). Пример error_acres = error_acres.dropna()

Как выразить ошибки одним числом

Среднее арифметическое всех отклонений по модулю — это среднее абсолютное отклонение. На английском — mean absolute error, то есть MAE. Формула расчёта MAE выглядит так:

-8

Для вычисления модуля в Python есть готовая функция — abs(). Ей можно передать любое число, а она вернёт его абсолютное значение, то есть модуль:

-9

Подсчет среднего значения, для этого есть метод count():

-10