4 подписчика

Шпаргалка: предобработка данных в Jupyter

11 октября 202011 окт 2020

268

1 мин

Вооружайтесь методичкой и вперед к покорению анализа данных! Указанных методов хватит для первичной обработки вашей базы данных.

Как изменить названия столбцов:

data.set_axis(['a','b','c'], axis = 'columns',inplace = True)

# ['a','b','c'] - список новых названий столбцов
# 'columns' - список название столбцов, которые нужно изменить
# inplace = True - изменение структуры данных

Как узнать количество пропущенных значений:

data.isnull().sum()

Как заполнить пропущенные значения:

data = df.fillna(X),

X - значение, которое будет подставлено вместо пропусков

Как удалить все NaN:

data.dropna()

data.dropna(subset = ['column_1','column_2','column_3'], inplace = True) # если нужно удалить пропуски только в определенных столбцах column_1, column_2 и column_3.

Как узнать количество дублей:

data.duplicated().sum()

Как удалить все дубликаты:

data.drop_duplicates().reset_index(drop = True)

# .reset_index(drop = True) используется для того, чтобы не создавать столбец со старыми значениями индексов

Как просмотреть только уникальные значения столбца:

data['column'].unique()

Как заменить значения:

data.replace('old_value', 'new_value')

# old_value - значение, которое нужно заменить
# new_value - значение, на которое нужно заменить