0. Импорт библиотек Подключение к облаку: from google.colab import drive drive.mount('/content/gdrive') Для работы с таблицами: import pandas as pd Для работы с массивами и математических операций: import numpy as np from math import sqrt Для обучения: from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error Для сжатия и разложения матриц: import scipy.sparse as sp from scipy.sparse.linalg import svds # если не установлено, то скачиваем через "!pip install scipy" 1. Загрузка данных и первичная обработка ratings = pd.read_csv(path) n_users = ratings['userId'].unique().shape[0] n_items = ratings['movieId'].unique().shape[0] input_list = ratings['movieId'].unique() def scale_move_id(input_id): -return np.where(input_list == input_id)[0][0] + 1 ratings['movieId'] = ratings['movieId'].apply(scale_move_id) # данные о рейтингах может быть полезно отнормировать для боле качественного обучения 2. Разделение данных на выборки и их обработка train_data
Пайплайн по созданию рекомендательной системы по принципу матричного разложения
8 ноября 20228 ноя 2022
8
1 мин