0. Импорт библиотек Подключение к облаку: from google.colab import drive drive.mount('/content/gdrive') Импорт библиотек: import pandas as pd import numpy as np from scipy.sparse import csr_matrix from sklearn.neighbors import NearestNeighbors 1. Загрузка данных и первичная работа с ними Загрузка таблиц с данными: movies = pd.read_csv('/content/gdrive/MyDrive/recomend/movies.csv') ratings = pd.read_csv('/content/gdrive/MyDrive/recomend/ratings.csv') Создание pivot таблицы: user_item_matrix = ratings.pivot(index = 'movieId', columns = 'userId', values = 'rating') Заполнение пропусков (в этом случае нулями): user_item_matrix.fillna(0, inplace = True) Подсчёт количества оценок у каждого пользователя и каждого фильма соответственно: users_votes = ratings.groupby('userId')['rating'].agg('count') movies_votes = ratings.groupby('movieId')['rating'].agg('count') Создание масок для заполненных элементов таблиц user и item соответственно: user_mask = users_votes[users_votes > 50].index movie_ma
Пайплайн по разработке рекомендательной системы на основе метода k-ближайших
8 ноября 20228 ноя 2022
15
1 мин