425 прочтений · 2 года назад
🏷 Ресурсы, которые дадут очень прочную основу для начала работы с машинным обучением. Набор тем, ранжированных по темам. Градиентный спуск Метрики — классификация ▪Матрицы неточностей, точность, прецезионность, recall, чувствительность ▪F1-оценка ▪TPR, TNR, FPR, FNR ▪Ошибки I и II типов ▪Кривые AUC-Roc Метрики — регрессия ▪Общая сумма квадратов, объясненная сумма квадратов, остаточная сумма квадратов ▪Коэффициент детерминации и его скорректированная форма ▪AIC и BIC ▪Преимущества и недостатки RMSE, MSE, MAE, MAPE Компромисс отклонение-дисперсия, Over/Under-Fitting ▪Метод k-ближайших соседей ▪Random Forests ▪Асимптотические свойства ▪Проклятие размерности Выбор модели ▪k-Fold кросс-Валидация (перекрестная проверка) ▪L1 и L2 регуляризация ▪Байесовская оптимизация Sampling ▪Классовый дисбаланс при обучении классифицирующих моделей ▪SMOTE ▪Несбалансированность классов в независимых переменных ▪Систематическая ошибка выборки Модели регрессии ▪Глубокие нейронные сети для проблем регрессии ▪Случайная лесная регрессия ▪Регрессия XGBoost ▪ARIMA / SARIMA ▪Байесовская линейная регрессия ▪Регрессия на основе гауссовского процесса Алгоритмы кластеризации ▪Метод К-средних ▪Иерархическая кластеризация ▪Процессы Дирихле Классификационные модели ▪Логистическая регрессия ▪Множественная регрессия ▪XGBoost ▪Метод опорных векторов @machinelearning
97 прочтений · 2 года назад
SMOTE в Машинном обучении простыми словами
Техника переcэмплирования синтетического меньшинства (Synthetic Minority Oversampling Technique – SMOTE) – метод подготовки Несбалансированного датасета (Imbalanced Dataset) к загрузке в Модель (Model) Машинного обучения (ML), предполагающий дублирование Наблюдений (Observation) класса, представителей которого в наборе меньше остальных. Зачастую наборы данных являются несбалансированными: например, при исследовании раковых заболеваний подавляющее большинство пациентов здоровы. При Обнаружении мошеннических...