Лекция Большие данные и машинное обучение. Часть 1
Синтетические данные: как они меняют обучение ИИ и решают проблемы конфиденциальности?
Синтетические данные — это не просто тренд. Это искусственно созданные наборы, порожденные алгоритмами, которые имитируют реальные данные, сохраняя их структуру и статистику, но без привязки к реальным объектам. Это больше, чем способ обойти ограничения реальных данных. Это целая эпоха в обучении искусственного интеллекта (ИИ) и машинного обучения (МО). Возможно, вы сталкивались с ситуацией, когда для создания качественной модели обучающих данных недостаточно. Достижения в ИИ сталкиваются с задачей сбора данных, которые нужны для тестирования и обучения...
SMOTE в Машинном обучении простыми словами
Техника переcэмплирования синтетического меньшинства (Synthetic Minority Oversampling Technique – SMOTE) – метод подготовки Несбалансированного датасета (Imbalanced Dataset) к загрузке в Модель (Model) Машинного обучения (ML), предполагающий дублирование Наблюдений (Observation) класса, представителей которого в наборе меньше остальных. Зачастую наборы данных являются несбалансированными: например, при исследовании раковых заболеваний подавляющее большинство пациентов здоровы. При Обнаружении мошеннических...