Машинное обучение. Вводная лекция. К.В. Воронцов, Школа анализа данных, Яндекс.
Pipeline в Машинном обучении простыми словами
Пайплайн – 1. Последовательные стадии работы с данными, включающие как извлечение данных, скраббинг (очистку), Разведочный анализ данных (EDA), моделирование, интерпретацию и пересмотр. 2. Класс библиотеки Scikit-learn, последовательно применяющий к исходным данным настраиваемые преобразования. 3. Автоматизируемая последовательность обучения и оптимизации модели в PyTorch и других библиотеках. Пайплайн как последовательность: Извлечение Этот этап включает сбор данных из Интернета или баз данных и конвертация в определенные форматы...
Cross Validation в Машинном обучении простыми словами
Кросс-валидация (перекрестная проверка) – это метод оценки Моделей (Model) Машинного обучения (ML) путем обучения нескольких из них на подмножествах доступных входных данных и их оценки на другом дополнительном подмножестве. Такая проверка используется для обнаружения Переобучения (Overfitting), т.е. неспособности распознать паттерн. Всегда необходимо проверять стабильность предсказывающего Алгоритма (Algorithm): нам нужна уверенность в том, что модель имеет представление о большинстве шаблонов в...