Валидационные данные (Validation Data, Holdout Data – "удержанные" данные) – это часть Датасета (Dataset), основа для проверки работоспособности Модели (Model) Машинного обучения (ML). Является одной из составляющих разделенного набора данных наряду с Тренировочными (Train Data) и Тестовыми (Test Data) данными. Пример. Мы создаем модель, предсказывающую потребление электроэнергии в городе. Если на тренировочных данных она, подобно человеческому мозгу, учится видеть скачки потребления электричества, то на тестовой Дата-сайентист (Data Scientist) проверяет качество обучения...
Рассмотрим, как правильно делить данные на выборки, чтобы потом не приходилось делать это опять, несмотря на использование различных способов предобработки для разных алгоритмов машинного обучения. Сначала скачаем и сделаем быструю обработку датасета о пассажирах "Титаника": Теперь определим категориальные и числовые колонки: Так как данные перемешаны разделим их с помощью np.split и будем работать с индексами выборок (о способах разделения писал ранее) : Ниже демонстрируются способы работы с выборками в алгоритмах, предобработка датасета в которых различается...