Тренировочные данные (обучающие) – это часть Датасета (Dataset), обучающая основа Модели (Model) Машинного обучения (ML). Является одной из составляющих разделенного набора данных наряду с Тестовыми (Test Data) и Валидационными (Validation Data) данными. Пример. Мы создаем модель, предсказывающую потребление электроэнергии в городе. Если на тренировочных данных она, подобно человеческому мозгу, учится видеть скачки потребления электричества, то на тестовой Дата-сайентист (Data Scientist) проверяет качество обучения. Но зачем же нужна валидационная часть? Когда модель пытается улучшиться, она подыскивает оптимальные значения Гиперпараметров (Hyperparameter). В этом случае существует вероятность Переобучения (Overfitting): модель слишком подробно учитывает особенности информации, на которой обучилась, и при переходе на другие реальные данные будет малоэффективна. Чтобы решить эту проблему, мы можем создать дополнительную валидационную часть датасета, и проверять качество модели на любом
Train Data в Машинном обучении простыми словами
4 марта 20214 мар 2021
330
3 мин