В этой лекции сформулируем определения, связанные с обучающими выборками, использующимися для обучения нейронных сетей (или других методов машинного обучения). Прежде всего, под ГЕНЕРАЛЬНОЙ совокупностью (population) понимается множество всех возможных прецедентов (объектов, ситуаций, событий, образцов и т.п.), при этом под ВЫБОРКОЙ (sample, set) понимается конечный набор прецедентов, некоторым способом выбранных из множества ВСЕХ возможных прецедентов, т.е. это подмножество из генеральной совокупности...
Тестовые данные – это часть Датасета (Dataset) , проверяющая основа Модели (Model) Машинного обучения (ML) . Является одной из составляющих разделенного набора данных наряду с Тренировочными (Train Data) и Валидационными (Validation Data) данными. Пример. Мы создаем модель, предсказывающую потребление электроэнергии в городе. Если на тренировочных данных она, подобно человеческому мозгу, учится видеть скачки потребления электричества, то на тестовой Дата-сайентист (Data Scientist) проверяет качество обучения...