В задаче прогнозирования цен на фондовой бирже или на Форексе тестовое множество обязательно должно находиться после обучающего множества. При этом тестовое множество может и примыкать к обучающему множеству и располагаться от него на некотором временном интервале.
Рассмотрим пример.
Пусть временной ряд цен имеет длину 1000. Нам надо обучить математическую модель прогнозировать 1001-е данное (и, возможно, несколько следующих данных). Мы тестируем метод машинного обучения и его параметры.
1-я схема
Первое разбиение.
Начальное обучающее множество с 1-го по 100-й член ценового временного ряда. А начальное тестовое множество с 101-го по 200-й член ценового ряда.
Второе разбиение.
Обучающее множество с 1-го по 200-й член ряда. Тестовые цены с 201-го по 300-й член ряда.
Третье разбиение.
Обучающее множество с 1-го по 300-й член ряда. Тестовое множество с 301-го по 400-й член ряда.
И т.д.
При каждом следующем разбиении обучающее множество присоединяет следующие по времени 100 членов ряда. А тестовое множество цен остается длины 100, но сдвигается в будущие цены на 100 точек.
2-я схема
Обучающее множество цен растет точно также, как в 1-й схеме. А тестовое множество цен постоянно находится в самом конце временного ряда с 901-й временной точки до 1000-й точки. Обучающее множество растет до тех пор пока не пересекается с тестовым множеством.
Необходимо так обучить модель, чтобы в обеих схемах разбиений результат прогноза тестовых цен всегда улучшался по мере роста размера обучающего множества.
Наконец, существует схема, в которой обучающее множество цен не растет.
3-я схема
Тестовое множество цен находится в самом конце временного ряда, как во 2-й схеме. Например, с 901-й точки до 1000-й точки. А обучающий отрезок постоянной длины (как правило, больше длины тестового отрезка в 2-4 раза) движется от начала временного ряда с некоторым шагом к концу временного ряда пока не пересекается с тестовым множеством.
В третьей схеме не обязательно, чтобы при таком движении результат на тесте улучшался. Результат на тесте может оставаться примерно одинаковым. Третья схема используется для определения лучшей математической модели прогнозирования цен и для того, чтобы оценить длину "памяти" временного ряда в прошлое.
Если результат на тесте в 3-й схеме остается одинаковым при приближении обучающего множества к тестовому, то это говорит о том, что такой "памяти" в прошлое нет. Или модель её не чувствует, то есть модель неадекватная данному временному ряду.
Метрики прогнозирования
Для оценки качества прогнозирования необходимо сделать прогноз обученной модели на тестовых ценах. Результат прогноза оценивается по метрикам прогнозирования. Это как раз то, чего никогда не делают всякие гуру стратегий заработка на Форексе и фондовой бирже.