Машинное обучение началось с того, что появились данные, собранные людьми, и стояла задача проанализировать данные и сделать предсказание, как эти данные могут повести себя в будущем.
Это общая формулировка, а теперь давайте попробуем конкретизировать. Первый известный пример, машинного обучения – это классификация известным математиком биологом Рональдом Фишером цветов ирисов.
Что же он пытался сделать? У него были собраны данные более чем сто ирисов трех различных видов и каждому ирису соответствовал набор из 4 значений:
- Длина и ширина чашечки цветка
- Длина и ширина лепестка
И задача Фишера была в следующем, он хотел, используя эти данные построить модель, которая могла бы удачно предсказывать вид ириса по вот этим четырем значениям - по длине и ширине чашечки, и длине, и ширине лепестка.
Суть в том, что Фишер, используя только бумагу и ручку, решил построил модель, которая предсказывала бы вид ириса по четырем параметрам. Для этого ему понадобилось часть данных использовать, чтобы понять, как построить и описать модель, другую часть данных он использовал для того, чтобы проверить модель на предмет того, как она предсказывает - хорошо или плохо.
Задачу эту Фишер решил, причем довольно хорошо и с помощью довольно простой модели. Ниже представлена картинка, где, собственно, дана визуализация тех данных, которыми Фишер обладал.
Красному, зеленому и синему соответствуют три разных вида ирисов. И в задаче, которую решал Фишер было заранее известно, к какому виду ирис принадлежит. Задачей Фишера было обучить модель только на одной части данных и модель должна предсказать к какому виду принадлежит ирис по другой части данных. Таким образом модель обучалась на одних данных, а делала предсказание на других данных, которые она никогда не видела.
Раньше машинное обучение вовсе не было машинным, а было просто обучением. И все задачи машинного обучения, которые на сегодняшний момент решаются началось именно с Рональда Фишера, причем в арсенале Фишера были простые математические методы разделения данных для обучения и предсказания.
Современное машинное обучение принято делить на три направления:
- Машинное обучение с учителем (Supervised learning)
- Машинное обучение без учителя (Unsupervised learning)
- Машинное обучение с откреплением (Reinforcement learning)
Эти три направления очень разные и задачи по каждому направлению разные. В других статьях мы кратко проговорим про обучение без учителя и обучение с откреплением и сконцентрируемся только на одном направлении машинного обучения – это обучение с учителем, потому что чаще всего именно этот тип используется для предсказания поведения биржевых данных.