Как я говорил ранее, прежде чем начать построение любой модели данные следует подготовить. Один из таких этапов - это удаление лишних, избыточных данных. Но как понять какие данные лишние? Для начала разобъём наш dataset на векторы-столбцы, то есть векторы будут хранить значения всех объектов своего одного признака. Одна из таких техник - это поиск линейно зависимых признаков. Линейная зависимость является симптомом того, что один признак может быть выведен из другого признака. Например, хранение одних и тех же данных в разных размерностях...
Метод наименьших квадратов - классический способ описания каких-либо зависимостей одной величины от другой. Наиболее простая для понимания и реализации этого метода является линейная зависимость вида y=kx+b. Предположим, что мы имеем некий набор точек в координатах x-y, и нам необходимо их описать линейной зависимостью (напоминаем, что такая функция имеет вид y=kx+b) с применением Метода наименьших квадратов. Суть заключается в нахождении коэффициентов k и b функции y=kx+b, которая линейно описывает наши "разбросанные" точки...