Найти тему
KARPOV.COURSES

Метод k-ближайших соседей

Однажды мы обещали сделать серию постов с разбором базовых алгоритмов машинного обучения: открывает нашу подборку kNN — метод k Nearest Neighbors или «k ближайших соседей»

Что такое метод k ближайших соседей?

kNN — это один из самых известных алгоритмов классификации в мире ML.

Новички смело могут знакомиться с классификаторами — и вообще машинным обучением — именно по нему. Прелесть в том, что для понимания kNN не нужно копаться в сложных математических терминах: всё объясняется буквально на пальцах.

Что значит «классифицировать объект»?

Начнём с начала. Классифицировать объект — значит отнести его к одной из нескольких заранее известных групп. Скажем, определить, к какой из пяти пород принадлежит собака.

Алгоритмы в машинном обучении, как и мы с вами в жизни, принимают такие решения, опираясь на совокупность признаков. В случае с собакой это может быть, например, длина шерсти, рост в холке и форма ушей. Как их оценивают люди, более или менее понятно. Но что с нашей моделью?

Что нужно для корректной работы алгоритма метода k ближайших соседей?

Для этого все признаки объекта должны выражаться осмысленными числовыми значениями. Как только вы придумаете, как «посчитать» уши, любую собаку можно будет представить в виде вектора (или точки) в трёхмерном пространстве, где каждая ось соответствует одному признаку.

Вот здесь мы и подходим к самому интересному!

●  Расстояния между любыми двумя точками измеряемы.

●  Очевидно, чем ближе друг к другу точки, тем больше похожи собаки.

●  Собаки обычно наиболее похожи на других представителей своей породы.

Выходит, если вокруг 88 лабрадоров и всего 12 овчарок, то перед нами, скорее всего, лабрадор. В этом и заключается суть метода k ближайших соседей: модель относит объект к тому классу, к которому принадлежит большинство из k его ближайших соседей. Как видите, никакой магии.

Конечно, сам по себе алгоритм достаточно примитивен и в чистом виде почти не пригоден для реальных задач. Главными недостатками метода k ближайших соседей являются  проблемы с точностью и скоростью. Зато на нём классно учиться :)

Наука
7 млн интересуются