9 подписчиков

Волшебство ближайших соседей: как компьютер узнает, кто друг, а кто нет

21 апреля 202521 апр 2025

10 мин

Привет, юный исследователь мира компьютеров! 🌟 Ты когда-нибудь задумывался, как компьютер может отличить кошку от собаки на фотографии или как он понимает, что ты нарисовал букву "А", а не "О"? Сегодня я расскажу тебе об одном из самых классных способов, которым компьютеры учатся распознавать вещи — методе k-ближайших соседей (или KNN для краткости). Представь, что ты пришел в новую школу и встречаешь много новых ребят. Как ты узнаешь, с кем подружиться? Наверное, ты выберешь тех, кто похож на тебя: любит те же игры, книги или мультфильмы. Это и есть принцип "похожести", и именно так работает метод k-ближайших соседей! В мире компьютеров это выглядит так: компьютер смотрит на новый предмет и сравнивает его с теми, которые он уже знает. Потом он находит самые похожие предметы и решает, что новый предмет, скорее всего, такой же, как большинство его "соседей". Представь, что у тебя есть корзина с фруктами: яблоками, бананами и апельсинами. Каждый фрукт можно описать двумя характеристикам

Оглавление

Что такое k-ближайшие соседи?
Как это работает в реальной жизни?
Пример: Фруктовая корзина 🍎🍌🍊

Привет, юный исследователь мира компьютеров! 🌟

Ты когда-нибудь задумывался, как компьютер может отличить кошку от собаки на фотографии или как он понимает, что ты нарисовал букву "А", а не "О"? Сегодня я расскажу тебе об одном из самых классных способов, которым компьютеры учатся распознавать вещи — методе k-ближайших соседей (или KNN для краткости).

Что такое k-ближайшие соседи?

Представь, что ты пришел в новую школу и встречаешь много новых ребят. Как ты узнаешь, с кем подружиться? Наверное, ты выберешь тех, кто похож на тебя: любит те же игры, книги или мультфильмы. Это и есть принцип "похожести", и именно так работает метод k-ближайших соседей!

В мире компьютеров это выглядит так: компьютер смотрит на новый предмет и сравнивает его с теми, которые он уже знает. Потом он находит самые похожие предметы и решает, что новый предмет, скорее всего, такой же, как большинство его "соседей".

Как это работает в реальной жизни?

Пример: Фруктовая корзина 🍎🍌🍊

Представь, что у тебя есть корзина с фруктами: яблоками, бананами и апельсинами. Каждый фрукт можно описать двумя характеристиками: размером и цветом.

Яблоки: средний размер, красные или зеленые
Бананы: большой размер, желтые
Апельсины: средний размер, оранжевые

Теперь представь, что кто-то положил в корзину новый фрукт, и тебе нужно угадать, что это. Ты смотришь на него и видишь, что он среднего размера и оранжевый. На что он больше похож? Правильно, на апельсин!

Именно так работает метод k-ближайших соседей. Он смотрит на характеристики нового предмета и сравнивает их с характеристиками известных предметов, чтобы определить, к какой группе новый предмет относится.

Шаг за шагом: Как компьютер использует KNN

Шаг 1: Сбор данных с примерами

Сначала компьютеру нужно показать примеры разных вещей, чтобы он знал, как они выглядят. Это как учить малыша новым словам, показывая картинки: "Это кошка, это собака, это птица".

Шаг 2: Превращение характеристик в числа

Компьютеры любят числа, поэтому все характеристики предметов превращаются в цифры. Например, цвет можно превратить в набор чисел: красный = (255, 0, 0), зеленый = (0, 255, 0) и так далее.

Шаг 3: Измерение "расстояния" между предметами

Теперь компьютер может измерить, насколько один предмет похож на другой, вычисляя "расстояние" между их характеристиками. Чем меньше это расстояние, тем более похожи предметы.

Волшебное расстояние вычисляется по особой формуле. Представь, что у тебя есть два предмета с характеристиками (a₁, a₂) и (b₁, b₂). Расстояние между ними вычисляется так:

Расстояние = √[(a₁ - b₁)² + (a₂ - b₂)²]

Не пугайся этой формулы! На самом деле она просто показывает, насколько далеко друг от друга находятся два предмета в воображаемом мире характеристик.

Шаг 4: Выбор "k" ближайших соседей

Здесь в игру вступает буква "k" из названия метода. K — это просто число, которое показывает, сколько ближайших соседей мы будем учитывать при принятии решения.

Представь, что компьютер решает, к какой группе отнести новый предмет. Если k = 3, то он найдет 3 самых похожих предмета из тех, что уже знает, и посмотрит, к каким группам они относятся. Если из этих трех два предмета — яблоки, а один — груша, то новый предмет скорее всего тоже яблоко!

Шаг 5: Голосование и принятие решения

Это похоже на голосование в классе: каждый из k ближайших соседей "голосует" за свою группу, и новый предмет присоединяется к группе, получившей больше всего голосов.

Как создать свой KNN волшебный компас 🧙‍♂️

А теперь давай попробуем написать эту магию на языке Python! Не волнуйся, если ты еще не знаешь программирования — я объясню всё по шагам, и ты сможешь понять, как это работает.

Часть 1: Создание волшебного мира с точками

Сначала создадим воображаемый мир, где у нас будут точки двух разных цветов (или классов). Представь, что у нас есть красные и зеленые звездочки, разбросанные по небу.

python# Красные звездочки (класс 1)
x1 = [1.34, 1.16, 1.54, 0.46, 1.8, 1.86, 0.7, 0.52, 1.24, 1.32]
y1 = [1.8, 1.33, 1.37, 1.71, 0.68, 0.29, 1.3, 0.25, 1.07, 0.25]

# Зеленые звездочки (класс 2)
x2 = [5.0, 5.88, 3.69, 2.61, 4.66, 2.09, 4.82]
y2 = [0.14, 0.61, 4.37, 1.74, 3.3, 2.98, 4.25]

# Создадим список всех звездочек с их цветами
points_class1 = [(x1[i], y1[i], 'c1') for i in range(len(x1))] # c1 означает "класс 1" (красные)
points_class2 = [(x2[i], y2[i], 'c2') for i in range(len(x2))] # c2 означает "класс 2" (зеленые)

# Сколько у нас есть характеристик для каждой звездочки (у нас их две: x и y)
features_num = 2

# Все возможные цвета звездочек
labels = ['c1', 'c2']

Теперь у нас есть две группы звездочек: красные (c1) и зеленые (c2), и мы знаем их координаты на небе (x и y).

Часть 2: Создание волшебной линейки для измерения расстояний

Теперь нам нужно научиться измерять, насколько близко находятся звездочки друг к другу. Для этого мы создадим функцию, которая будет вычислять расстояние между звездочками:

pythondef euclidian_dinstance(points, new_point):
distances = []

for point in points:
point_distance = 0

for i in range(features_num):
point_distance += (new_point[i] - point[i]) ** 2

distances.append((point_distance, point[2])) # расстояние до точки и ее цвет

return distances

Эта функция берет все наши звездочки и новую звездочку, для которой мы хотим определить цвет, и измеряет расстояние от новой звездочки до каждой известной звездочки.

Часть 3: Поиск самых близких звездочек

Теперь нам нужно найти самые близкие звездочки. Для этого мы создадим функцию, которая будет находить звездочку с минимальным расстоянием:

pythondef get_min_item(distances): # найти минимальный элемент
min_dist, min_item_idx, min_item_label = 1000000, 0, 'c1'

for idx, dist in enumerate(distances):
if dist[0] < min_dist:
min_dist = dist[0]
min_item_label = dist[1]
min_item_idx = idx

return min_item_idx, min_item_label

Эта функция просматривает все расстояния и находит самую близкую звездочку, запоминая ее индекс и цвет.

Часть 4: Волшебное голосование ближайших соседей

Теперь мы объединим всё вместе, чтобы определить цвет новой звездочки:

pythondef knn(points, new_point, k):
distances, min_labels = euclidian_dinstance(points, new_point), []

for _ in range(k):
min_item_idx, min_item_label = get_min_item(distances)
distances.pop(min_item_idx) # убрать из списка минимальное значение
min_labels.append(min_item_label)

label_score = {label: 0 for label in labels}

for label in min_labels:
label_score[label] += 1

max_score, max_label = 0, 'c1'

for label, score in label_score.items():
if score > max_score:
max_score = score
max_label = label

return max_label

Эта функция:

Находит расстояние от новой звездочки до всех известных звездочек
Выбирает k ближайших звездочек
Считает, сколько звездочек каждого цвета находится среди этих k ближайших
Выбирает цвет, который встречается чаще всего

Часть 5: Использование нашего волшебного компаса

Теперь мы можем использовать наш волшебный компас, чтобы определить цвет новой звездочки:

python# Объединяем все наши звездочки
all_points = points_class1 + points_class2

# Определяем цвет новой звездочки с координатами (4, 2)
print(knn(points=all_points, new_point=(4, 2), k=3)) # Должно напечатать "c2" (зеленый)

Наш волшебный компас решил, что новая звездочка с координатами (4, 2) должна быть зеленой (c2), потому что она находится ближе к зеленым звездочкам, чем к красным.

Как сделать наш волшебный компас еще удобнее 🧭

Давай сделаем наш волшебный компас еще удобнее, создав специальный класс, который будет легче использовать:

pythonclass KNN:
def __init__(self, points, labels):
self.points, self.labels = points[:], labels[:]

def _euclidean_dinstance_(self, new_point):
distances = []

for point in self.points:
point_distance = 0

for i in range(2):
point_distance += (new_point[i] - point[i]) ** 2

distances.append(point_distance)

return distances

def _get_min_item_idx_(self, distances): # найти индекс минимального элемента
min_dist, min_item_idx = 1000000, 0

for idx, dist in enumerate(distances):
if dist < min_dist:
min_dist = dist
min_item_idx = idx

return min_item_idx

def predict(self, new_point, k):
distances = self._euclidean_dinstance_(new_point)
labels = self.labels[:] # скопировать список меток
label_score = {label: 0 for label in list(set(labels))}

for _ in range(k):
min_item_idx = self._get_min_item_idx_(distances)
distances.pop(min_item_idx)
label = labels.pop(min_item_idx)
label_score[label] += 1

max_score, max_label = 0, labels[0] if labels else 'c1'

for label, score in label_score.items():
if score > max_score:
max_score = score
max_label = label

return max_label

А теперь давай используем наш новый волшебный компас:

python# Подготовим наши данные по-новому
points = [(x1[i], y1[i]) for i in range(len(x1))]
points += [(x2[i], y2[i]) for i in range(len(x2))]
labels = ['c1' for i in range(len(x1))]
labels += ['c2' for i in range(len(x2))]

# Создаем наш волшебный компас
knn = KNN(points, labels)

# Определяем цвет новых звездочек
print(knn.predict(new_point=(4, 2), k=3)) # Должно напечатать "c2" (зеленый)
print(knn.predict(new_point=(0.6, 0.5), k=3)) # Должно напечатать "c1" (красный)

Почему важно подготовить данные правильно 📏

Представь, что ты измеряешь рост своих друзей и вес их рюкзаков. Рост может быть от 120 см до 160 см, а вес рюкзака — от 1 до 5 кг. Если ты будешь сравнивать эти числа напрямую, то рост будет гораздо важнее веса, потому что числа больше!

В методе k-ближайших соседей это тоже важно. Если одна характеристика измеряется в больших числах, а другая — в маленьких, то большие числа будут "перевешивать" маленькие. Чтобы избежать этого, мы можем "масштабировать" наши данные так, чтобы все характеристики были в одинаковом диапазоне.

Способ 1: Превращение в диапазон от 0 до 1

Один из способов — превратить все значения в числа от 0 до 1. Для этого мы используем такую формулу:

новое_значение = (старое_значение - минимальное_значение) / (максимальное_значение - минимальное_значение)

Например, если рост детей от 120 см до 160 см, то рост 140 см станет (140 - 120) / (160 - 120) = 0.5.

Способ 2: Z-масштабирование

Другой способ — сделать так, чтобы среднее значение было 0, а стандартное отклонение (мера разброса) было 1. Для этого используется такая формула:

новое_значение = (старое_значение - среднее_значение) / стандартное_отклонение

Где можно использовать метод k-ближайших соседей?

1. Распознавание рукописных букв и цифр 📝

Компьютер может научиться распознавать, какую цифру или букву ты написал, сравнивая ее с тысячами других примеров.

2. Рекомендации фильмов и книг 🎬📚

Если ты смотрел фильмы "Гарри Поттер" и "Хроники Нарнии", компьютер может предложить тебе похожие фильмы, которые нравятся людям с похожими вкусами.

3. Определение типа растений и животных 🌿🐾

Загрузив фотографию неизвестного растения или животного, компьютер может определить, к какому виду оно относится, сравнивая его с известными видами.

4. Медицинская диагностика 🏥

Врачи могут использовать этот метод, чтобы помочь в диагностике болезней, сравнивая симптомы пациента с симптомами известных болезней.

Сильные и слабые стороны метода k-ближайших соседей

Сильные стороны:

Очень прост для понимания и объяснения
Работает с любыми типами данных
Не требует долгого обучения, как некоторые другие методы
Может находить сложные закономерности в данных

Слабые стороны:

Может работать медленно, если у тебя очень много данных
Очень чувствителен к шуму и выбросам в данных
Нужно правильно выбрать значение k (количество соседей)
Требует правильного масштабирования данных

Выбор правильного числа k

Выбор числа k (количества соседей, которых мы учитываем) очень важен. Если k слишком маленькое (например, 1 или 2), то модель может быть слишком чувствительной к шуму. Если k слишком большое, то модель может не замечать важные закономерности.

Обычно хорошо выбирать нечетное число k (например, 3, 5, 7), чтобы избежать ничьих при голосовании. Также можно попробовать разные значения k и выбрать то, которое дает лучшие результаты.

Заключение: Твой собственный волшебный компас!

Теперь ты знаешь, как работает метод k-ближайших соседей — один из самых простых и мощных методов машинного обучения! Ты можешь создать свой собственный волшебный компас, который поможет компьютеру распознавать вещи, предсказывать предпочтения и делать много других удивительных вещей.

Помни, что в основе этого метода лежит простая идея: похожие вещи обычно находятся рядом друг с другом. И теперь ты знаешь, как научить компьютер видеть эту похожесть!

А если ты захочешь узнать больше о машинном обучении и других волшебных способах, которыми компьютеры могут учиться, продолжай исследовать этот удивительный мир! 🚀