Найти в Дзене
Melvin Инвестиции

Краткий обзор. Машинное обучение без учителя. Задача кластеризации

В этой статье я не буду подробно рассказывать о методах машинного обучения без учителя, я всего лишь попытаюсь описать круг задач, которые метод машинное обучение без учителя пытается решить. И так задам простой вопрос: чем вообще занимается обучение без учителя? У нас есть некий алгоритм, который при обучении и при попытках предсказания, использует некоторые параметры. В общем виде формула машинного обучения без учителя для решения задачи кластеризации выглядит вот так: Параметры для нас – это всего лишь набор чисел и этот набор чисел обозначен буквой тэта θ, а в качестве предсказателя мы будем использовать функцию f. Эта функция берет на вход элемент вашего множества данных, то, что вы, собственно, пытаетесь классифицировать и возвращает значение, говорящее о том, к какому классу принадлежит элемент - в этом как раз и заключается задача кластеризации. Задачу кластеризации очень легко объяснить с помощью ирисов Фишера - подробно об ирисах Фишера можно прочитать здесь. Например, пред
Изображение AICRA ROBOTICS с сайта Pixabay
Изображение AICRA ROBOTICS с сайта Pixabay

В этой статье я не буду подробно рассказывать о методах машинного обучения без учителя, я всего лишь попытаюсь описать круг задач, которые метод машинное обучение без учителя пытается решить.

И так задам простой вопрос: чем вообще занимается обучение без учителя?

У нас есть некий алгоритм, который при обучении и при попытках предсказания, использует некоторые параметры.

В общем виде формула машинного обучения без учителя для решения задачи кластеризации выглядит вот так:

-2

Параметры для нас – это всего лишь набор чисел и этот набор чисел обозначен буквой тэта θ, а в качестве предсказателя мы будем использовать функцию f.

Эта функция берет на вход элемент вашего множества данных, то, что вы, собственно, пытаетесь классифицировать и возвращает значение, говорящее о том, к какому классу принадлежит элемент - в этом как раз и заключается задача кластеризации.

Задачу кластеризации очень легко объяснить с помощью ирисов Фишера - подробно об ирисах Фишера можно прочитать здесь.

Например, представьте, что вам необходимо выбрать произвольную картинку из этих картинок:

-3

Для примера возьмем вот эту картинку - 3 картинку слева из 4 ряда. Это картинка распределения разных сортов ириса.

-4

И представим, что мы на самом деле никаких цветов не знаем, у нас есть только набор чисел, в этом и заключается метод обучения без учителя. Таким образом вы не знаете никаких правильных ответов.

Теперь поговорим об алгоритме. Ваш алгоритм тоже никаких правильных ответов не знает, то есть он не знает к какому виду принадлежит данный ирис и у него не будет правильных ответов по которым, он мог бы обучиться. Он будет всего лишь иметь эти данные, которые можно представить серыми или какого-либо другого цвета. И алгоритму нужно как-то хорошо разделить эти данные и сказать, что красные точки принадлежат, какому-то одному классу, зеленые точки – ко второму классу, синие точки – к третьему классу. Решение данной задачи сильно зависит от того, какой тип машинного обучения без учителя вы используете. В нашем примере, мы используем, метод кластеризации.

Теперь для упрощения будем считать, что алгоритм не знает какие цвета представлены и он посчитает, что у вас представлены только два класса:

  • 1 класс - скопление точек снизу слева
  • 2 класс - скопление точек сверху справа

Разделение на классы будет сделано верно, поскольку он не знает правильных ответов, к каким классам и видам принадлежат эти ирисы. И это может быть проблемой, если мы заставим алгоритм посчитать классы по другим картинкам - то мы отметим, что есть картинки, у которых один класс очень хорошо отделяется от других классов, а есть картинки, по которым алгоритм не сможет отделить два класса друг от друга. Пример такой картинки представлен ниже:

-5

Вернемся к формуле - ваши исходные данные обозначаются буквой D (Data), а количество классов, который алгоритм должен определить обозначаются букой к.

И так в общем случае, задача кластеризации состоит в том, чтобы предсказать к какому классу принадлежит элемент ваших входных данных.