Добавить в корзинуПозвонить
Найти в Дзене

Unsupervised Learning в Машинном обучении простыми словами

Обучение без учителя – это метод Машинного обучения (ML), при котором Модель (Model) обучается на Неразмеченных данных (Unlabeled Data). Обучение с учителем (Supervised Learning) предполагает, что учебные данные размечены вручную, и модель получает четкий ответ на вопрос, к какой категории принадлежит то или иное Наблюдение (Observation): Задачей Unsupervised Learning может быть обнаружение групп похожих примеров в данных, и это называется Кластеризацией (Clustering), или определение того, как данные распределяются в пространстве, и это известно как Оценка плотности (Density Estimation). Такие алгоритмы позволяют выполнять более сложные задачи обработки по сравнению с обучением с учителем, хоть и являются менее предсказуемыми. Обучение без учителя: К примеру, в семье с ребенком есть еще и собака, которую он узнает среди остальных живых существ. Друг семьи приводит с собой другую собаку и пытается подружить своего четвероногого друга с малышом. Малыш раньше не видел этого пса, но узнае
Фото: @gabrielperelman
Фото: @gabrielperelman

Обучение без учителя – это метод Машинного обучения (ML), при котором Модель (Model) обучается на Неразмеченных данных (Unlabeled Data).

Обучение с учителем (Supervised Learning) предполагает, что учебные данные размечены вручную, и модель получает четкий ответ на вопрос, к какой категории принадлежит то или иное Наблюдение (Observation):

-2

Задачей Unsupervised Learning может быть обнаружение групп похожих примеров в данных, и это называется Кластеризацией (Clustering), или определение того, как данные распределяются в пространстве, и это известно как Оценка плотности (Density Estimation). Такие алгоритмы позволяют выполнять более сложные задачи обработки по сравнению с обучением с учителем, хоть и являются менее предсказуемыми.

Обучение без учителя:

  • Находит в данных неизвестные закономерности
  • Помогает найти полезные для категоризации Признаки (Features)
  • Стоит дешевле (т.е. подготовка неразмеченных данных)
  • Не обязывает определять число классов

К примеру, в семье с ребенком есть еще и собака, которую он узнает среди остальных живых существ. Друг семьи приводит с собой другую собаку и пытается подружить своего четвероногого друга с малышом. Малыш раньше не видел этого пса, но узнает характерные черты (два уха, два глаза, ходьба на четырех ногах) и идентифицирует новое животное как собаку. Это простейшая аналогия обучения без учителя, при условии, что гость не указал ребенку, что его компаньон – пес.

Наряду с этим выделяют еще три разновидности обучения:

PCA

Посмотрим, как работает Unsupervised Learning на примере Анализа главных компонент (PCA). Для начала импортируем Scikit-learn и Matplotlib:

-3

Загрузим датасет с помощью встроенного метода load_digits() :

-4

Мы используем такое разделение данных на X и y, поскольку так создатели организовали данные. Если посмотреть, что эти компоненты из себя представляют, мы увидим два массива:

-5

Каждый из рядов – это набор чисел, характеризующий яркость пиксела на сетке 8 х 8:

-6

y, в свою очередь, – это список целевых значений. Нам предстоит научить модель ассоциировать наборы пикселей с цифрами.

-7
-8

Выстроим пикселы в сетки обратно и отобразим в оттенках серого:

-9

Вот такая магия – из чисел в картинки:

-10

Метод главных компонент сократит количество измерений с 64 (длина каждого ряда) до 2, и с этой точки зрения сможет произвести кластеризацию, т.е. распознавание той или иной цифры в наборе данных:

-11

Теперь мы лучше понимаем, почему капча как идея существует столько лет: компьютеры по-прежнему имеют весьма туманное представление о цифрах, и распознать наверняка одну от другой не в состоянии:

-12

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь .

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy .