Найти в Дзене
Python Lounge

Data Science: машинное обучение, анализ данных и визуализация

Оглавление

Прежде всего, следует разобраться, что такое машинное обучение.

Предположим, что вы хотите разработать программу, которая будет автоматически определять, что изображено на картинке.

Например, предлагая ей это изображение, вы хотите, чтобы программа опознала собаку.

-2

А здесь она должна увидеть стол.

-3

Возможно, вы думаете, что для решения этой задачи можно просто написать код анализа изображения. Например, если на картинке много светло-коричневых пикселей, делаем вывод, что это собака.

Или вы можете научиться определять на изображении края и границы. Тогда картинка с большим количеством прямых границ, вероятно, окажется столом.

Однако это довольно сложный и непродуманный подход. Что делать, если на фотографии изображена белая собака без коричневых пятен? Или если на картинке круглый стол?

Здесь вступает в игру машинное обучение. Обычно оно реализует некоторый алгоритм, который позволяет автоматически обнаруживать знакомый шаблон среди входных данных.

Вы можете предложить алгоритму машинного обучения, скажем, 1000 изображений собаки и 1000 снимков столов. Он выучит разницу между этими объектами. Затем, когда вы дадите ему новую картинку со столом или собакой, он сможет определить, что именно на ней изображено.

Это очень похоже на то, как учатся маленькие дети. Каким именно образом они узнают, что одна вещь похожа на стол, а другая – на собаку? Из большого количества примеров.

Вы ведь не даете ребенку четкую инструкцию: "Если нечто пушистое и светло-каштановое, значит, это собака". Напротив, вы говорите: "Это собака. Это тоже собака. И это. А это стол. И это тоже стол".

Алгоритмы машинного обучения в основном работают сходным образом.

Эта технология может применяться:

  • в рекомендательных сервисах (вспомните, например, YouTube, Amazon и Netflix);
  • в системах распознавания лиц и голосов.

Среди самых популярных алгоритмов машинного обучения, о которых вы, вероятно, слышали:

  • нейронные сети;
  • глубокое обучение;
  • метод опорных векторов;
  • random forest.

Любой из вышеперечисленных алгоритмов может быть использован для решения задачи с собаками и столами на изображениях.

Способы применения Python для машинного обучения

Существуют разные библиотеки и фреймворки для машинного обучения на Python. Две самые популярные – это scikit-learn и TensorFlow.

  • scikit-learn из коробки имеет несколько встроенных популярных алгоритмов обучения;
  • TensorFlow – это более низкоуровневая библиотека. Она позволяет создавать пользовательские алгоритмы.

Новичкам в машинном обучении лучше начать со scikit-learn. Более опытным разработчикам, которые столкнулись с проблемами эффективности, стоит присмотреться к TensorFlow.

Как изучать машинное обучение?

Для ознакомления с основами предмета прекрасно подойдут курсы Стэнфорда или Калтеха (Калифорнийский технический институт). Следует отметить, что для понимания материала требуются базовые знания в области математического анализа и линейной алгебры.

Затем можно переходить к практике на платформе Kaggle. Это сайт, на котором исследователи в области data science создают различные алгоритмы машинного обучения для решения реальных проблем. Победители получают солидные денежные призы. У них также есть отличные учебники для начинающих.