Найти тему

Что такое Deep Learning?

Оглавление

Глубокое обучение (глубинное обучение) – это подраздел Машинного обучения (ML), связанный с алгоритмами, основанными на структуре и функциях мозга – искусственными Нейронными сетями (Neural Network).

Если вы только начинаете заниматься глубоким обучением или некоторое обладаете некоторым опытом работы с нейронными сетями, то можете быть сбиты с толку. Лидеры и эксперты в этой области имеют представление о том, что такое глубокое обучение, и эти узкие точки зрения проливают свет на понятие.

Глубокое обучение – это большие нейронные сети

Эндрю Ын, сооснователь Coursera и главный научный сотрудник Baidu Research, основал и Google Brain, что в конечном итоге привело к внедрению технологий глубокого обучения в сервисы Google. Он много говорил и писал о том, что такое глубокое обучение, и с этого можно начать.

В своих ранних докладах о глубоком обучении Эндрю описал глубокое обучение в контексте традиционных искусственных нейронных сетей. В своем выступлении 2013 года под названием «Глубокое обучение, самообучение и обучение без учителя» он описал идею глубокого обучения следующим образом:

"Используя симуляцию мозга, мы надеемся:

  • Сделать алгоритмы обучения намного лучше и проще в использовании
  • Совершить революционные достижения в области Машинного обучения и Искусственного интеллекта (Artificial Intelligence).

Я считаю, что это наш лучший шанс на пути к настоящему ИИ."

Позже его комментарии стали более тонкими. По словам Эндрю, суть глубокого обучения заключается в том, что теперь у нас достаточно быстрых компьютеров и достаточно данных для обучения больших нейронных сетей. Обсуждая, почему именно сейчас глубинное обучение набирает обороты на ExtractConf 2015 в докладе под названием «Что следует знать специалистам по данным о глубоком обучении», он прокомментировал:

"...очень большие нейронные сети, которые у нас есть, и ... огромные объемы данных, к которым у нас есть доступ..."

Он также прокомментировал важный момент: все дело в масштабе. По мере того, как мы создаем более крупные нейронные сети и обучаем их все большим количеством данных, их производительность продолжает расти. Это обычно отличается от других методов машинного обучения, которые достигают плато в производительности:

-2

"Для большинства алгоритмов обучения старых поколений ... производительность будет стабильной. … Глубокое обучение… – это первый класс алгоритмов… которые можно масштабировать. … Производительность становится все лучше по мере того, как вы предоставляете им больше данных".

Наконец, он ясно указывает на то, что преимущества глубокого обучения, которые мы наблюдаем на практике, исходят от обучения с учителем. Из выступления на ExtractConf в 2015 году он прокомментировал:

"Почти вся ценность глубокого обучения сегодня заключается в Контролируемом обучении (Supervised Learning) или обучении на основе размеченных данных".

Эндрю часто упоминает, что мы увидим больше преимуществ, исходящих от неконтролируемого обучения, по мере того, как область глубокого обучения будет созревать, поскольку в реальности часто приходится иметь дело с обилием неразмеченных данных.

Джефф Дин (Jeff Dean) – старший научный сотрудник Google в группе по системам и инфраструктуре. Он принимал участие и, возможно, частично отвечал за масштабирование и внедрение глубокого обучения в Google. Джефф принимал участие в проекте Google Brain и разработке крупномасштабного программного обеспечения для глубокого обучения DistBelief, а затем и TensorFlow.

В своем выступлении 2016 года под названием «Глубокое обучение для построения интеллектуальных компьютерных систем» он сделал комментарий в том же ключе: глубокое обучение действительно связано с большими нейронными сетями:

"Когда вы слышите термин «глубокое обучение», просто представьте себе большую глубокую нейронную сеть. Глубокий обычно относится к количеству слоев, поэтому этот популярный термин используется в прессе. Я считаю их в целом глубокими нейронными сетями".

Он выступал с этим выступлением несколько раз и в модифицированном наборе слайдов для того же выступления он подчеркивает масштабируемость нейронных сетей, указывая на то, что результаты улучшаются с большим количеством данных и более крупными Моделями (Model), которые, в свою очередь, требуют больше вычислительной мощности.

Глубокое обучения – иерархическое изучение функций

Помимо масштабируемости, еще одним часто упоминаемым преимуществом моделей глубокого обучения является их способность выполнять автоматическое извлечение Признаков (Feature) из необработанных данных, также называемое освоение признаков

Йошуа Бенжио – еще один лидер в области глубокого обучения, хотя начинал с сильного интереса к автоматическому обучению функций, на которое способны большие нейронные сети.

Он описывает глубокое обучение с точки зрения способности алгоритмов обнаруживать и изучать хорошие представления с помощью функции обучения. В своей статье 2012 года под названием «Глубокое изучение представлений для неконтролируемого и трансфертного обучения» он прокомментировал:

"Алгоритмы глубокого обучения стремятся использовать неизвестную структуру входного распределения для обнаружения хороших представлений, часто на нескольких уровнях, с изученными функциями более высокого уровня, определенными в терминах функций более низкого уровня".

Масштабируемое глубокое обучение в разных областях

Глубокое обучение лучше всего подходит для проблемных областей, где входы (и даже выходы) являются аналоговыми. Это означает, что это не несколько величин в табличном формате, а изображения пиксельных данных, документы текстовых данных или файлы аудиоданных.

Янн ЛеКун – директор Facebook Research и отец сетевой архитектуры, которая выделяется при распознавании объектов в данных изображения, называемой Сверточной нейронной сетью (CNN). Этот метод пользуется большим успехом, потому что, как и многослойные нейронные сети с прямой связью Персептрона (Perceptron), метод масштабируется с учетом данных и размера модели и может быть обучен с помощью Обратного распространения (Back Propagation).

Это искажает его определение глубокого обучения как разработки очень больших CNN, которые добились большого успеха в распознавании объектов на фотографиях.

В своем выступлении в Ливерморской национальной лаборатории Лоуренса в 2016 году под названием «Ускорение понимания: глубокое обучение, интеллектуальные приложения и графические процессоры» он описал глубокое обучение в целом как изучение иерархических представлений и определил его как масштабируемый подход к созданию систем распознавания объектов:

"Глубокое обучение – набор модулей, каждый из которых можно обучить. … Обучение глубокое, потому что [имеет] несколько этапов в процессе распознавания объекта, и все эти этапы являются частью обучения".

-3

Юрген Шмидхубер является отцом другого популярного алгоритма, который, как Многоуровневый перцептрон (MLP) и CNN, также масштабируется в зависимости от размеров модели, набора данных и может быть обучен с помощью обратного распространения ошибки, но вместо этого адаптирован для данных последовательности обучения, называемой Долгая краткосрочная память (LSTM).

Мы действительно видим некоторую путаницу в формулировке понятия "Глубокое обучение". В своей статье 2014 года под названием «Глубокое обучение в нейронных сетях: обзор» он комментирует проблематичное именование области и различие между глубоким и поверхностным обучением. Он также интересно описывает глубину с точки зрения сложности проблемы, а не модели, используемой для решения проблемы:

"На какой глубине проблемы заканчивается поверхностное обучение и начинается глубокое? Обсуждения с экспертами пока не дали однозначного ответа на этот вопрос. […], Позвольте мне просто определить для целей этого обзора: проблемы глубины, превышающей 10 слоев, требуют глубокого обучения.

Демис Хассабис – основатель DeepMind, позже приобретенного Google. С Стартап в свое время совершил прорыв, объединив методы Deep Learning с Обучением с подкреплением (Reinforcement Learning) для решения сложных задач обучения, таких как игра, что хорошо продемонстрировано в продуктах Atari и игре Alpha Go.

В соответствии с названием они назвали свою новую технику Deep Q-Network, сочетающую глубокое обучение с Q-Learning. Они также назвали эту более широкую область «Глубоким обучением с подкреплением».

В своем научном документе 2015 года под названием «Управление на уровне человека посредством глубокого обучения с подкреплением» они комментируют важную роль глубоких нейронных сетей в своем прорыве и подчеркивают необходимость иерархической абстракции:

"Для этого мы разработали новый агент, глубокую Q-сеть (DQN), которая способна сочетать обучение с подкреплением с классом искусственных нейронных сетей, известных как глубокие нейронные сети. Примечательно, что недавние достижения в области глубоких нейронных сетей, в которых несколько уровней узлов используются для построения все более абстрактных представлений данных, позволили искусственным нейронным сетям изучать такие концепции, как категории объектов, непосредственно из необработанных сенсорных данных".

Наконец, статью, которую можно считать определяющей в этой области, Янн ЛеКун, Йошуа Бенжио и Джеффри Хинтон опубликовали в журнале Nature под названием «Глубокое обучение». В ней они открываются с четкого определения глубокого обучения, подчеркивая многоуровневый подход.

Глубокое обучение позволяет вычислительным моделям, состоящим из нескольких уровней обработки, изучать представления данных с несколькими уровнями абстракции.

Автор оригинальной статьи: Jason Brownlee

Фото: @redcharlie

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курс «Введение в Машинное обучение» на Udemy.