В мире глубокого обучения появление AlexNet было не чем иным, как революцией. Разработанная Алексом Крижевским, Ильей Суцкевером и Джеффри Хинтоном в 2012 году, AlexNet изменила наше представление о нейронных сетях и глубоком обучении. В этой статье мы рассмотрим все тонкости функционирования этой революционной сети.
В 2012 г. на конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC) AlexNet опередила второго по результативности участника более чем на 10%. Еще более поразительным это достижение стало потому, что оно ознаменовало отход от традиционных методов обработки изображений, положив начало эре глубокого обучения для задач компьютерного зрения.
AlexNet состоит из восьми слоев: пяти конволюционных и трех полностью связанных. Модель известна своей глубиной и использованием выпрямленных линейных блоков (ReLU) в качестве функций активации, что сыграло значительную роль в ее успехе.
Эти слои автоматически и адаптивно обучаются пространственным иерархиям признаков на основе входных изображений. Например, первый слой может улавливать простые краевые признаки, а последующие слои изучают более сложные паттерны, используя признаки предыдущих слоев. Пулинговые слои, перемежающиеся между сверточными слоями, уменьшают пространственный размер, что позволяет снизить вычислительные требования, а также обеспечивает определенную инвариантность при переводе.
До появления AlexNet для активации часто использовались сигмоидная или тангенциальная функции. Однако эти функции могут замедлять процесс обучения из-за проблемы исчезающего градиента. В AlexNet была введена функция активации ReLU, которая позволяет ускорить обучение без существенных проблем с переподгонкой.
Последние три слоя в AlexNet являются полностью связанными, т.е. каждый нейрон в одном слое связан с каждым нейроном в следующем. Последний слой состоит из 1 000 блоков, соответствующих 1 000 классов в наборе данных ImageNet, что позволяет получить распределение вероятностей по этим классам.
Для предотвращения избыточной подгонки в AlexNet введено понятие отсева. В процессе обучения отсев заключается в случайной установке доли входных единиц в 0 при каждом цикле обновления, что позволяет эффективно предотвратить сложную совместную адаптацию на обучающих данных.
Еще одним инновационным аспектом AlexNet стало использование графических процессоров (GPU). Для обучения модели авторы использовали два графических процессора GTX 580. Глубина и ширина сети делали ее вычислительно трудоемкой задачей для современных CPU. Это применение продемонстрировало важность и эффективность использования графических процессоров в глубоком обучении.
В AlexNet была введена локальная нормализация отклика (LRN) - техника, помогающая обобщать. После активации ReLU она помогает затушить выходы, чтобы модель не была слишком уверена в конкретном признаке, тем самым улучшая обобщение.
Замечательные результаты AlexNet на конкурсе ImageNet подчеркнули потенциал глубокого обучения в задачах распознавания образов. Этот переломный момент послужил толчком к значительным инвестициям в исследования в области глубокого обучения, что привело к развитию современных технологий.