Из всех функций активации, сложнее всего понять, каким образом ReLU добавляет нелинейность в нейронную сеть. Как такая простая функция, помогает нейронной сети чему-то научиться. Путаница вполне очевидна, учитывая кажущуюся линейную форму, называть ее нелинейной функцией активации, как минимум странно. Возникает очевидный вопрос: «Как ReLU позволяет нейронной сети улавливать нелинейность?» Рассмотрим математическое выражение ReLU: Приведенное выше уравнение можно переписать с параметром h следующим образом: По сути, это та же функция ReLU, но со смещением. Запомним данный факт, вернемся к нему чуть позже Рассмотрим какие операции происходят в нейроне: Если внимательно присмотреться, то эти операции аналогичны функции
ReLU (x-h), которую обсуждали ранее: Теперь давайте внимательно рассмотрим нейроны в последнем скрытом слое. На следующем рисунке показано, как нейроны этого слоя в совокупности вносят вклад в результирующее выходное значение: По сути, конечный результат (Final Output)