Найти в Дзене
evz-tech

Искусственные нейронные сети. Функции активации. Часть 1: Основы функций активации и их типы

Функции активации — это ключевые элементы искусственных нейронных сетей (ИНС), которые определяют, как нейрон реагирует на входные данные. Они вводят нелинейность в модель, что позволяет сети обучаться сложным паттернам. В этой части статьи мы рассмотрим, что такое функции активации, зачем они нужны, и познакомимся с основными их типами. Функция активации — это математическая функция, которая применяется к взвешенной сумме входных данных нейрона. Она определяет, будет ли нейрон активирован (то есть, будет ли он передавать сигнал дальше по сети). Без функций активации нейронная сеть была бы просто линейной моделью, которая не способна обучаться сложным нелинейным зависимостям. Например: если на вход нейрона поступает значение z=w1x1+w2x2+bz=w1​x1​+w2​x2​+b, то функция активации f(z) преобразует это значение в выходной сигнал нейрона. Функции активации выполняют две основные функции: Линейная функция активации — это простейшая функция, которая возвращает входное значение без изменений: f
Оглавление

Функции активации — это ключевые элементы искусственных нейронных сетей (ИНС), которые определяют, как нейрон реагирует на входные данные. Они вводят нелинейность в модель, что позволяет сети обучаться сложным паттернам. В этой части статьи мы рассмотрим, что такое функции активации, зачем они нужны, и познакомимся с основными их типами.

1. Основы функций активации

1.1 Что такое функция активации?

Функция активации — это математическая функция, которая применяется к взвешенной сумме входных данных нейрона. Она определяет, будет ли нейрон активирован (то есть, будет ли он передавать сигнал дальше по сети). Без функций активации нейронная сеть была бы просто линейной моделью, которая не способна обучаться сложным нелинейным зависимостям.

Например: если на вход нейрона поступает значение z=w1x1+w2x2+bz=w1​x1​+w2​x2​+b, то функция активации f(z) преобразует это значение в выходной сигнал нейрона.
Схема нейрона с функцией активации
Схема нейрона с функцией активации

1.2 Зачем нужны функции активации?

Функции активации выполняют две основные функции:

  1. Введение нелинейности: Без нелинейности нейронная сеть не сможет обучаться сложным паттернам. Например, даже многослойная сеть без функций активации будет эквивалентна однослойной линейной модели.
  2. Ограничение выходных значений: Некоторые функции активации (например, сигмоида или Softmax) ограничивают выходные значения, что полезно для задач классификации.
График, показывающий разницу между линейной и нелинейной моделью.
График, показывающий разницу между линейной и нелинейной моделью.

2. Типы функций активации

2.1 Линейная функция активации

Линейная функция активации — это простейшая функция, которая возвращает входное значение без изменений:

f(x)=x

Преимущества:

  • Простота вычислений.
  • Не искажает данные.

Недостатки:

  • Не вводит нелинейность, что ограничивает возможности модели.

2.2 Сигмоидальная функция

Сигмоидальная функция (логистическая) имеет вид:

f(x)=1/(1+e^(x1))​

Преимущества:

  • Ограничивает выходные значения в диапазоне [0, 1], что полезно для задач классификации.
  • Гладкая и дифференцируемая, что важно для процесса обучения.

Недостатки:

  • Склонна к проблеме "исчезающего градиента".
  • Вычисления экспоненты затратны для процессоров.
Сигмоидальная функция
Сигмоидальная функция

2.3 Гиперболический тангенс (tanh)

Функция активации tanh имеет вид:

f(x)=tanh⁡(x)=((e^x) - (e^(-x)) ​/ ((e^x) + (e^(-x))

Преимущества:

  • Ограничивает выходные значения в диапазоне [-1, 1], что может быть полезно для центрирования данных.
  • Гладкая и дифференцируемая.

Недостатки:

  • Также подвержена проблеме "исчезающего градиента".
  • Вычисления более сложны, чем для линейной функции.
Гиперболический тангенс
Гиперболический тангенс

2.4 ReLU (Rectified Linear Unit)

Функция активации ReLU имеет вид:

f(x)=max(0,x)

Преимущества:

  • Простота вычислений.
  • Эффективно решает проблему "исчезающего градиента" для положительных значений.
  • Широко используется в глубоких нейронных сетях.

Недостатки:

  • "Умирающий ReLU": нейроны могут "застревать" в нулевых значениях и переставать обучаться.
График функции ReLU
График функции ReLU
Искусственные нейронные сети. Функции активации. Часть 2: Влияние функций активации на производительность модели
evz-tech2 февраля 2025

В этой части мы рассмотрели основы функций активации и их роль в нейронных сетях. Мы также изучили основные типы функций активации, такие как линейная, сигмоидальная, tanh и ReLU, и обсудили их преимущества и недостатки. В следующей части мы углубимся в влияние функций активации на производительность модели и их связь с аппаратными ресурсами.