Итак,начнем-с.Говорят нейросеть это много маленьких регрессоров(те что анализируют взаимоcвязь своих же параметров).Это то что называется взвешиванием сигналов,
типа sig1*weight1+sig2*weight2+sig3*weight3,в регрессорах weight называются
параметрами модели,а sig факторами для модели.Из-за того что мы пропускаем такой
результат через функцию активации,которая имеет вид не линнии,а кривой,можно 'стекать'(соединять) слои(матрицы).Сокращаем разницу(Евклидово расстояния-для нас просто разница между значениями-частный случай)между тем что отдала сеть(теория-сеть пытается отыскать сложные законы между поступающими данными) и практикой(говорят условное математическое ожидание)то есть то что называют ответами от учителя.Итак сокращаем,должны найти минимуму такой функции:
y=loss_func(R(Z(X,W),C)),
где
y так называемая функция потерь(у простого регрессора это по другому),
Z -взвесили сигналы
X-сигнал,фактор
С-это конкретное выражение функции потерь,
С=1/2*(y:=<что отдал последний ряд нейронов-теория,это же R>-target:=<практика,жизнь>)**2
(все это векторы и векторные операции)
Так вот когда мы находим производную(дифференцируем) ее по delta W,мы замеряем угол наклона(через tan) данной функции,и все операции типа
1.delta W=W<t-1>*<производная по R>*<разница на последнем слое или матричное умножение W<t-1> ошибки последнего слоя смотри первую часть формулы до R>
2.W<t>=W<t-1> - learning_rate*delta W,
где t время некого состояния весов t-1 - раньше,t - сейчас,текущее.
learning_rate=range(0,1)-дробное число,сокращает величину,размер delta W.
Так вот это все чтобы отыскать у данной функции среди ее локальных минимумов(функция непредсказуемая,потому что подправляет сама себя),отыскать наибольший минимум-глобальный минимум,при этом надо,чтобы сеть не переучилась,ее проверяют на так называемой кросс-валидации,определенные данные ей не показывают,но ответы на них у нас.Сеть обучили даем порцию скрытых данных,сеть ответит,а ответы у нас есть,замерим средним арифметической(если у нас на выходе несколько выходных нейронов,то векторная разница и соответственно деление на количество выходов)метрикой.Так можно делать несколько порций,и нейросеть честно показывает как поняла жизнь.И потом может предсказывать(называют находят регрессию) и классифицировать.(Тоже тонкая разница,но может быть потом смогу описать разницу).
14//12//2019