Стохастический градиентный спуск (Stochastic Gradient Descent, SGD) - это метод оптимизации, широко используемый в машинном обучении для обновления параметров модели с целью минимизации функции потерь.
В отличие от обычного градиентного спуска, который вычисляет градиент функции потерь по всем обучающим примерам, стохастический градиентный спуск обновляет параметры модели по одному примеру за раз или небольными наборами примеров (mini-batches).
Этот подход имеет название "стохастический", потому что каждое обновление параметров является стохастическим (случайным) и основано на маленькой случайной выборке данных. Это позволяет значительно ускорить процесс обучения и эффективно работать с большими наборами данных.
SGD часто используется в обучении нейронных сетей и других моделях машинного обучения, причем его различные вариации, такие как:
- - Mini-Batch SGD и
- - Momentum SGD,
позволяют оптимизировать процесс обучения и повысить его эффективность.