Оптимизатор — это метод повышения производительности Модели (Model) Глубокого обучения (Deep Learning). Эти алгоритмы сильно влияют на Долю правильных ответов (Accuracy) и скорость обучения. При обучении модели глубокого обучения нам необходимо изменить Веса (Weights) – коэффициенты, которые присваиваются каждому Признаку-столбцу (Feature) и передают важность этого соответствующего признака при прогнозировании. Более того, веса позволяют минимизировать Функцию потерь (Loss Function). Чем меньше ее значение, тем ближе предсказание модели к реальным значениям...
Стохастический градиентный спуск (Stochastic Gradient Descent, SGD) - это метод оптимизации, широко используемый в машинном обучении для обновления параметров модели с целью минимизации функции потерь. В отличие от обычного градиентного спуска, который вычисляет градиент функции потерь по всем обучающим примерам, стохастический градиентный спуск обновляет параметры модели по одному примеру за раз или небольными наборами примеров (mini-batches). Этот подход имеет название "стохастический", потому что каждое обновление параметров является стохастическим (случайным) и основано на маленькой случайной выборке данных...