Adam (Adaptive Moment Estimation) — алгоритм адаптивной оптимизации, созданный специально для глубокого обучения нейронных сетей. Для каждого веса в нейронной сети Adam поддерживает два скользящих средних: первый момент (среднее значение градиентов) и второй момент (дисперсия градиентов без центра). Это позволяет алгоритму эффективно адаптироваться как к плоским, так и к крутым областям пространства параметров. Основные шаги алгоритма Adam: Преимущества алгоритма Adam: Основные гиперпараметры в Adam: α — размер шага оптимизации. β₁ — скорость затухания импульса (типичное значение — 0,9). β₂ — скорость затухания квадратов градиентов (типичное значение — 0,999). ϵ — маленькое значение, чтобы предотвратить деление на ноль (обычно около 1e-8). Для достижения оптимальных результатов требуется тщательная настройка гиперпараметров, таких как скорости обучения и параметры моментов. Чтобы понять, как этот алгоритм работает, рассмотрим визуализацию Эмильена Дюпона из Оксфордского университета. В