Поговорим о градиенте --- основном инструменте для оптимизации функций двух и более переменных и вообще очень полезной вещи в математической физике. Пусть дана гладкая функция двух переменных: f(x,y). Надо найти точки (x,y), в которых f принимает максимальное (или минимальное) значение.
Функция двух переменных --- это рельеф местности, с холмами и впадинами, оврагами и пиками. Гладкая (дифференцируемая) --- это приближаемая плоскостью вблизи каждой точки: если хорошо увеличить фрагмент, он будет выглядеть плоским. Не допускаются острые грани, острия, разрывы и все в таком роде.
Есть максимумы локальные --- это холмы и пики: самая высокая точка среди тех, что рядом. Глобальный максимум --- наивысший среди локальных. Мы говорим о локальных только!
Касательная плоскость, которая приближает функцию лучше всех вблизи данной точки (x0,y0), имеет уравнение A(x-x0) + B(y-y0) = z-z0, где z0=f(x0,y0), а вектор (A,B) называется градиентом. Сами числа A и B --- это частные производные, хотя из наличия частных производных дифференцируемость не следует (контрпример: xy/(x^2+y^2) в нуле).
Частная производная --- по одной переменной, остальные притворяются константами.
Градиент указывает направление скорейшего возрастания функции. В самом деле, приращение (смещение вдоль поверхности), с точностью до бесконечно малой (которая повлиять не сможет из-за малости) равно дифференциалу (смещению вдоль касательной плоскости), а он равен Adx+Bdy, то есть скалярному произведению градиента на вектор приращения (dx,dy). Если этот последний одной длины, только направление можно менять, то скалярное произведение максимально, если угол между векторами равен единице, то есть векторы направлены в одну сторону: приращение направлено по градиенту.
Антиградиент, градиент со знаком минус, указывает направление скорейшего убывания. И вообще, под острым углом к градиенту можно продвинуться вверх, а под тупым --- вниз. Соответственно, к линиям уровня, на которых функция сохраняет постоянное значение, градиент перпендикулярен.
В точке локального минимума или максимума градиент равен нулю. Как вектор, то есть обе компоненты одновременно равны нулю. Причем в любых координатах!
В самом деле, если градиент не нуль, то он указывает направление, в котором можно подняться, а в противоположном --- опуститься.
Однако обнуление градиента само по себе ничего, разумеется, не означает. Это "горизонтальная точка". Представьте себе холмистую местность, покрытую льдом --- там очень скользко. Нули градиента --- это точки, в которых касательная горизонтальна, то есть там можно, осторожно, стоять. В других местах стоять нельзя --- там наклон. Среди тех мест есть ямы-минимумы, есть вершины-максимумы, а есть и разные перевалы, овраги, ступеньки и т.п.
На свойстве градиента указывать направление роста основаны методы градиентного спуска. Берешь любую точку, вычисляешь в ней градиент, делаешь шаг вдоль него (точнее, против него) так, чтобы функция уменьшилась. В итоге найдешь минимум или, если не повезло, просто точку, в которой градиент обнуляется. Пошарив вокруг, можно выяснить, минимум это или нет.
Можно чуть усложнить процедуру, рассматривая градиент как силу, движущую материальную точку данной массы (это параметр). Второй закон Ньютона выражает ускорение через силу --- градиент, а также трение, которое пропорционально скорости (еще один параметр). Два параметра, плюс всю эту систему надо численно решать. Зато инерция позволяет проскакивать ложные точки, которые не минимумы, а трение гасит колебания вокруг минимума, позволяя его "гарантированно" найти.
Давайте для примера рассмотрим метод наименьших квадратов. Даны точки (x1,y1), (x2,y2), ..., (xn,yn). Построить прямую, которая приближает эти точки.
Что значит "приближает", надо уточнить. В МНК ищется прямая (или другая линия из параметрического семейства), для которой сумма квадратов отклонений минимальна. Квадрат берется потому, что он дифференцируемый и не чувствителен к знаку, так что отклонения вверх и вниз друг друга не компенсируют.
Прямая имеет вид y=ax+b, и надо определить a и b. Предсказанные значения будут ax1+b и т.п., отклонения имеют вид y1-ax1-b и т.п., возведем их в квадрат и сложим. Получим функцию двух переменных.
Находим частные производные по a и b. Приравниваем нулю. Находим a и b. Решение единственно, это и есть искомый минимум.
Продолжение следует --- метод Лагранжа.