Разложим f(x) в ряд Тейлора до 2-го слагаемого включительно:
(*)
- вектор
- матрица Гессе, матрица вторых производных.
Будем рассматривать квадратичную аппроксимацию f(x) тогда получим (*) без
то есть предполагаем, что f(x) квадратичная форма. Эта форма имеет единственную точку min, который является корнем уравнения f ’(x)=0.
В данном случае:
Метод Ньютона
Пример:
Сделаем одну итерацию метода Ньютона для квадратичной функции

Этот пример показывает связь решения системы уравнений Ax-b = 0 и поиска минимума соответствующей функции f(x).
= A - матрица вторых производных.
Одна итерация метода Ньютона:

Но это точка минимума квадратичной функции. Таким образом для квадратичной функции метод Ньютона сходится за один шаг (матрица А должна быть положительно определена и симметрична, значения собственных чисел (растянутость) не играют роли).
Точка х1 гораздо ближе к х*, чем в градиентных методах, но надо вычислить матрицу Гессе и обратить ее. Градиентный метод медленнее, но без дополнительных вычислений.
Оценим скорость сходимости метода Ньютона:
Теорема (о скорости сходимости метода Ньютона):
Пусть f(x) дважды дифференцируема, матрица
удовлетворяет условию
Липшица с константой L: 
f(x) сильно выпукла: 0< l I £Ñ2 f(x) и начальное приближение удовлетворяет условию:

Тогда метод Ньютона сходится х* с квадратичной скоростью

Доказательство:
Известно, что:
1)
Если на g’(x) удовлетворяет условию Липшица
, то
Применим это отношение к Ñ2 f(x), тогда
Пусть x = xk , тогда

Дано
(см. условие) тогда:

Таким образом
.
Пусть q1=
(обозначим). Рассмотрим полученное неравенство


.........................................................................

Для сильно выпуклых функций известно

Тогда 
Теорема доказана.
Если начальные условия не удовлетворяют требованиям теоремы, то метод может не сходиться.
Пусть метод обеспечивает выполнение следующего неравенства
, где d- наибольшее из чисел, для которых выполняется это условие, тогда d- скорость сходимости метода.
Если обозначить Dk =
, тогда скорость сходимости
d =
, при Dk®0 (k® ¥).
Пусть Dk+1»q Dk, 0< q< 1. Для этого случая d =1- линейная скорость. Для метода Ньютона тогда Dk+1= const Dk2 Þ d =2- поэтому скорость называется квадратичной.
Сравнительная таблица достоинств и недостатков градиентного метода и метода Ньютона:
| Метод | Достоинства | Недостатки |
| градиентный метод | 1. Глобальная сходимость, т.е. слабые требования на исходные данные, точка х0 может быть далека от х*. 2. Слабые требования к f(x), только f’(x) нужна 3. Относительная простота вычислений | 1. Медленная скорость сходимости (геометрическая сходимость, скорость сходимости d = 1). |
| метод Ньютона | 1. Быстрая сходимость (квадратичная) | 1. Локальная сходимость, т.е. начальное приближение должно быть достаточно близко к х*) 2. Жесткие требования на саму функцию (должна быть дважды непрерывнодифференц. 3. Большой объем вычислений, связанный с необходимостью вычисления матрицы вторых производных и ее обращения. |
Полезен метод ньютона в случае квадратичной функции (сходится за один шаг).