Один пример исследования сходимости

Изучим сходимость градиентного метода с постоянным шагом на примере функции

f (x) = | x | p,

где p > 1 (случай p ≤ 1 мы не рассматриваем, поскольку тогда функция f не будет гладкой, а мы такой случай не исследуем). Очевидно, задача (1) с такой функцией f имеет единственное решение x * = 0. Для этой функции приближения xn градиентного метода имеют вид:

xn +1 = xn – α p | xn | p –1sign xn. (6)

Пределом этой последовательности может быть только 0. Действительно, если x ** = lim n →∞ xn ≠ 0, то, переходя к пределу в (6) при n → ∞, получаем противоречащее предположению x ** ≠ 0 равенство

x ** = x ** – α p | x **| p –1sign x **,

откуда x ** = 0. Очевидно также, что если x 0 = 0, то и xn = 0 при всех n.

Покажем, что если p < 2, то при любом шаге α > 0 и любом начальном приближении x 0 (за исключением не более чем счетного числа точек) приближения (6) не являются сходящимися. Для этого заметим, что если 0 < | xn | < (2/α p)1/2(2– p), то

| xn +1| > | xn |. (7)

Поэтому, если xn не обращается в нуль, то она не может сходиться к нулю и, следовательно, не может сходиться вообще.

З а д а ч а 4. Докажите.

Таким образом, осталось доказать (7). В силу (6)

| xn +1| = | xn – α p | xn | p –1 ·sign xn | = | xn |·| 1 –α p | xn | p –2·sign xn |.

Остается заметить, что если 0 < | xn | < (2/α p)1/(2– p), то, как нетрудно видеть, |1 – α p | xn | p –2·sign xn | > 1, что и требовалось.

З а д а ч а 5. Покажите, что число начальных точек x 0, для которых xn обращается в нуль при некотором n (и, следовательно, при всех бóльших), не более чем счетно.

Если p = 2, т. е. f (x) = x 2, то (6) переписывается в виде

| xn +1| = | xn |·|1 – 2α|.

Поэтому, если α ∈ (0, 1), то |1 – 2α| < 1, а следовательно,

| xn +1| = |1 – 2α| n +1·| x 0| → 0 при n → ∞.

Если же α ≥ 1, то

| xn +1| ≥ | xn |,

и последовательность { xn }, начинающаяся из ненулевой начальной точки, расходится.

З а д а ч а 6. Докажите, что если p > 2, то градиентный метод (6) сходится при α p | x 0| p –2 < 2 и расходится при α p | x 0| p –2 ≥ 2 для любых начальных точек, за исключением может быть счетного множества.

Таким образом, есть функции, для которых градиентный метод не сходится даже при сколь угодно малом шаге α и есть функции, для которых он сходится только при достаточно малых шагах. В следующих пунктах мы приведем ряд теорем о сходимости градиентного метода.

 

Теорема об условной сходимости градиентного метода с постоянным шагом.

Теорема 1: Пусть в задаче (1) функция f ограничена снизу, непрерывно дифференцируема и, более того, fудовлетворяет условию Липшица:

|| f ′(x) – f ′(y)|| ≤ Λ || xy || при всех x, y ∈ R m.

Тогда при α ∈ (0, 2/Λ) градиентный метод с постоянным шагом условно сходится.

Д о к а з а т е л ь с т в о. Положим zn = –α f ′(xn) и обозначим f (xn + tzn) через φ(t). Тогда, как легко видеть,

φ′(t) = (f ′(xn + tzn), zn)

и поэтому по формуле Ньютона — Лейбница для функции φ

f (xn +1) – f (xn) = f (xn + zn) – f (xn) = φ(1) – φ(0) =

 

= 1 0 φ′(s) ds = 1 0 (f ′(xn + szn), zn) ds.

 

Добавив и отняв (f ′(xn), zn) = ∫01(f ′(xn), zn) ds и воспользовавшись неравенством (x, y) ≤ || x || · || y ||, получим

 

f (xn +1) – f (xn) = (f ′(xn), zn) + 1 0 (f ′(xn + szn) – f ′(xn), zn) ds

 

≤ (f ′(xn), –α f ′(xn)) + 1 0 || f ′(xn + szn) – f ′(xn)|| · || zn || ds.

Учитывая условие Липшица для f ′, эту цепочку можно продолжить:

f (xn +1) – f (xn) ≤ –α|| f ′(xn)||2 + Λ || zn ||2 1 0 s ds =
= – α|| f ′(xn)||2 + Λα2 2 || f ′(xn)||2 = –α|| f ′(xn)||2 ( 1 – Λα 2 ) .
(8)

Поскольку 1 – Λα/2 > 0, последовательность { f (xn)} не возрастает и, следовательно, релаксационность { xn } доказана. А так как в силу условий теоремы f еще и ограничена снизу, последовательность { f (xn)} сходится. Поэтому, в частности, f (xn +1) – f (xn) → 0 при n → ∞. Отсюда и из (8) получаем

|| f ′(xn)||2 ≤ α–1 ( 1 – Λα 2 ) –1 [ f (xn) – f (xn +1)] → 0 при n → ∞.

Замечания о сходимости.

Подчеркнем, что теорема 1 не гарантирует сходимости метода, но лишь его условную сходимость, причем, локальную. Например, для функции f (x) = (1 + x 2)–1 на R последовательность { xn } градиентного метода с постоянным шагом, начинающаяся с произвольного x 0 стремится к ∞.

 

З а д а ч а 7. Докажите это.

Поскольку в теореме 1 градиент непрерывен, любая предельная точка последовательности { xn } является стационарной. Однако эта точка вовсе не обязана быть точкой минимума, даже локального. Например, рассмотрим для функции f (x) = x 2sign x градиентный метод с шагом α ∈ (0, 1/2). Тогда, как легко видеть, если x 0 > 0, то xn → 0 при n → ∞. Точка же x = 0 не является локальным минимумом функции f.

Заметим также, что описанный метод не различает точек локального и глобального минимумов. Поэтому для того, чтобы сделать заключение о сходимости xn к точке x * = argmin f (x) приходится налагать дополнительные ограничения, гарантирующие, в частности, существование и единственность решения задачи (1). Один вариант таких ограничений описывается ниже.

Теорема о линейной сходимости градиентного метода с постоянным шагом.

Теорема 2: Пусть выполнены условия теоремы 1. и, кроме того, f дважды непрерывно дифференцируема и сильно выпукла с константой λ. Тогда при α ∈ (0, 2/Λ) градиентный метод с шагом α сходится со скоростью геометрической прогрессии со знаменателем q = max{|1 – αλ|, |1 – αΛ |}:

|| xnx *|| ≤ qn || x 0x *||.

Д о к а з а т е л ь с т в о. Решение x * = argmin f (x) существует и единственно. Для функции F (x) = f ′(x) воспользуемся аналогом формулы Ньютона — Лейбница

F (y) = F (x) + 1 0 F ′[ x + s (yx)](yx) ds.

Далее, f ′′(x) ≤ Λ при всех xR m. Кроме того, по условию f ′′(x) ≥ λ при тех же x. Поэтому, так как

λ|| h ||2 ≤ (f ′′[ x * + s (xnx *)] h, h) ≤ Λ || h ||2,

выполнено неравенство

λ|| h ||2 ( ( 1 0 f ′′[ x * + s (xnx *)] ds ) h, h ) ≤ Λ || h ||2.
(10)

Интеграл, стоящий в этом неравенстве, определяет линейный (симметричный в силу симметричности f) оператор на R m, обозначим его L n. Неравенство (10) означает, что λ ≤ L n ≤ Λ. В силу (9) градиентный метод (4) записывается в виде

xn +1 = xn – αL n (xnx *).

Спектр σ(I – αL n) оператора I – αL n состоит из чисел вида σ i = 1 –αλ i, где λ i ∈ σ(L n). В силу (10),

1 – αλ ≥ σ i ≥ 1 – αΛ,

и следовательно

|| I – αL n || ≤ max{|1 –αλ|, |1 – αΛ |} = q.

Таким образом,

|| xn +1xn || ≤ q || xnx *||.

Из этого неравенства и задачи 1 вытекает утверждение теоремы.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: