Один пример исследования сходимости

Изучим сходимость градиентного метода с постоянным шагом на примере функции

f (x) = | x | ^p,

где p > 1 (случай p ≤ 1 мы не рассматриваем, поскольку тогда функция f не будет гладкой, а мы такой случай не исследуем). Очевидно, задача (1) с такой функцией f имеет единственное решение x * = 0. Для этой функции приближения xⁿ градиентного метода имеют вид:

xⁿ ⁺¹ = xⁿ – α p | xⁿ | ^p ^–1sign xⁿ.

(6)

Пределом этой последовательности может быть только 0. Действительно, если x ** = lim _n _→∞ xⁿ ≠ 0, то, переходя к пределу в (6) при n → ∞, получаем противоречащее предположению x ** ≠ 0 равенство

x ** = x ** – α p | x **| ^p ^–1sign x **,

откуда x ** = 0. Очевидно также, что если x ⁰ = 0, то и xⁿ = 0 при всех n.

Покажем, что если p < 2, то при любом шаге α > 0 и любом начальном приближении x ⁰ (за исключением не более чем счетного числа точек) приближения (6) не являются сходящимися. Для этого заметим, что если 0 < | xⁿ | < (2/α p)^{1/2(2– p)}, то

| xⁿ ⁺¹| > | xⁿ |.

(7)

Поэтому, если xⁿ не обращается в нуль, то она не может сходиться к нулю и, следовательно, не может сходиться вообще.

З а д а ч а 4. Докажите.

Таким образом, осталось доказать (7). В силу (6)

| xⁿ ⁺¹| = | xⁿ – α p | xⁿ | ^p ^–1 ·sign xⁿ | = | xⁿ |·| 1 –α p | xⁿ | ^p ^–2·sign xⁿ |.

Остается заметить, что если 0 < | xⁿ | < (2/α p)^{1/(2– p)}, то, как нетрудно видеть, |1 – α p | xⁿ | ^p ^–2·sign xⁿ | > 1, что и требовалось.

З а д а ч а 5. Покажите, что число начальных точек x ⁰, для которых xⁿ обращается в нуль при некотором n (и, следовательно, при всех бóльших), не более чем счетно.

Если p = 2, т. е. f (x) = x ², то (6) переписывается в виде

| xⁿ ⁺¹| = | xⁿ |·|1 – 2α|.

Поэтому, если α ∈ (0, 1), то |1 – 2α| < 1, а следовательно,

| xⁿ ⁺¹| = |1 – 2α| ⁿ ⁺¹·| x ⁰| → 0 при n → ∞.

Если же α ≥ 1, то

| xⁿ ⁺¹| ≥ | xⁿ |,

и последовательность { xⁿ }, начинающаяся из ненулевой начальной точки, расходится.

З а д а ч а 6. Докажите, что если p > 2, то градиентный метод (6) сходится при α p | x ⁰| ^p ^–2 < 2 и расходится при α p | x ⁰| ^p ^–2 ≥ 2 для любых начальных точек, за исключением может быть счетного множества.

Таким образом, есть функции, для которых градиентный метод не сходится даже при сколь угодно малом шаге α и есть функции, для которых он сходится только при достаточно малых шагах. В следующих пунктах мы приведем ряд теорем о сходимости градиентного метода.

Теорема об условной сходимости градиентного метода с постоянным шагом.

Теорема 1: Пусть в задаче (1) функция f ограничена снизу, непрерывно дифференцируема и, более того, f ′ удовлетворяет условию Липшица:

|| f ′(x) – f ′(y)|| ≤ Λ || x – y || при всех x, y ∈ R ^m.

Тогда при α ∈ (0, 2/Λ) градиентный метод с постоянным шагом условно сходится.

Д о к а з а т е л ь с т в о. Положим zⁿ = –α f ′(xⁿ) и обозначим f (xⁿ + tzⁿ) через φ(t). Тогда, как легко видеть,

φ′(t) = (f ′(xⁿ + tzⁿ), zⁿ)

и поэтому по формуле Ньютона — Лейбница для функции φ

f (xⁿ ⁺¹) – f (xⁿ) = f (xⁿ + zⁿ) – f (xⁿ) = φ(1) – φ(0) =

∫

1 0

φ′(s) ds =

∫

1 0

(f ′(xⁿ + szⁿ), zⁿ) ds.

Добавив и отняв (f ′(xⁿ), zⁿ) = ∫₀¹(f ′(xⁿ), zⁿ) ds и воспользовавшись неравенством (x, y) ≤ || x || · || y ||, получим

f (xⁿ ⁺¹) – f (xⁿ) = (f ′(xⁿ), zⁿ) +

∫

1 0

(f ′(xⁿ + szⁿ) – f ′(xⁿ), zⁿ) ds ≤

≤ (f ′(xⁿ), –α f ′(xⁿ)) +

∫

1 0

|| f ′(xⁿ + szⁿ) – f ′(xⁿ)|| · || zⁿ || ds.

Учитывая условие Липшица для f ′, эту цепочку можно продолжить:

f (xⁿ ⁺¹) – f (xⁿ) ≤ –α|| f ′(xⁿ)||² + Λ || zⁿ ||²

∫

1 0

s ds =

= – α|| f ′(xⁿ)||² +

Λα² 2

|| f ′(xⁿ)||² = –α|| f ′(xⁿ)||²

(

1 –

Λα 2

)

(8)

Поскольку 1 – Λα/2 > 0, последовательность { f (xⁿ)} не возрастает и, следовательно, релаксационность { xⁿ } доказана. А так как в силу условий теоремы f еще и ограничена снизу, последовательность { f (xⁿ)} сходится. Поэтому, в частности, f (xⁿ ⁺¹) – f (xⁿ) → 0 при n → ∞. Отсюда и из (8) получаем

|| f ′(xⁿ)||² ≤ α^–1

(

1 –

Λα 2

)

^–1

[ f (xⁿ) – f (xⁿ ⁺¹)] → 0 при n → ∞.

Замечания о сходимости.

Подчеркнем, что теорема 1 не гарантирует сходимости метода, но лишь его условную сходимость, причем, локальную. Например, для функции f (x) = (1 + x ²)^–1 на R последовательность { xⁿ } градиентного метода с постоянным шагом, начинающаяся с произвольного x ⁰ стремится к ∞.

З а д а ч а 7. Докажите это.

Поскольку в теореме 1 градиент непрерывен, любая предельная точка последовательности { xⁿ } является стационарной. Однако эта точка вовсе не обязана быть точкой минимума, даже локального. Например, рассмотрим для функции f (x) = x ²sign x градиентный метод с шагом α ∈ (0, 1/2). Тогда, как легко видеть, если x ⁰ > 0, то xⁿ → 0 при n → ∞. Точка же x = 0 не является локальным минимумом функции f.

Заметим также, что описанный метод не различает точек локального и глобального минимумов. Поэтому для того, чтобы сделать заключение о сходимости xⁿ к точке x * = argmin f (x) приходится налагать дополнительные ограничения, гарантирующие, в частности, существование и единственность решения задачи (1). Один вариант таких ограничений описывается ниже.

Теорема о линейной сходимости градиентного метода с постоянным шагом.

Теорема 2: Пусть выполнены условия теоремы 1. и, кроме того, f дважды непрерывно дифференцируема и сильно выпукла с константой λ. Тогда при α ∈ (0, 2/Λ) градиентный метод с шагом α сходится со скоростью геометрической прогрессии со знаменателем q = max{|1 – αλ|, |1 – αΛ |}:

|| xⁿ – x *|| ≤ qⁿ || x ⁰ – x *||.

Д о к а з а т е л ь с т в о. Решение x * = argmin f (x) существует и единственно. Для функции F (x) = f ′(x) воспользуемся аналогом формулы Ньютона — Лейбница

F (y) = F (x) +

∫

1 0

F ′[ x + s (y – x)](y – x) ds.

Далее, f ′′(x) ≤ Λ при всех x ∈ R ^m. Кроме того, по условию f ′′(x) ≥ λ при тех же x. Поэтому, так как

λ|| h ||² ≤ (f ′′[ x * + s (xⁿ – x *)] h, h) ≤ Λ || h ||²,

выполнено неравенство

λ|| h ||² ≤

(

∫

1 0

f ′′[ x * + s (xⁿ – x *)] ds

)

h, h

)

≤ Λ || h ||².

(10)

Интеграл, стоящий в этом неравенстве, определяет линейный (симметричный в силу симметричности f) оператор на R ^m, обозначим его L ⁿ. Неравенство (10) означает, что λ ≤ L ⁿ ≤ Λ. В силу (9) градиентный метод (4) записывается в виде