Градиентный метод с постоянным шагом

Градиентные методы

... нет такой воды, которая не стремилась бы [течь] вниз.

Мэн-цзы

Здесь изучается класс так называемых градиентных методов приближенного решения задач оптимизации. Доказываются теоремы сходимости, описываются простейшие модификации.

Общие соображения и определения.

Наиболее распространенные и эффективные методы приближенного решения задачи безусловной оптимизации

f (x) → min,

(1)

где f: R ^m → R, укладываются в следующую грубую схему. Начиная с некоторого x ⁰ ∈ R ^m, строится последовательность { xⁿ } ⊂ R ^m такая, что

f (xⁿ ⁺¹) < f (xⁿ)

(2)

при всех n ∈ N. Такие последовательности иногда называют релаксационными, а методы построения релаксационных последовательностей – итерационными методами или методами спуска. Последовательность, удовлетворяющую (2), строят в надежде, что уменьшая на каждом шаге (переходе от xⁿ к xⁿ ⁺¹) значение функции, мы приближаемся к минимуму (по крайней мере, локальному).

Мы будем говорить, что метод, начиная с данного x ⁰ ∈ R ^m,

а) условно сходится, если последовательность { xⁿ } релаксационна и

f ′(xⁿ) → Θ при n → ∞;

б) сходится, если

xⁿ → x * = argmin f (x) при n → ∞;

в) линейно сходится (или сходится со скоростью геометрической прогрессии, или имеет первый порядок сходимости), если при некоторых C > 0 и q ∈ [0, 1)

|| xⁿ – x *|| ≤ Cqⁿ;

(3)

г) сверхлинейно сходится, если для любого q ∈ (0, 1) и некоторого (зависящего от q) C выполнено неравенство (3);

д) квадратично сходится (или имеет второй порядок сходимости), если при некоторых C > 0 и q ∈ [0, 1) и всех n ∈ N

|| xⁿ – x *|| ≤ Cq ^{2 n}.

Если эти свойства выполняются только для x ⁰ достаточно близких к x *, то как всегда добавляется эпитет "локально".

З а д а ч а 1*. Пусть при некотором q ∈ [0, 1)

|| xⁿ ⁺¹ – x *|| ≤ q || xⁿ – x *||, n ∈ N.

Докажите, что метод линейно сходится.

З а д а ч а 2*. Пусть при некотором C ₁ > 0

|| xⁿ ⁺¹ – x *|| ≤ C ₁|| xⁿ – x *||², n ∈ N

и || x ⁰ – x *|| достаточно мала. Докажите, что метод квадратично сходится.

Будем говорить, что на данной последовательности метод сходится с порядком p (или имеет p-ый порядок сходимости), если при некотором C

|| xⁿ ⁺¹ – x *|| ≤ C || xⁿ – x *|| ^p.

Эвристические соображения, приводящие к градиентным методам.

Выше уже отмечалось, что если x не является точкой локального минимума функции f, то двигаясь из x в направлении, противоположном градиенту (еще говорят, в направлении антиградиента), мы можем локально уменьшить значение функции. Этот факт позволяет надеяться, что последовательность { xⁿ }, рекуррентно определяемая формулой

xⁿ ⁺¹ = xⁿ – α f ′(xⁿ),

(4)

где α - некоторое положительное число, будет релаксационной.

К этой же формуле приводит и следующее рассуждение. Пусть у нас есть некоторое приближение xⁿ. Заменим в шаре B (xⁿ, ε) с центром в точке xⁿ функцию f ее линейным (вернее, афинным) приближением:

f (x) ≈ φ(x) ≝ f (xⁿ) + (f ′(xⁿ), x – xⁿ) (4^*)

(функция φ аппроксимирует f в окрестности точки xⁿ с точностью o (x – xⁿ)). Разумеется, (линейная) безусловная задача φ(x) → min неразрешима, если f ′(xⁿ) ≠ Θ. В окрестности же B (xⁿ, ε) функция φ имеет точку минимума. Эту точку естественно взять за следующее приближение xⁿ ⁺¹.

Градиентный метод с постоянным шагом.

В общем случае число α в формуле (4) может на каждом шаге (т. е. для каждого n) выбираться заново:

xⁿ ⁺¹ = xⁿ – α ⁿf ′(xⁿ).

(5)

Именно методы, задаваемые формулой (5), называются градентными. Если α ⁿ = α при всех n, то получающийся метод называется градиентным методом с постоянным шагом (с шагом α.)

Поясним геометрическую суть градиентного метода. Для этого мы выберем способ изображения функции с помощью линий уровня. Линией уровня функции f (изолинией) называется любое множество вида { x ∈ R ^m: f (x) = c }. Каждому значению c отвечает своя линия уровня (см. рис. 1).

Рис. 1.

З а д а ч а 3. Докажите, что касательная к линии уровня функции f: R ² → R ортогональна к градиенту. Как обобщить это утверждение на многомерный случай?

Геометрическая интерпретация градиентного метода с постоянным шагом изображена на рис. 2. На каждом шаге мы сдвигаемся по вектору антиградиента, "уменьшенному в α раз".

Рис. 2.