Многошаговые ( двухшаговые ) методы

Метод тяжелого шарика:

Общий вид метода тяжелого шарика:

x_k+1= x_k - aÑf(x_k)+b(x_k-x_k-1)

Это разностное уравнение, полученое из ДУ, которое описывает движение шарика, катящегося по некоторой поверхности с постоянным трением.

Введение инерции r(x_k-x_k-1) увеличивает скорость сходимости.

Теорема (о скорости сходимости метода тяжелого шарика):

Пусть 0< l I £ Ñ²f(x) £ L I (сильная выпуклость)

0 £ b £ 1, 0< a < a(1-b)/L,

тогда существует с=const такая, что || x_k- x* || £ cq^k,

Без доказательства

Таким образом, метод сходится не быстрее геометрической прогрессии, как и градиентный метод; показатель геометрической прогрессии тот же, только с корнями, но применение двухшагового метода при плохой обусловленности позволяет уменьшить эту обусловленность.

Модификаций двухшагового метода- метод сопряженных градиентов.

Метод сопряженных градиентов

x_k+1= x_k - a_kÑf(x_k) + b_k(x_k-x_k-1)

Отличается тем, что a_kи b_kзависят от шага и выбираются следующим образом:

(a_k, b_k) = argmin f(x_k - a_kÑf(x_k)+b_k(x_k-x_k-1))

^{^a^,^b^}

Для квадратичной функции

1. Метод сходится за конечное число шагов, не превосходящее размерности пространства состояний.

2. Градиенты в методе попарно ортогональны (Ñf(x_i), Ñf(x_k))=0, "i¹k

Но в Rⁿ не может существовать более n ортогональных ненулевых векторов, поэтому для некоторого k £ n будет Ñf(x_k)=0, то есть точка x_k- точка минимума.

3. Последовательные направления движения p_k=x_k-x_k-1удовлетворяют соотношению (Ap_i, p_j) =0 "i¹j

Определение:

Векторы p_i, связанные соотношением (Ap_i, p_j) =0, называются сопряженными или А- ортогональными.

В методе сопряженных градиентов x_kявляется точкой минимума квадратичной функции f(x) на подпространстве, порожденном первыми k градиентами. Следовательно никакой метод, использующий только градиенты функции (точнее, в котором шаг делается по линейной комбинации предыдущих градиентов), не может сходиться быстрее, то есть метод сопряженных градиентов является оптимальным по скорости сходимости в классе методов первого порядка.

Модификация Полака-Ривьера

x_k+1= x_k+ a_kp_k, где a_k= argmin f(x_k+ a_kp_k), a>0

p_k= -Ñf(x_k)+b_kp_k-1

b₀= 0

Для квадратичной функции последовательность точек x_i, определенная этими формулами, совпадает с последовательностью, полученной методом сопряженных градиентов.

Эту модификацию удобнее применять для произвольных (неквадратичных) функций.

Рекомендуется применять процедуру обновления, т.е. через каждые n-шагов происходит сдвиг в направлении антиградиента.

То есть b₀= 0, затем b_n=0...... b_mn=0, следовательно p_k= -Ñf(x_k)+0*p_k-1= -Ñf(x_k)

(сдвиг в направлении антиградиента)

По скорости сходимости n шагов метода сопряженного градиента эквивалентны одному шагу метода Ньютона (для квадратичной функции метод сходится за один шаг).

1.4.Квазиньютоновские методы

общая структура: x_k+1= x_k - g_kH_kÑf(x_k)

1. Если H_k=I, то это градиентный метод.

2. Если H_k= (Ñ²f(x_k))^-1, то это метод Ньютона.

3. Если H_k= H_k (Ñf(x_i), i=1..k) ® (Ñ²f(x_k))^-1, т.е. матрица H_k пересчитывается рекурентным способом на основе информации, полученной на k-й итерации.

Достоинство:

Не надо вычислять обратную матрицу вторых производных.

Обозначим p_k= H_kÑf(x_k)

y_k= Ñf(x_k+1) -Ñf(x_k),

,A>0

Тогда для квадратичной функции имеем

y_k= A(x_k+1-x_k) = g_kAp_k

g_kp_k= y_kA^-1,

поэтому матрицу H_k+1 (необязательно для квадратичной функции) выбирают так, чтобы выполнялось так называемое квазиньютоновское условие:

H_k+1y_k= g_kp_k(H_k- должна стремиться к (Ñ²f(x_k))^-1

Метод Давидона- Флетчера- Пауэлла (ДФП)

Проверим выполнение квазиньютоновского условия:

Для квадратичной функции метод сходится за n шагов, где n – размерность пространства состояний. Скорость сходимости этого метода сверхлинейная (быстрее любой геометрической прогрессии).Сходимость глобальная.

Объединяет достоинства градиентных методов и метода Ньютона.

Процедура применения:

На очередном шаге, имея H_k, делаем шаг в направлении p_k. Получаем g_k (например, по методу наискорейшего спуска), получаем x_k+1, вычисляем y_k и пересчитываем H_k+1 для следующего шага.

Недостаток:

(по сравнению с методом сопряженных градиентов)

Надо хранить и пересчитывать H_kразмерности m´n.

Метод Бройдена-Флетчера –Шенно.

где

Примечание:

Последовательности x_k,генерируемые каждым вариантом, для квадратичной функции совпадают. Существует много других модификаций приведенных квазиньютоновских методов.

1.5 Методы нулевого порядка

1. Методы апроксимации

В их основе лежит апроксимация градиента и матрицы вторых производных с помощью конечных разностей.

Пусть e_j- орт j-й оси.

f (x + ge_j)» f(x) + ¶f/¶x_jg + O(g²)

¶f/¶x_j= (f(x + ge_j) - f(x))/ g» (f(x + ge_j) - f(x - ge_j))/ (2g)

Здесь под градиентом понимается конечная разность. Если g слишком мала, то слишком велики погрешности при вычислении производных. Если g велика, то из-из O(g²) погрешности тоже велики. Таким образом проблема этих методов- выбор g.