Усовершенствования алгоритма обратного распространения

Функция энергии ошибки E_P представляет собой довольно сложную овражистую поверхность с большим числом локальных минимумов (рис.3.3). Если при градиентном спуске попасть в такой минимум, то, очевидно, сеть не будет настроена на оптимальную производительность.

Рисунок 3.3 – Функция с овражным эффектом

Существует несколько путей решения проблем, связанных с локальными минимумами.

1. Простейший способ – это использование переменной скорости обучения η. В начале работы алгоритма ее величина представляет собой большое значение, близкое к 1, по мере сходимости η последовательно уменьшается. Это позволяет быстро подойти к минимуму, а затем точно попасть в него.

2. «Овражный» метод. Учитываются тенденции в поверхности добавлением момента инерции:

(3.13)

Где μ – положительное число, называемое постоянной момента.

Выражение (3.13) называют обобщённым дельта-правилом. Идея заключается в скачке через локальные минимумы в поверхности ошибки.

3. Метод сопряженных градиентов. Флетчер и Ривс предложили выбирать направление, сопряженное градиенту, более точно указывающее именно на минимум функции:

(3.14)

Где – векторный дифференциальный оператор;

4. Наиболее точное решение – это решение, которое позволяют получить так называемые методы второго порядка. Общий принцип работы основан на использовании матрицы вторых производных – гессиана .