Термин "обратное распространение" относится к процессу, с помощью которого могут быть вычислены производные функционала ошибки по параметрам сети. Этот процесс может использоваться в сочетании с различными стратегиями оптимизации. Существует много вариантов и самого алгоритма обратного распространения. Обратимся к одному из них.
Рассмотрим выражение для градиента критерия качества по весовым коэффициентам для выходного слоя M:
(3.9)
где – число нейронов в слое; – k -й элемент вектора выхода слоя M для элемента выборки с номером q.
Правило функционирования слоя M:
(3.10)
Из уравнения (3.8) следует
(3.11)
После подстановки (3.11) в (3.9) имеем:
Если обозначить
(3.12)
то получим
(3.13)
Перейдем к выводу соотношений для настройки весов слоя M –1
(3.14)
где
Для слоев M –2, M –3, …,1 вычисление частных производных критерия J по элементам матриц весовых коэффициентов выполняется аналогично. В итоге получаем следующую общую формулу:
(3.15)
где r – номер слоя
На рис. 3.6 представлена схема вычислений, соответствующая выражению (3.15).
|
|
Рис. 3.6
На этой схеме символом * обозначена операция поэлементного умножения векторов, а символом ** – умножение вектора D на a T; символ, обозначающий номер элемента выборки, для краткости опущен.