zum Directory-modus

Neuronale Netze - komplett

Herleitung der Backpropagation-Regel

Die Delta-Regel wurde zuvor nur für einstufige Netze und für lineare Aktivierungsfunktionen hergeleitet. Da wir gesehen haben, dass lineare Netze nur lineare Funktionen berechnen können und mehrstufige Netze mächtiger sind als einstufige Netze, sind Trainingsverfahren für mehrstufige nichtlineare Netze notwendig. Das Problem mehrstufiger Netze ist, dass keine erwünschte Ausgabe als Lerneingabe (teaching input) für die Zellen innerer Ebenen vorhanden ist. Im Folgenden geben wir eine Verallgemeinerung der Delta-Regel für

  • Netze mit mehreren Ebenen und
  • semilineare (d.h. monotone, differenzierbare, jedoch im Allgemeinen nichtlineare) Aktivierungsfunktionen

an. Diese verallgemeinerte Delta-Regel ist unter dem Namen Backpropagation bekannt.

Die Netzeingabe einer einzelnen Zelle j bei Muster p ist gegeben durch:

net p j = i o p i w i j

Für eine Zelle j mit semilinearer Aktivierungsfunktion f act , j gilt:

o pj = f act net p j

Analog ergibt sich mit der gleichen Definition des Fehlers in diesem Fall:

Δ w i j = p η E p w i j

Auch hier erweist sich die Anwendung der Kettenregel als notwendig:

E p w i j = E p net p j net p j w i j

Aus Gleichung ergibt sich für den zweiten Faktor:

net p j w i j = w i j j o p i w i j = o p i

Wenn man nun einfach den ersten Faktor in Gleichung als Fehlersignal definiert, wird erhalten.

δ p j = E p net p j

Mit Gleichung und der Kettenregel erhält man

δ p j = E p net p j = E p o p j o p j net p j

genau wie bei der Standard-Delta-Regel (offline-Version), nur dass hier die δ p j komplizierter definiert sind.

Für den zweiten Faktor in Gleichung folgt mit Gleichung die erste Ableitung der Aktivierungsfunktion f act von Neuron j :

o p j net p j = net p j f a c t net p j = f a c t ' net p j

Aus , , und wird

Δ w i j = η p o p i δ p j

mit der online-Version

Δ p w i j = η o p i δ p j

erhalten.

Zu bestimmen ist jetzt nur noch der erste Faktor des Produkts in Gleichung . Für diesen Faktor lassen sich zwei Fälle unterscheiden:

  1. j ist Index einer Ausgabezelle (output unit) und
  2. j ist Index einer Zelle der verdeckten Ebenen (hidden unit).

Im ersten Fall ergibt sich nach der Definition der δ p j für die Ableitung der E p :

E p o p j = t p j o p j

Im zweiten Fall kann die partielle Ableitung E p o p j nur indirekt berechnet werden, indem wir die Kettenregel und die Gleichungen und anwenden und über alle Nachfolgezellen summieren:

E p o p j = k E p net p k net p k o p j = k δ p k o p j i o p i w i k = k δ p k w j k

Dies bedeutet, dass man den Gesamtfehler der Zelle j für Muster p in diesem Fall aus den gewichteten Fehlern δ p k aller Nachfolgezellen k und der Gewichte der Verbindungen von j zu diesen k berechnen kann. Man beachte, dass in Gleichung die Summation über alle Nachfolgezellen k von j abhängt, weil Neuron j bei allen diesen Nachfolgezellen einen Fehler verursacht.

Insgesamt ergibt sich dann mit , und im ersten Fall ( j ist Ausgabezelle):

δ p j = f a c t ' net p j t p j o p j

Im zweiten Fall ( j ist verdeckte Zelle und statt ) gilt:

δ p j = f a c t ' net p j k δ p k w j k

Diese beiden Gleichungen ermöglichen eine rekursive Berechnung der δ p j für alle Zellen des feed-forward-Netzwerks, ausgehend von den Ausgabezellen zurück bis zu den Eingabezellen.

Zusammengefasst ergibt sich folgende Backpropagation-Regel (online backpropagation):

Δ p w i j = η o p i δ p j mit δ p j = f act net p j t p j o p j falls  j  Ausgabezelle ist f act net p j k δ p k w j k falls  j  verdeckte Zelle ist

Falls man die bekannte logistische Aktivierungsfunktion verwendet, ergibt sich für die Ableitung der Aktivierungsfunktion:

f act net p j 1 f act net p j = o p j 1 o p j

Damit ergibt sich in diesem Fall die vereinfachte Formel für das Fehlersignal δ p j :

δ p j = o p j 1 o p j t p j o p j falls  j  Ausgabezelle ist, o p j 1 o p j k δ p k w j k falls  j  verdeckte Zelle ist

Diese Form ist in den meisten Lehrbüchern über neuronale Netze zu finden.

Backpropagation Applet...

Seite 32 von 33