zum Directory-modus

Neuronale Netze - komplett

Prinzip der Gradientenverfahren neuronaler Netze

Alle Gradientenverfahren berechnen den Gradienten einer Zielfunktion, hier der Fehlerfunktion E(W) , und steigen entweder orthogonal zum Gradienten nach oben, bis ein Maximum erreicht ist oder nach unten, bis ein Minimum erreicht ist. Hier wird versucht, durch Änderung der Gewichte den Fehler zu minimieren, indem eine Änderung aller Gewichte Δ W um einen Bruchteil des negativen Gradienten der Fehlerfunktion vorgenommen wird.

Δ W = η E W

Man kann die Gewichtsmatrix W auch als einen (sehr langen) Gewichtsvektor W ansehen. Die Änderung Δ W des Gewichtsvektors ist proportional zum negativen Gradienten E W der Fehlerfunktion mit dem Faktor η , auch als Lernfaktor oder Schrittweite bezeichnet.

Für ein einzelnes Argument gilt somit:

Δ w i j = η w i j E W

Als Fehlerfunktion wird häufig der quadratische Abstand zwischen erwarteter und realer Ausgabe verwendet. Der Gesamtfehler E ergibt sich als Summe der Fehler über alle Muster p :

E = p E p mit E p = 1 2 j t p j o p j 2

Dabei ist E p der Fehler für ein Muster (pattern) p , t p j die Lerneingabe (teaching input), o p j die Ausgabe von Neuron j bei Muster p . Der Faktor ½ wurde verwendet, damit er sich später gegen eine 2 wegkürzt, die durch das Differenzieren entsteht. Zur Bestimmung optimaler Gewichte spielt es keine Rolle, ob man den Fehler oder den halben Fehler minimiert. Ebenso ist es unerheblich, dass hiermit das Quadrat des euklidischen Abstandes minimiert wird anstelle des euklidischen Abstandes selbst, der als Quadratwurzel der obigen Summe definiert ist.

Seite 30 von 33