zum Directory-modus

Tutorial MenueNeuronale Netze - Eine EinführungLerneinheit 5 von 5

Backpropagation

Herleitung der Delta-Regel

In Anlehnung an die klassische Herleitung der Backpropagation-Regel wird auch hier zuerst die Delta-Regel in einstufigen Netzen mit linearen Aktivierungsfunktionen betrachtet (in dieser Herleitung sogar mit der Identität als Aktivierungsfunktion):

Δ w i j = η w i j E W = p η w i j E p

Mit der Kettenregel folgt:

E p w i j = E p o p j o p j w i j

Daraus folgt dann:

E p o p j = t p j o p j = δ p j

Da nur lineare Einheiten vorhanden sind, gilt folgender Zusammenhang:

o p j w i j = w i j j o p i w i j = o p i

Somit ergibt sich durch Einsetzen der Gleichungen und in Gleichung die Gleichung .

E p w i j = o p i δ p j

Damit ergibt sich insgesamt als Modifikationsregel:

Δ w i j = η p o p i δ p j

Man beachte, dass es sich hierbei um ein sogenanntes batch- oder offline-Trainingsverfahren handelt, d.h. alle Muster müssen dem System präsentiert werden, bevor die Gewichte in einem Schritt geändert werden. Ein Problem dieser Methode ist, dass die Änderungen Δ p w i j für jedes Gewicht in einer Variablen gespeichert und aufsummiert werden müssen und neue Muster in diesem Verfahren nicht einfach nachtrainiert werden können.

Bei der praktischen Simulation wird stattdessen meist ein online-Trainingsverfahren verwendet, bei dem die Änderung der Gewichte direkt nach Anlegen jedes einzelnen Musters erfolgt:

Δ p w i j = η o p i δ p j = η o p i t p j o p j

Diese Regel nennt man Delta-Regel oder Widrow-Hoff-Regel. Sie braucht nicht nur etwas weniger Speicherplatz, da die Hilfsvariable zum Aufsummieren der Δ p w i j für jedes Gewicht entfällt, sondern hat für die meisten Anwendungen auch einen geringeren Trainingsaufwand als die batch-Version der Delta-Regel. Online-Verfahren nach dem Prinzip des Gradientenabstiegs werden vielfach auch als stochastische Gradientenverfahren bezeichnet.

Seite 3 von 5