zum Directory-modus

Neuronale Netze - komplett

Probleme des Backpropagation-Lernverfahrens

Wie jedes Gradientenverfahren besitzt auch Backpropagation eine Reihe von Problemen, die dadurch entstehen, dass es ein lokales Verfahren ist, welches keine Information über die Fehlerfläche insgesamt hat, sondern nur aus der Kenntnis der lokalen Umgebung (des Gradienten bzw. bei Erweiterungen des Verfahrens zusätzlich einiger vorher besuchter Stellen der Fehlerfläche) ein Minimum suchen muss. Diese werden im Folgenden beschrieben und Lösungsansätze für die Probleme vorgestellt.

Symmetry Breaking

Unter dem Begriff symmetry breaking versteht man ein Problem bei der Initialisierung der Startgewichte vollständig ebenenweise verbundener feedforward-Netze. Diese Startgewichte dürfen bei der Initialisierung des Netzes nicht alle gleich groß gewählt sein. Initialisiert man alle Gewichte jeder Ebene gleich groß (z.B. mit 0, da sie ja durch Lernen ihren richtigen Wert finden sollten), dann kann das System durch das Backpropagation-Lernverfahren keine unterschiedlichen Gewichte in den der Ausgabeschicht vorgelagerten Schichten von Gewichten mehr annehmen. Bei einem zweistufigen feedforward-Netz können sich damit in der ersten Schicht keine unterschiedlichen Gewichte mehr ausbilden. Dies soll durch folgendes Beispiel verdeutlicht werden. Ohne Beschränkung der Allgemeinheit sei angenommen, dass die verdeckten Neuronen und die Ausgabeneuronen die logistische Aktivierungsfunktion verwenden.

Abb.1
Symmetry breaking

Nach der Vorwärtspropagierungsphase eines Musters p gilt für die verdeckten Neuronen o p 4 = o p 5 = o p 6 . Wir betrachten nun den Fall δ p 7 δ p 8 .

Die Gewichte von der verdeckten Schicht zur Ausgabeschicht werden nach der Formel Δ p w j k = η o p j δ p k geändert. Damit sind die Gewichtsänderungen und die neuen Gewichte jedes verdeckten Neurons j , die zum selben Ausgabeneuron k führen, gleich, d.h. es gilt Δ p w 4 7 = Δ p w 5 7 = Δ p w 6 7 und Δ p w 4 8 = Δ p w 5 8 = Δ p w 6 8 .

Die Fehler δ p j der Neuronen der verdeckten Schicht sind gleich, weil gilt:

δ p j = o p j 1 o p j k δ p k w j k = o p 1 o p k δ p k w j k = konstant für alle j

Die Gewichte von der Eingabeschicht zur verdeckten Schicht werden geändert nach der Formel Δ p w i j = η o p i δ p j . Damit erhalten alle Verbindungen vom Eingabeneuron i zu allen verdeckten Neuronen die gleiche Änderung, d.h. für i = 1 2 3 .

Daher gilt auch bei Anlegen des nächsten Musters q , dass die Ausgaben aller verdeckten Neuronen j gleich sind, d.h. o q j = o q , denn jedes Neuron erhält wiederum die gleiche Netzeingabe. Analog zeigt man, dass sich erneut symmetrische Verbindungsgewichte ausprägen, wobei die Gewichte eines Eingabeneurons i zu allen verdeckten Neuronen j gleich bleiben, d.h. für alle Eingabeneuronen i gilt w i 4 = w i 5 = w i 6 . Auch die Gewichte von allen verdeckten Neuronen zu einem Ausgabeneuron k bleiben gleich, d.h. w 4 k = w 5 k = w 6 k für alle Ausgabeneuronen k . Diese durch die Initialisierung eingeführte Symmetrie kann nicht mehr gebrochen werden.

Die Lösung dieses Problems ist sehr einfach: Man verwendet einfach kleine, zufällige Werte als Initialwerte der Gewichte. Dies bewirkt zusätzlich, dass alle Zellen eine Netzeingabe von ungefähr null haben, bei der (bei Schwellenwert Θ = 0 ) die Ableitung der logistischen Aktivierungsfunktion am größten ist. Das System kann sich dann am schnellsten adaptieren. Oft wird eine Initialisierung im Bereich von -1 bis 1 verwendet. Man kann auch etwas aufwändiger die Initialisierung der Gewichte von der Zahl der Verbindungen in eine Zelle abhängig machen, indem man die Gewichte so wählt, dass die Netzeingabe 1 beträgt, wenn alle Vorgänger eine 1 als Ausgabe liefern, d.h. w i j = 1 N mit N als Anzahl der Eingabeverbindungen in j .

Lokale Minima der Fehlerfläche

Gradientenverfahren haben alle das Problem, dass sie in einem lokalen Minimum der Fehlerfläche hängenbleiben können. Dies ist in (Abb. 2) a graphisch dargestellt. Hier findet ein Gradientenverfahren nicht zwangsläufig das absolute Minimum. Das Problem neuronaler Netze ist, dass die Fehlerfläche mit wachsender Dimension des Netzes (mit wachsender Zahl von Verbindungen) immer stärker zerklüftet wird und daher die Wahrscheinlichkeit, in einem lokalen statt dem globalen Minimum zu landen, immer größer wird. Hierzu gibt es wenige, allgemeingültige Verfahren, die dieses Problem beheben, da es sehr stark von der Anwendung und dabei noch von der Codierung der Eingaben abhängt, in welchem Maße sich lokale Minima ausbilden, aus denen ein Lernverfahren nicht mehr entkommen kann. Andererseits hat die praktische Erfahrung gezeigt, dass Backpropagation bei einer genügend kleinen Schrittweite (Lernfaktor) η in sehr vielen Anwendungen ein Minimum findet, das sich gut genug dem globalen Minimum nähert und für die Anwendung aktzeptabel ist.

Plateaus

Plateaus sind ein weiteres Problem von Gradientenverfahren. Da die Größe der Gewichtsänderung von dem Betrag des Gradienten abhängig ist, stagniert Backpropagation auf Plateaus, d.h. das Lernverfahren braucht extrem viele Iterationsschritte. Dies ist in (Abb. 2) b graphisch dargestellt. Das Lernverfahren führt bei einem vollständig ebenen Plateau (Gradient ist der Nullvektor) überhaupt keine Gewichtsänderung mehr durch. Problematisch ist in diesem Fall außerdem, dass man normalerweise nicht erkennen kann, ob das Lernverfahren auf einem Plateau stagniert oder ob man sich in einem lokalen oder globalen Minimum befindet, bei dem der Gradient ebenfalls der Nullvektor ist.

Andererseits ist es positiv, dass gerade für dieses Problem einfache Verfahren existieren (Momentum-Term), mit denen modifizierte Varianten von Backpropagation diese Plateaus überwinden können. Diese werden an späterer Stelle ausführlich dargestellt.

Oszillationen durch große Gradienten

Ist der Gradient der Fehlerfläche sehr groß ("steile Schluchten") kann das Lernverfahren oszillieren. Dies geschieht, wenn durch die Gewichtsänderung ein Sprung auf die gegenüberliegende Seite der Schlucht erfolgt. Besitzt der Gradient dort genauso großen Betrag aber entgegengesetzte Richtung, bewirkt dies einen Sprung zurück auf die erste Seite. Dies ist in (Abb. 2) c graphisch dargestellt. Glücklicherweise kann die gleiche Änderung von Backpropagation (Momentum-Term), die Plateaus überwinden kann, auch die Oszillationen durch große Gradienten dämpfen oder gar eliminieren.

Verlassen von Minima zu größeren, lokalen Minima

Es kann sogar vorkommen, dass Backpropagation aus Minima herausspringt. Bei sehr schmalen Senken der Fehlerfläche kann der Betrag des Gradienten so groß sein, dass die Gewichtsänderung aus dem Minimum heraus in ein anderes, größeres und somit unvorteilhaftes, lokales Minimum führt. In der Praxis passiert dies aber glücklicherweise sehr selten.

Abb.2
Probleme von Gradientenverfahren

a)
lokales Minimum einer Fehlerfläche
b)
Fehlerfläche mit weiten Plateaus
c)
Oszillationen in steilen Schluchten
d)
Verlassen guter Minima.

Animation zu Problemen gradienter Verfahren...

Seite 33 von 33>