zum Directory-modus

Neuronale Netze - komplett

Lernregel

Die Lernregel ist die interessanteste Komponente von Modellen neuronaler Netze, weil sie es erlaubt, dass ein Netz eine gegebene Aufgabe (weitgehend) selbständig aus Beispielen lernt. Dazu muss eine Lernregel (auch Lernverfahren genannt) existieren.

Theoretisch mögliche Arten des Lernens

Theoretisch gibt es sehr viele Arten, wie ein neuronales Netz lernen kann, nämlich durch

  1. Entwicklung neuer Verbindungen,
  2. Löschen existierender Verbindungen,
  3. Modifikation der Stärke w i j von Verbindungen,
  4. Modifikation des Schwellenwertes von Neuronen,
  5. Modifikation der Aktivierungs-, Propagierungs- oder Ausgabefunktion,
  6. Entwicklung neuer Zellen oder
  7. Löschen von Zellen.

Von diesen Alternativen, die einzeln oder in Kombination angewendet werden können, ist die Alternative 3 die mit Abstand am häufigsten verwendete Art des Lernens. Die Methoden 1 und 2 können durch die Modifikation der Stärke von Verbindungen realisiert werden. Die Entwicklung einer neuen Verbindung von Neuron i zu Neuron j wird einfach dadurch realisiert, dass das Verbindungsgewicht w ij von 0 auf einen von Null verschiedenen Wert gesetzt wird. Das Löschen einer Verbindung kann einfach durch Zuweisung von 0 für das Verbindungsgewicht geschehen. Sie darf dann nur nicht weiter trainiert werden. Diese einfache mathematische Realisierung setzt allerdings eine Implementierung voraus, bei der wie in einer Verbindungsmatrix prinzipiell alle Verbindungsgewichte zwischen allen Neuronen existieren, gegebenenfalls als Nullwerte. In den meisten softwarebasierten Simulatoren ist dies aber gerade nicht der Fall, so dass die Entwicklung neuer Verbindungen oder das Löschen existierender Verbindungen einen relativ großen Aufwand erfordert, falls es überhaupt zur Laufzeit möglich ist. Die Modifikation des Schwellenwertes von Neuronen wird prinzipiell gleich wie die Modifikation von Gewichten behandelt und ist daher problemlos. Die Modifikation der Aktivierungs-, Propagierungs- oder Ausgabefunktion ist noch nicht sehr verbreitet und biologisch auch nicht gut motiviert. In letzter Zeit haben Verfahren, welche die Entwicklung neuer Zellen oder das Absterben nicht intensiv genutzter Zellen als Bestandteil haben, an Interesse gewonnen, speziell im Hinblick auf das Ziel, möglichst optimale Netze für gegebene Aufgabenstellungen zu trainieren. Diese Verfahren, die neben einer Einstellung der Gewichte gleichzeitig eine (möglichst) optimale Topologie des Netzes liefern, werden vermutlich in Zukunft noch an Bedeutung gewinnen.

Im Folgenden werden einige bekannte Lernregeln kurz vorgestellt. Die meisten von ihnen werden in späteren Lerneinheiten noch detaillierter erläutert.

Hebb'sche Lernregel

Die Hebb'sche Lernregel wurde in ihrer ersten Form bereits 1949 von Donald O. Hebb formuliert und ist die Grundlage für die meisten komplizierteren Lernregeln. Sie besagt:

Wenn Zelle j eine Eingabe von Zelle i erhält und beide gleichzeitig stark aktiviert sind, dann erhöhe das Gewicht w i j (die Stärke der Verbindung von i nach j ).

In der mathematischen Form lautet die Hebb'sche Regel wie folgt:

Δ w i j = η o i a j

Dabei ist Δ w i j die Änderung des Gewichts w i j , η eine Konstante (Lernrate), o i die Ausgabe der Vorgängerzelle i und a j die Aktivierung der Nachfolgerzelle j . Die Hebb'sche Lernregel wird häufig bei binären Aktivierungswerten verwendet. Dabei muss man aber beachten, dass sich in diesem Fall nur positive Gewichtsänderungen oder Null ergeben können, wodurch die Gewichte nur anwachsen können, jedoch nicht mehr verringert werden können. Deshalb verwendet man hierbei häufig die binären Aktivierungen -1 und 1 anstelle von 0 und 1, dann liefert die Hebb'sche Regel eine Verringerung der Gewichte, wenn die Vorgängerzelle und Nachfolgerzelle nicht übereinstimmen, sonst eine positive Verstärkung.

Die allgemeine mathematische Form der Hebb'schen Regel lautet:

Δ w i j = η h o i w i j g a j t j

Hierbei ist die Gewichtsänderung Δ w i j als Produkt zweier Funktionen definiert, eine Funktion h o i w i j hat als Parameter die Ausgabe o i der Vorgängerzelle und das Gewicht w i j von der Vorgängerzelle i zur Zelle j , die andere Funktion g a j t j hat die Aktivierung a j der Zelle und die erwartete Aktivierung t j (teaching input) als Parameter.

Die im folgenden in dieser Lerneinheit besprochenen Lernregeln sind allesamt Spezialisierungen dieser allgemeinen Hebb'schen Lernregel.

Delta-Regel

Bei der Delta-Regel, auch Widrow-Hoff-Regel genannt, ist die Gewichtsänderung proportional zur Differenz δ j der aktuellen Aktivierung a j und der erwarteten Aktivierung t j (teaching input).

Häufig findet man diese Regel auch in der Form der Gleichung , wobei jetzt als teaching input t j die erwartete Ausgabe statt der erwarteten Aktivierung angelegt wird.

Δ w i j = η o i t j o j = η o i δ j

Beide Formen sind äquivalent, weil die Delta-Regel nur bei linearen Aktivierungsfunktionen bei einer einzigen Schicht trainierbarer Gewichte verwendet wird. Die Delta-Regel ist ein Spezialfall der bekannten Backpropagation-Regel. Sie wird später noch näher begründet und formal hergeleitet.

Backpropagation-Regel

Backpropagation ist eine Verallgemeinerung der Delta-Regel für Netze mit mehr als einer Schicht trainierbarer Gewichte und für Neuronen mit einer nichtlinearen Aktivierungsfunktion. Die Aktivierungsfunktion muss semilinear, d.h. monoton und differenzierbar, sein. Die Gleichung für Backpropagation wird auch später noch einmal detailliert begründet und hergeleitet, hier soll sie deshalb angegeben werden, um die Verwandtschaft mit der allgemeinen Hebb-Regel zu dokumentieren.

Die Regel für Backpropagation lautet ganz analog wie die Delta-Regel:

Δ w i j = η o i δ j

Der einzige Unterschied ist, dass die Berechnung der δ j etwas komplizierter ist:

δ j = f j net j t j o j falls j eine Ausgabezelle ist f j net j k δ k w j k falls j eine verdeckte Zelle ist

Man beachte, dass hierbei der Summationsindex k über alle direkten Nachfolgezellen der aktuellen Zelle j läuft. Dies erkennt man auch an der Indizierung des Gewichts w j k .

net j t = i o i t w i j
f x = 1 1 + e x

Mit den häufig verwendeten Funktionen bei Backpropagation, der Standard-Propagierungsfunktion in Gleichung , der logistischen Aktivierungsfunktion aus Gleichung und der Identität als Ausgabefunktion ergibt sich dann für Backpropagation als

δ j = o j 1 o j t j o j falls j eine Ausgabezelle ist o j 1 o j k δ k w j k falls j eine verdeckte Zelle ist

Diese Gleichungen werden im Kapitel über das Backpropagation-Lernverfahren noch genauer begründet und hergeleitet. Hier sollen sie nur demonstrieren, dass auch diese Lernregel eine spezielle Variante der verallgemeinerten Hebb'schen Lernregel ist.

Seite 15 von 33