zum Directory-modus

Neuronale Netze - komplett

Weiteres über Aktivierungsfunktionen

Für die Überlegungen in diesem Abschnitt werden die Aktivierungsfunktion f act und die Ausgabefunktion f out zu einer Funktion f zusammengefasst, die, wie in der Literatur häufig üblich, wieder als Aktivierungsfunktion bezeichnet wird.

Sigmoide Aktivierungsfunktionen

Sigmoide (S-förmige) Aktivierungsfunktionen lösen das Problem, dass ein Netzwerk häufig sowohl auf Signale kleiner als auch sehr großer Amplitude reagieren muss, wobei es bei kleinen Amplituden wesentlich sensibler sein muss. Sigmoide Aktivierungsfunktionen haben daher ihre höchste Sensibilität, d.h. ihre größte Steigung im Bereich um den Arbeitspunkt (Schwellenwert Θ ). Anders als die binäre Schrittfunktion sind sie aber stetig und überall differenzierbar, so dass ihre Ableitung an jeder Stelle definiert ist.

Am populärsten sind derzeit die logistische Aktivierungsfunktion und die Funktion tanh x , welche im Folgenden näher dargestellt werden.

Logistische Aktivierungsfunktion

Die logistische Aktivierungsfunktion hat die folgende Form:

f log x = 1 1 + e x

Sie ist in (Abb. 1) graphisch dargestellt. Diese Funktion ist punktsymmetrisch um den Schwellenwert, stetig, überall differenzierbar und hat als Wertebereich das offene Intervall 0 1 . Man beachte, dass die beiden Achsen unterschiedliche Maßstäbe haben und die Funktion hier überhöht dargestellt ist.

Abb.1
Logistische Aktivierungsfunktion.

Die Ableitung der Funktion wird später für das Lernverfahren der Backpropagation benötigt:

d d x f log x = 1 1 + e x 1 1 + e x e x = 1 1 + e x e x 1 + e x = 1 1 + e x 1 + e x 1 1 + e x = f log x 1 f log x

Mit einem Temperatur-Parameter T lässt sich die Steigung einer etwas allgemeineren logistischen Aktivierungsfunktion bestimmen.

f x = 1 1 + e x T
Abb.2
Tangens hyperbolicus tanh(x)

Die Funktion tanh x ist ebenso sigmoid, stetig, differenzierbar und hat als Wertebereich das Intervall 1 1 . Bei Verwendung des Lernverfahrens Backpropagation wird durch die Verwendung dieser Funktion häufig das Lernen erleichtert, weil hier auch bei Nicht-Aktivierung des Vorgängerneurons (entpricht einer Aktivierung von 1 ) das Gewicht zwischen zwei Neuronen verändert (reduziert) wird. Bei Verwendung der logistischen Aktivierungsfunktion geht in diesem Fall die Aktivierung 0 als Produkt in die Formel ein und verhindert eine Gewichtsänderung.

Die Ableitung des Tangens hyperbolicus ist gegeben durch folgenden Zusammenhang:

d d x tanh x = e x + e x e x + e x e x e x e x e x e x + e x 2 = 1 tanh 2 x

Sie ist damit ebenso leicht zu berechnen wie die Ableitung der logistischen Aktivierungsfunktion.

Seite 19 von 33