zum Directory-modus

Tutorial MenueNeuronale Netze - Eine EinführungLerneinheit 1 von 5

Neuronale Netze - Einführung

Geschichte Neuronaler Netze

Die Geschichte künstlicher, neuronaler Netze ist fast so alt wie die ersten programmierbaren Computer auf elektronischer Basis und damit älter als die Geschichte der symbolischen 1). Sie geht bis in die frühen fünfziger Jahre zurück. Den besten Überblick über die Geschichte neuronaler Netze gibt wohl das Buch "Neurocomputing: Foundations of Research" von James Anderson und Edward Rosenfeld, welches eine sehr gut kommentierte Sammlung der frühen Arbeiten auf diesem Gebiet darstellt. Eine Sammlung neuerer Arbeiten wurde von Anderson, Pelionisz und Rosenfeld als "Neurocomputing 2: Directions of Research" editiert.

Frühe Anfänge (1942-1955)

Bereits 1943 beschrieben Warren McCulloch und Walter Pitts in ihrem Aufsatz "A logical calculus of the ideas immanent in nervous activity" neurologische Netzwerke basierend auf dem McCulloch-Pitts-Neuron und zeigten, dass auch einfache Klassen neuronaler Netze prinzipiell jede arithmetische oder logische Funktion berechnen konnten. Obwohl keine praktischen Anwendungen in der Arbeit selbst angegeben wurden, hat diese Arbeit einige andere, später berühmte, Forscher beeinflusst, unter anderem auch Norbert Wiener und John von Neumann. 1947 behandelten Pitts und McCulloch in ihrer Arbeit "How we know universals" die Erkennung räumlicher Muster, insbesondere das Problem, wie neuronale Netze räumliche Muster lageinvariant erkennen können.

1949 beschrieb Donald O. Hebb in seinem Buch "The Organization of Behaviour" die mittlerweile klassische Hebb'sche Lernregel als einfaches universelles Lernkonzept individueller Neuronen. Er verwendete diese Lernregel auch, um experimentelle Ergebnisse psychologischer Experimente zu begründen. In ihrer allgemeineren Form ist die Hebb'sche Lernregel bis heute Basis fast aller neuronalen Lernverfahren. Auch das Konzept von Zellgruppen (cell assemblies), miteinander verbundene, sich selbst verstärkend erregende Teilmengen von Neuronen, welche die Information im Nervensystem repräsentieren, geht auf ihn zurück.

Karl Lashley, ein Neuropsychologe, vertrat in seiner 1950 erschienenen Arbeit "In search of the engram" die These, dass die Information im Gehirn in einer verteilten Repräsentation gespeichert sein muss. Er kam dazu durch seine Versuche an Ratten, bei denen er feststellte, dass der Umfang und nicht der Ort der Zerstörung von Nervenzellgewebe ihre Leistung beim Durchlaufen eines Labyrinths bestimmte. Obwohl man heute von der Vorstellung einer vollständig verteilten Informationsrepräsentation abgekommen ist und weiß, dass im Gehirn sehr wohl funktionell unterscheidbare Bereiche existieren, waren seine Arbeiten einflussreich.

Erste Blütezeit (1955-1969)

Der erste erfolgreiche Neurocomputer (Mark I Perceptron) wurde in den Jahren 1957-1958 von Frank Rosenblatt, Charles Wightman und Mitarbeitern am 2) entwickelt, und für Mustererkennungsprobleme eingesetzt. Er konnte bereits mit einem 20x20 Pixel großen Bildsensor einfache Ziffern erkennen und funktionierte mit Hilfe von 512 motorgetriebenen Potenziometern, je eines für jedes der variablen Gewichte. Marvin Minsky hatte zwar bereits 1951 mit dem Snark für seine 1954 abgelegte Dissertation einen Neurocomputer entwickelt, der auch seine Gewichte automatisch einstellen konnte, aber dieser wurde nicht praktisch eingesetzt. Neben dieser technischen Leistung ist Frank Rosenblatt besonders durch sein 1959 erschienenes Buch "Principles of Neurodynamics" bekannt geworden. In ihm beschreibt er detailliert verschiedene Varianten des Perzeptrons und gibt auch einen Beweis dafür, dass das Perzeptron alles, was es repräsentieren kann, durch das von ihm angegebene Lernverfahren lernen kann (Perzeptron-Konvergenz-Theorem).

Oliver Selfridge stellte 1958 in seiner Arbeit "Pandemonium" dynamische, interaktive Mechanismen vor, die ein praktisches Problem (Morse-Code-Übersetzung) mit Modellen menschlicher Informationsübertragung (dem Pandemonium-Modell) und Ingenieurtechniken (hill climbing Lernverfahren) lösten.

Karl Steinbuch stellte in seiner Arbeit "Die Lernmatrix" einfache technische Realisierungen assoziativer Speicher vor, die Vorgänger heutiger neuronaler Assoziativspeicher. Sie waren als technische Realisierungen der Pawlow'schen bedingten Reflexe konstruiert worden. Neben einem binären Modell existierten auch ein Modell für kontinuierliche Eingaben sowie Lernverfahren für beide Modelle.

Bernard Widrow und Marcian E. Hoff stellten in "Adaptive switching circuits" das Adaline vor, ein adaptives System, das schnell und genau lernen konnte. Ähnlich wie das Perzeptron war es ein binäres Schwellenwert-Neuron. Bernard Widrow gründete auch später die Memistor Corporation, die erste Neurocomputing-Firma. Diese stellte Memistoren her, Transistor-ähnliche Elemente, mit denen die einstellbaren Gewichte eines künstlichen neuronalen Netzes realisiert werden konnten.

Das 1965 erschienene Buch "Learning Machines" von Nils Nilsson gibt einen guten Überblick über die Arbeiten in dieser Periode. Die Zeit von 1955 bis 1969 wird allgemein als die erste Blütezeit der neuronale-Netze-Forschung angesehen. Man glaubte damals, man hätte die grundlegenden Prinzipien selbstlernender, intelligenter Systeme bereits entdeckt. Diese Überschätzung, insbesondere auch in den Medien, führte dann zu dem jähen Einbruch an Popularität, den das Gebiet erfuhr, als man die Grenzen der damals verwendeten Modelle und Lernverfahren erkannte.

Die stillen Jahre (1969-1982)

1969 unternahmen Marvin Minsky und Seymour Papert in ihrem Klassiker "Perceptrons" eine genaue mathematische Analyse des Perzeptrons und zeigten, dass das Modell des Perzeptrons viele wichtige Probleme gar nicht repräsentieren kann. Anhand einiger sehr einfacher Probleme, wie dem 3)-Problem, dem "parity"-Problem und dem "connectivity"-Problem (Problem eines neuronalen Netzes zu erkennen, ob eine gegebene Figur einfach verbunden ist oder aus mehreren separaten Figuren besteht) konnten sie zeigen, dass das ursprüngliche Perzeptron, wie auch einige Varianten davon, diese und verwandte Probleme aus prinzipiellen Gründen nicht repräsentieren konnten. Ihre Schlußfolgerung jedoch, dass auch mächtigere Modelle als das Perzeptron die gleichen Probleme aufweisen und damit das ganze Gebiet der neuronalen Netze ein "research dead-end" sei, war aus heutiger Sicht nicht zutreffend. Sie führte zum Zeitpunkt einer Stagnation des Gebietes auch als letzter Auslöser dazu, dass Forscher auf diesem Gebiet in den nächsten 15 Jahren fast keine Forschungsgelder, insbesondere keine Gelder von 4) (Defense Advanced Research Projects Agency) mehr erhielten, sondern dass dieses Geld in das neue Gebiet "Künstliche Intelligenz" floss. Das Buch "Perceptrons" ist in einer zweiten Auflage (1988) mit einer Retrospektive aus Sicht von M. Minsky auch heute noch sehr interessant zu lesen, zum einen wegen der mathematisch interessanten Beweisführung, zum anderen, weil hier sehr deutlich die immer noch wunden Punkte neuronaler Netze, wie beispielsweise die mangelnde Skalierbarkeit oder Probleme der benötigten Genauigkeit, deutlich gemacht werden.

In den folgenden ca. 15 Jahren der geringen Anerkennung des Gebietes wurden dann allerdings von den heute berühmten Forschern die theoretischen Grundlagen für die heutige Renaissance des Gebiets gelegt:

Teuvo Kohonen (Self-Organizing Maps, SOM) stellte 1972 in seiner Arbeit "Correlation matrix memories" ein Modell des linearen Assoziators, eines speziellen Assoziativspeichers, vor, das unabhängig von ihm auch James A. Anderson im gleichen Jahr präsentierte, allerdings aus neurophysiologischer Sicht. Charakteristisch für dieses Modell ist die Verwendung linearer Aktivierungsfunktionen und kontinuierlicher Werte für Gewichte, Aktivierungen und Ausgaben. Die Arbeiten von Anderson wurden von L. N. Cooper aufgegriffen und in "A possible organization of animal memory and learning" erweitert.

Ein bedeutender deutscher Beitrag gelang 1973 Christoph von der Malsburg in seiner Arbeit "Self-organization of orientation sensitive cells in the striata cortex". Er verwendet ein komplexeres, biologisch besser motiviertes nichtlineares Neuronenmodell, mit dem er durch Computersimulationen zeigen konnte, dass die Zellen mit seinem Lernverfahren rezeptive Felder ähnlicher Orientierungsspezifität herausbildeten, wie sie in neurophysiologischen Arbeiten von Hubel und Wiesel festgestellt wurden.

Bereits 1974 entwickelte Paul Werbos in seiner Dissertation an der Harvard-Universität das Backpropagation-Verfahren, das allerdings erst ca. 10 Jahre später durch die Arbeiten von Rumelhart und McClelland seine große Bedeutung erlangte.

Stephen Grossberg hat im Laufe der letzten 20 Jahre eine Vielzahl von Arbeiten veröffentlicht, die sich durch eine detaillierte mathematische Analyse der darin vorgestellten neuronalen Modelle auszeichnen, aber nicht leicht zu lesen sind. Viele seiner Arbeiten behandeln das Problem, wie ein neuronales Netz lernfähig (plastisch) bleiben kann, ohne bereits gelernte Muster durch neue Muster zu zerstören. Grossberg war einer der ersten, die sigmoide Aktivierungsfunktionen und eine nichtlineare laterale Hemmung verwendeten. Am besten bekannt sind derzeit seine Modelle der Adaptive Resonance Theory (5)), die mit Gail Carpenter und weiteren Mitarbeitern entwickelt wurden. Zu diesen gehörten 6), 7), 8), 9) und 10), um nur einige zu nennen.

David Marr und Tomaso Poggio erregten 1976 mit ihrem Bericht in Science: "Comparative computation of stereo disparity" viel Aufsehen. Darin wurde ein neuronaler Algorithmus zum Stereo-Sehen vorgestellt, bei dem die unterschiedlichen Bilder der beiden Augen eine Tiefenrepräsentation des betrachteten Gegenstandes erzeugen.

Shun-Ichi Amari beschrieb in seiner Arbeit "Neural theory of association and concept formation" verschiedene Varianten assoziativer Speicher. Im gleichen Jahr wurde auch die Arbeit von Anderson, Silverstein, Ritz und Jones bekannt, in der mit dem "Brain-State-in-a-Box" (11))-Modell ein autoassoziatives, lineares Modell vorgestellt wurde, das durch die Beschränkung des Zustandsvektors auf einen Hyperwürfel stabilisiert wird.

James McClelland und David Rumelhart wurden bereits 1981 bekannt mit ihrer Arbeit "An interactive activation model of context effects in letter perception", in der sie strukturierte parallele Netze vorschlagen, bei denen viele Randbedingungen (constraints) gleichzeitig in einer Art "constraint satisfaction network" die Erkennung von Teilmustern zu Buchstaben und von Buchstaben zu Wörtern bestimmen.

John Hopfield, ein bekannter Physiker, schrieb 1982 einen sehr einflussreichen Artikel "Neural Networks and physical systems with emergent collective computational abilities", in dem er binäre Hopfield-Netze als neuronales Äquivalent der Ising-Modelle der Physik untersuchte. Zwei Jahre später erweiterte er das Modell auf kontinuierliche Hopfield-Netze und zeigte in "Neurons with graded response have collective computational properties like those of two-state neurons", dass diese ebenfalls mit Hilfe einer Energiefunktion untersucht werden können.

Feldman und Ballard behandelten in "Connectionist models and their properties" insbesondere das Problem der Repräsentation von Konzepten in neuronalen Netzen. In ihren Modellen verwenden sie allerdings stark spezialisierte und an logische Gatter erinnernde Neuronen, die in konstruierten neuronalen Netzen zwar eine parallele Repräsentation erlauben, aber nicht lernfähig sind. Sie führten aber auch das Konzept von "winner-takes-all"-Netzen ein.

Teuvo Kohonen wurde besonders durch seine selbstorganisierenden Karten bekannt, die u.a. 1982 in dem Artikel "Self-organized formation of topologically correct feature maps" beschrieben wurden. Von ihm sind besonders auch seine beiden Bücher "Associative Memory - A System Theoretic Approach" und "Self-Organization and Associative Memory" erwähnenswert.

Fukushima, Miyake und Ito stellten 1983 in "Neocognitron: a neural network model for a mechanism of visual pattern recognition" mit dem Neocognitron ein neuronales Modell zur positions- und skalierungsinvarianten Erkennung handgeschriebener Zeichen vor. Dieses war eine Erweiterung des schon 1975 entwickelten Cognitrons und bestand aus einer schichtweisen Folge einfacher und komplexer Zellen (S-Zellen und C-Zellen), wie sie auch im biologischen visuellen System von Katzen vorkommt. Interessant sind darin weiterhin der Einsatz rezeptiver Felder, Unschärfe-Operatoren (blurring) und die Verwendung gemeinsamer Verbindungen (shared weights).

Hermann Haken, ein Stuttgarter Physiker, hat bereits seit Anfang der 80er Jahre bedeutende Ergebnisse auf dem Gebiet der Selbstorganisation komplexer Systeme erzielt. Neben Arbeiten, die mit diesen Ansätzen beispielsweise Laser gut beschreiben konnten, sind auch seine als Synergetik bekannten Ansätze zur Selbstorganisation großer nichtlinearer neuronaler Netze hervorzuheben.

Barto, Sutton und Anderson stellten 1983 in "Neuronlike adaptive elements that can solve difficult learning control problems" ein neuronales Modell zur adaptiven Regelung auf, das aus einem adaptiven Suchelement (adaptive search element, 12)) und einem adaptiven Kritiker (adaptive critic element, 13)) besteht. Für das Balancieren eines senkrechten Stabes (pole balancing problem) wurde gezeigt, wie die Kombination von adaptivem Stellglied und Kritiker das Problem lösen kann, wie man einen späten Misserfolg (Umfallen des Stabes) auf eine frühe vorherige Fehlsteuerung zurückführen kann.

Kirkpatrick, Gelatt und Vecchi zeigten 1983 in "Optimization by simulated annealing", wie man mit der Boltzmann-Maschine, einem statistischen Modell neuronaler Netze, mit einer simulated annealing-Technik schwierige Optimierungsaufgaben wie Chip-Platzierung, Verdrahtungsprobleme oder das Problem des Handlungsreisenden lösen kann.

Francis Crick griff die Arbeiten von der Malsburgs auf und brachte in seiner Arbeit "Function of the thalamic reticular complex: the searchlight hypothesis" ein Modell kurzzeitiger neuronaler Bindungen, das für Assoziation und Kurzzeit-Lernen notwendig ist, wieder in die wissenschaftliche Diskussion, die zuvor durch Modelle langzeitiger Modifikation der Verbindungen dominiert worden war.

S. Geman und D. Geman zeigten 1984 in "Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images", wie sich die Boltzmann-Maschine zur Wiedergewinnung scharfer Bilder aus unscharfen Bildern einsetzen lässt. Ackley, Hinton und Seynowski gaben dann 1985 in dem Artikel "A learning algorithm for Boltzmann Machines" mit einer eleganten Herleitung einen sehr einfachen lokalen Lernalgorithmus für die Boltzmann-Maschine an, mit dem die Verteilung der Zustandsvektoren der Maschine einer durch die Umgebung vorgegebenen Verteilung angepasst wird.

Die Renaissance neuronaler Netze (1985-heute)

Der neuerliche Aufschwung neuronaler Netze erfolgte anfangs der achtziger Jahre. Oft wird der Einfluss John Hopfields für die Wiederbelebung des Gebiets zitiert, der auch 1985 einen einflussreichen Artikel Neural Computation of Decisions in Optimization Problems veröffentlichte und darin zeigte, wie Hopfield-Netze schwierige Optimierungsaufgaben (das traveling salesman problem) lösen können, und der viele Forscher persönlich von der Wichtigkeit des Forschungsgebiets überzeugte.

Einen vielleicht noch größeren Einfluss hatte die Entwicklung und weite Publikation des Lernverfahrens Backpropagation 1986 durch Rumelhart, Hinton und Williams in "Learning internal representations by error propagation" in dem von Rumelhart und McClelland herausgegebenen Buch: "Parallel Distributed Processing", sowie der im gleichen Jahr erschienene Artikel in Nature: "Learning representations by back-propagating errors". Darin wurde mit dem Lernverfahren Backpropagation ein im Vergleich zu den bisherigen Lernverfahren sehr schnelles und robustes Lernverfahren für mehrstufige vorwärtsgerichtete Netze vorgestellt, das sich mathematisch elegant als Gradientenabstiegsverfahren des Netzwerkfehlers herleiten ließ. Die sehr gut lesbaren und günstigen PDP-Bände, wurden fortan zur Bibel des Konnektionismus. Backpropagation wurde gleichzeitig unabhängig auch von LeCun und Parker entdeckt und sogar über ein Jahrzehnt vorher in der Doktorarbeit von Paul Werbos beschrieben, die aber damals keine große Leserschaft gefunden hatte.

Terrence Sejnowski und Charles Rosenberg stellten 1986 mit "Nettalk: a parallel network that learns to read aloud" eine überzeugende Anwendung vor, bei der ein mit Backpropagation trainiertes vorwärtsgerichtetes Netz die Aussprache geschriebener Einzelwörter des Englischen selbständig lernt und dabei innerhalb sehr kurzer Zeit (wenige Wochen Aufwand für das ganze Projekt) eine Leistung erreichte, die fast der des wissensbasierten DECtalk-Systems entsprach, das viele Mannjahre Entwicklungsarbeit gekostet hatte.

Seit ca. 1986 hat sich das Gebiet geradezu explosiv entwickelt: die Zahl der Forscher auf diesem Gebiet beträgt derzeit mehrere Tausend, es gibt eine Vielzahl von wissenschaftlichen Zeitschriften, die als Hauptthema neuronale Netze haben (Neural Networks, Neural Computation, Neurocomputing, IEEE Trans. on Neural Networks, etc.), große anerkannte wissenschaftliche Gesellschaften wie die 14) (International Neural Network Society) die 15) (European Neural Network Society), eine große IEEE Fachgruppe über neuronale Netze und Fachgruppen nationaler Informatik-Gesellschaften wie der GI (Gesellschaft für Informatik).

Die Zahl wichtiger Forscher und selbst ein historischer Überblick über ihre Arbeiten wurde seit 1986 so groß, dass damit allein ein Buch gefüllt werden könnte. Daher sollen an dieser Stelle nur kurz noch einige deutsche Forscher erwähnt werden, die besonders bekannt geworden sind.

Zu diesen gehören neben Prof. Christoph von der Malsburg (Ruhr-Universität Bochum) und Prof. Hermann Haken (Universität Stuttgart) die mit ihren Arbeiten schon erwähnt wurden, auch Prof. Werner von Seelen (Universität Dortmund), Prof. Günter Palm (Universität Ulm), Prof. Rolf Eckmiller (Universität Bonn) und Prof. Alex Waibel (CMU und Universität Karlsruhe). Prof. von Seelen wurde durch neuartige neuronale Ansätze zum Stereosehen eines mobilen Roboters bekannt, Prof. Günter Palm ist durch seine theoretischen Arbeiten über Assoziativspeicher und ihre Hardware-Realisierung wissenschaftlich bekannt. Prof. Alex Waibel ist mit seinen Arbeiten über Time-Delay-Netze zur Spracherkennung hervorgetreten. Prof. Rolf Eckmiller ist auch bekannt durch seine Arbeit in vielen Leitungsgremien wissenschaftlicher Gesellschaften (INNS, ENNS) und die Herausgabe der Bände zweier von ihm organisierter deutscher neuronale-Netze-Konferenzen, welche die deutsche neuronale-Netze-Gemeinde zusammengeführt haben.

Auch die theoretischen Arbeiten von Siemens und die praktische Entwicklung eines 16)-Neurocomputers haben große Beachtung erfahren. Prof. Helge Ritter (Universität Bielefeld) hat sich sehr um die Weiterentwicklung und Anwendung der selbstorganisierenden Karten, insbesondere für Robotik-Anwendungen, verdient gemacht und ein speziell für diese Klasse von Netzen sehr gutes deutschsprachiges Lehrbuch veröffentlicht. Weitere gute deutschsprachige Lehrbücher über dieses Gebiet stammen von Rüdiger Brause (Universität Frankfurt) und von Raul Rojas (FU Berlin).

Eine große Reihe weiterer deutschsprachiger Bücher über dieses Gebiet, teilweise mit Programmdisketten, beschränkt sich auf wenige Modelle neuronaler Netze, die zwar mit ausführlichen Minibeispielen erklärt werden, die aber vom wissenschaftlichen Hintergrund her viele Fragen offen lassen.

Seite 6 von 6>