zum Directory-modus

Allgemeine Multivariate Datenanalyse

Mustererkennung

Wichtig ist die Beantwortung der Frage, ob der zu untersuchende Datensatz eine bestimmte Struktur besitzt, d.h., ob sich die Objekte in Kategorien gruppieren lassen, die man auch natürliche Klassen (Musterklassen) nennt. Sie müssen innerhalb einer Klasse ähnlicher als zwischen den Klassen sein. Solche Gruppen verwandter Objekte nennt man Cluster.

Andererseits können häufig vor einer Klassifizierung die Objekte nach inhaltlichen Kriterien eingeteilt werden: z.B. in toxisch/nicht toxisch, gut geeignet/weniger geeignet/nicht geeignet, usw.. Diese Kategorien nennt man semantische Klassen (Objektklassen). Sie beschreiben globale Eigenschaften von Objektgruppen, die einer direkten Messung nicht zugänglich sind.

Ergibt die Mustererkennung, dass sich semantische und natürliche Klassen decken, so können die Objektklassen (semantische Klassen) über die an den einzelnen Objekten gemessenen Merkmalen beschrieben und gegebenenfalls vorhergesagt werden, ohne dass der Zusammenhang zwischen Einzelmerkmalen und globalen Klassenmerkmalen explizit bekannt sein muss. Der Zusammenhang muss nur existieren, ist aber für den Modellansatz nicht notwendig.

Methoden zum Herausfinden von Datenmustern bezeichnet man allgemein als Clusteranalyse. Es werden ein Ähnlichkeitsmaß und ein Zuordnungskriterium als Entscheidungskriterium für die Zuordnung eines Objektes zu einem bestimmten Cluster vereinbart.

Ein weiteres Verfahren der multivariaten Bewertung eines Datensatzes ist die Hauptkomponentenanalyse, bei der aus den ursprünglichen Merkmalen durch gewichtete Linearkombinationen neue (synthetische) Merkmale gebildet werden. Diese gestatten eine Projektion des Datensatzes in eine Ebene bei möglichst geringem Informationsverlust. Dabei wird eine "Datenreduktion" erhalten.

Die verschiedenen Begriffe werden an einem konkreten Beispiel der Photometrie verdeutlicht:

Beispiel

Ein Spektrum einer Probe, die sich aus einer oder mehreren Komponenten zusammensetzt, wird als Objekt angesehen. Das Spektrum soll bei mehreren Wellenlängen aufgenommen sein. Die Wellenlängen werden Merkmale, auch Parameter oder Variable genannt. Das Objekt wird durch einen Vektor mit Extinktionswerten für die verschiedenen Wellenlängen beschrieben. Die Extinktionen sind "Stützpunkte" für das Objekt. Ein Objekt wäre auch ein Vektor mit Messwerten von fünf verschiedenen Sensoren (jeder von diesen wäre jetzt ein Merkmal, eine Variable).

Seite 12 von 15