zum Directory-modus

Allgemeine Multivariate Datenanalyse

Modellbildung

Zur Bearbeitung und Bewertung von Datensätzen gibt es eine Vielfalt von Verfahren, wie z.B. die multivariate Datenanalyse. Die multivariate Datenanalyse berücksichtigt die Abhängigkeiten mehrerer Variablen (Komponenten) untereinander. Tabelle 1 zeigt Beispiele der multivariaten Datenanalyse (PCA, Clustering, HCA) und mathematische Methoden (OLS, PCR, PLS).

Tab.1
Lineare Algebra (Linear Algebra)Methoden der Projektion (Projection Methods)
Methode der kleinsten Quadrate (Ordinary Least Squares OLS)Hauptkomponentenanalyse (Principal Component Analysis PCA
Hauptkomponentenregression (Principle Component Regression PCR)Clusteranalyse (Clustering)
Methode der partiell kleinsten Quadrate (Partial Least Squares PLS)Hierarchische Clusteranalyse (Hierarchical Cluster Analysis HCA)

Künstliche neuronale Netzwerke werden für die Informationsverarbeitung (Datenanalyse) genutzt. Nachfolgende Tabelle listet einige Beispiele für neuronale Netzwerke auf.

Tab.2
CorrelationClassificationKommentar
Backpropagation Network (BPN)topology, context preservation: SOMMehrschichten-Architektur, überwachtes Lernen Fehler-Rückführung, Gefahr des "Überlernens"
on pass learning (Bayes): PNNAdaptive ClusteringÜberwachtes Lernen
including errors: fuzzy-ANNARTAnwendung der Fuzzy-Logik in künstlichen neuronalen Netzwerken

Tabelle 3 gibt eine Auswahl von Begriffen im Zusammenhang mit der multivariaten Datenanalyse und ihre Abkürzungen mit Erläuterungen an.

Tab.3
BegriffErläuterung
Backpropagation Network (BPN)Neuronales Netzwerk mit Fehlerrückführung
Probabilistic Neural Network (PNN)Neuronales Netzwerk mit Überprüfung und Bewertung nach Wahrscheinlichkeiten
Self Organizing Map (SOM)Selbstorganisierende Neuronale Netze (Karten)
Adaptive Resonance Theory (ART)Anpassungsfähige Resonanztheorie (Architekturkonzept für neuronales Netz)
Artificial Neural Network (ANN)Künstliches neuronales Netzwerk
adaptive clusteringAnpassungsfähige Clusteranalyse
fuzzy-ANNKünstliches Netzwerk mit Fuzzy-Logik
Multiple Linear Regression (MLR)Mehrfach lineare Regression

Bei den klassischen Verfahren (OLS, MLR) wird ein festes Modell vorgegeben. Dadurch sind die Anzahl der Parameter bzw. die Anzahl der Variablen bestimmt. Davon unterscheidet man Methoden, die erst nach einem Klassifikationsschritt mit einer gewählten Anzahl von Variablen die Regressionsanalyse durchführen. Hinzu kommen noch Methoden, die überhaupt nicht modellbasiert sind, wie z. B. neuronale Netze oder genetische Algorithmen. Es werden die Verfahrensweisen "hard" und "soft modelling" unterschieden.

Hard Modelling:
Hier wird die Anzahl der Variablen bzw. Parameter fest vorgegeben; tritt z.B. in einer Mehrkomponentenanalyse eine zusätzliche Komponente (Verunreinigung) auf, so kann der Algorithmus diese nicht erkennen, sondern schlägt ihren Anteil den anderen Komponenten zu; d. h. die Standardabweichung wird größer. Jedoch kann über diese der Fehler nicht unbedingt erkannt werden.
Soft Modelling:
Die Anzahl der Parameter bzw. Variablen ist nicht fest vorgegeben, sondern wird erst vor der Regressionsanalyse ermittelt; allerdings hängt es vom Datensatz ab, ob dabei die richtigen Werte für diese Anzahl zweifelsfrei gefunden werden.

Je nach der Anzahl von Variablen spricht man von uni- oder multivariater Auswertung, wobei im Zusammenhang mit den klassischen Algorithmen häufig auch noch der Begriff Multiple Regression auftaucht.

Prinzipiell wird davon ausgegangen, dass bei einer univariaten Regression alle gemessenen Werte (beobachteten Größen) nur von einer einzigen Variablen abhängen, ohne dass die Komplexizität des funktionalen Zusammenhanges eingeschränkt wird.

Häufig wird die Multiple Regression in diesem Zusammenhang abgehandelt, weil zwar bei der Mehrkomponentenanalyse viele Komponenten bzw. deren Konzentrationen eingehen, diese jedoch nicht wie z. B. bei der Kombination von Retentionszeit, Druck, Eluent usw. in der Chromatographie ein mehrdimensionales Variablenarray anfällt, dessen Elemente völlig verschiedene (physikalisch-chemische) Beschreibungen darstellen.

Dagegen werden komplexere Zusammenhänge durch die multivariate Datenanalyse beschrieben, bei der das Verhalten von mehreren Variablen gleichzeitig untersucht wird. Über die vorher beschriebenen Ansätze der multiplen Regression hinaus wird dabei der Datensatz gleichzeitig bewertet und versucht, zu klassifizieren bzw. bisher nicht erkannte Eigenschaften zu ermitteln. Dazu ist natürlich die Voraussetzung, dass die dann zu verwendenden Verfahren nach dem Prinzip des "soft modelling" (parametrisierend) bzw. sogar modellfrei (nicht parametrisierend) arbeiten. Darüberhinaus ist das Ziel der Methoden der multivariaten Datenanalyse, den Datensatz zu reduzieren und sozusagen neue und weniger Daten aufzufinden, die das Problem aber genauso charakterisieren (Datenreduktion).

In diesem Zusammenhang haben die Begriffe Objekt, Muster und Merkmale die nachfolgende Bedeutung.

Objekte
sind z.B. Materialproben, Chromatogramme, Betriebszustände einer Anlage, chemische Strukturen, Patienten, archäologische Funde.
Muster
stellen die Gesamtheit aller an diesem Objekt bestimmten Messergebnisse dar und sind allgemein die Realisierung der zur Beschreibung der Objekte ausgewählten Merkmale.
Merkmale
sind Parameter oder Variable wie z. B. die Konzentrationen verschiedener Komponenten oder die Peakflächen in einem Chromatogramm.
<Seite 1 von 15