zum Directory-modus

Allgemeine Multivariate Datenanalyse

Multilineare Regression

k-Modell

Bei den klassischen Verfahren des linearen Ausgleiches werden Einzelkomponenten kalibriert (z.B. werden Spektren für die Reinsubstanzen bei verschiedenen Konzentrationen aufgenommen). Für die Hauptkomponenten-Verfahren werden Mischungsspektren für verschiedene Probenzusammensetzungen (z.B. Komponentenmischungen für verschiedene Konzentrationszusammensetzungen) aufgenommen. Im Falle der Photometrie entweder

E ¯ ( λ ) = ε ¯ ¯ ( λ , i ) c ¯ ( i ) d E = Extinktion ε = Extinktionskoeffizient c = Konzentration d = optische Weglänge

oder

E ¯ ¯ ( λ , m ) = ε ¯ ¯ ( λ , i ) c ¯ ¯ ( i , m ) d

für i Komponenten, m Mischungen und λ Wellenlängen. Jetzt werden mit entsprechenden Matrixoperationen und Matrixinversion in nachfolgenden Analysenschritten aus Messungen die Konzentrationen abgeleitet. Stimmt das Modell durch andere oder zusätzliche Komponenten im Vergleich zur Kalibrierung nicht, so werden deren Anteile auf die berechneten Konzentrationen der modellmäßig angenommenen Komponenten aufgeschlagen.

p-Modell

Das Problem mit den anderen oder zusätzlichen Komponenten versucht der inverse Ansatz zu vermeiden, bei dem nur mit Mischungen kalibriert werden kann. Hier werden die Mischspektren von verschiedenen Mischungen aufgenommen und bilden die Kalibriermatrix. Die Konzentrationen einer Komponente in verschiedenen Mischungen ergeben sich aus dieser Kalibriermatrix und einem Parametervektor, der die Anteile der einzelnen Komponenten in der Analysenlösung wiedergibt. Hierzu können nicht mehr die klassischen Least-Squares-Verfahren (Mehode der kleinsten Quadrate) eingesetzt werden, sondern man muss mit Merkmalsextraktion, also mit den Verfahren der Hauptkomponentenregression bzw. den Partial Least Squares Verfahren (PLS) arbeiten. Beide Verfahren unterscheiden sich im Rechenaufwand und etwas im Ansatz. In beiden Fällen wird die Kalibriermatrix zu einer Matrix-Rang-Bestimmung zerlegt. Daran schließt sich eine Regressionsanalyse an. Bei der Principal Component Analylis (PCR) geschieht dies nach allen latenten Variablen. Bei PLS wird die Kalibriermatrix nur mit einer Bidiagonal-Matrix zerlegt. In diesem Fall sind alle PLS-Faktoren voneinander abhängig. PLS stellt dabei eine schnellere und sichere Methode zur Annäherung an das sogenannte Mean-Square-Error-Minimum ( (MSE) dar.

Bei der Hauptkomponentenanalyse treten Begriffe wie Scores und Loadings auf. Diese sollen wieder am Beispiel der Photometrie erklärt werden. Das Spektrum wird als Objekt angesehen. Ein Zeilenvektor, der die Extinktionen bei entsprechenden Wellenlänge wiedergibt, wird definiert. Jede Spalte stellt ein Merkmal oder besser gesagt eine Variable dar. Ein Objekt ist im primitivsten Fall das "Spektrum" für zwei Wellenlängen, also zwei Merkmale. Diese beiden Wellenlängen werden in der Ebene der Extinktionen als Punkt dargestellt. Misst man Proben einer Komponente für verschiedene Konzentrationen, so erhält man die entsprechende Anzahl von Objekten und statt einer einzigen Zeile in obiger Matrix-Darstellung mehrere Zeilen und mehrere Punkte im Raum. Man erhält eine Nullpunktsgerade in einem Extinktionsdiagramm, wenn die Extinktionen für die beiden Wellenlängen in einem rechtwinkligen Koordinatensystem gegeneinander aufgetragen werden.

Ohne Rauschen würden die Objekte alle auf dieser Geraden liegen. Aber auch bei Messwertschwankungen sind die Objekte nahe dieser Nullpunktsgeraden. Man kann das Koordinatensystem "reduzieren", d.h. die Information nicht bezüglich der beiden Achsen, sondern einer neuen Achse, der "Hauptkomponente" ermitteln. Dazu sucht man in den Daten - im Raum mit den Objekten - diejenige "Ausdehnung" (die größte Varianz dieser Objekte) als neue Richtung, d.h. die Ausgleichgerade und bezieht jetzt alle Objekte auf diese neue Hauptachse, die man auch als latente Variable bezeichnet. Liegen die Objekte nicht alle auf dieser neuen Hauptkomponenten, sondern streuen um diese, so kann man diese andere "Ausdehnung" (Varianz ) als weitere Hauptachse festlegen. Der Datensatz hätte dann zwei Hauptkomponenten, die allerdings unbedingt "orthogonal" sein müssen (bedeutet keine lineare Abhängigkeit). Als Scores bezeichnet man nun den Abstand der jeweiligen Objekte in Richtung der Hauptkomponente vom neuen Koordinatensystem-Ursprung (gibt Anteil der neuen latenten Variable für das gewählte Objekt an). Die Loadings sind dann für eine neue latente Variable der Anteil der jeweiligen alten Achse (Variable). Loadings sind also Gewichtungsfaktoren in "Einheiten" des alten Achsensystems für die neuen latenten Variablen. Scores sind die ursprünglichen Objekte als Funktion der neuen latenten Variablen.

Das Verfahren ist auch für höhrere Dimensionen anwendbar. Bei dieser Reduktion der Variablen gibt es eine Grenze, wenn alle signifikanten Merkmale extrahiert und auf die minimale Anzahl beschränkt sind. Dies äußert sich in Scores, die kleiner als die statistischen Fehler sind. Allerdings ist dieser Grenzwert häufig nicht einfach zu legen, so dass eine falsche Anzahl von Hauptkomponenten ermittelt werden kann. Diese Zusammenhänge sind nochmals in folgender Abbildung zusammengefasst.

Abb.1

Hauptkomponentenanalyse: (a) Projektion eines zweidimensionalen Datensatzes auf die x1 und x2-Achsen. Durch Linearkombination ergibt sich eine neue Achse (b).

Seite 15 von 15>