Einführung in die multivariate Datenanalyse am Beispiel von Sensoren
Graphische Durchführung der PCA
Die (graphische) Ausdehnung der Proben im Sensorraum wird als Varianz bezeichnet. Am besten lässt sich die Varianz graphisch darstellen, indem um die Proben ein Ellipsoid gezeichnet wird, welcher in der Abbildung (Abb. 1) grün dargestellt ist.
Die erste Hauptkomponente (PC11)) wird so in den Sensorraum gelegt, dass sie den größten Anteil der Varianz beschreibt. Graphisch entspricht dies der ersten Hauptachse des Ellipsoids.
Die zugehörigen Koordinatenwerte der ersten Hauptkomponente erhält man, indem man für jede Probe eine senkrechte Projektion auf die Hauptkomponente durchführt und den entsprechenden Koordinatenwert abliest.
In der nachfolgenden Abbildung (Abb. 4) sind die Koordinatenwerte der Früchte für die erste Hauptkomponente graphisch dargestellt. Man kann an dieser Abbildung (Abb. 4) sehen, dass alle vier Obstsorten sich in der ersten Hauptkomponente unterscheiden. Für eine qualitative Beschreibung der Proben in Bezug auf eine Unterscheidung ist somit eine Hauptkomponente ausreichend. Dies entspricht einer Reduktion des beschreibenden Raumes von zwei auf eine Dimension.
Auch wenn für eine qualitative Unterscheidung der Obstsorten in diesem Fall eine Hauptkomponente ausreicht, ist es immer ratsam, die nächsten folgenden Hauptkomponenten zu untersuchen. Die zweite Hauptkomponente ist orthogonal zur ersten Hauptkomponente und erstreckt sich in die Richtung im Raum mit dem größten Anteil an der Varianz, welche von der ersten Hauptkomponente nicht erklärt wird. Graphisch entspricht dies der zweiten Hauptachse des Ellipsoids.
Die zugehörigen Koordinatenwerte der zweiten Hauptkomponente erhält man, indem man für jede Probe eine senkrechte Projektion auf die zweite Hauptkomponente durchführt und den entsprechenden Koordinatenwert abliest.
In der nachfolgenden Abbildung (Abb. 7) sind die Koordinatenwerte der Früchte für die zweite Hauptkomponente graphisch dargestellt. Es ist offensichtlich, dass die zweite Hauptkomponente nicht zwischen allen Obstsorten unterscheiden kann.
Die oben durchgeführten Schritte können für alle Hauptkomponenten hintereinander durchgeführt werden. Auch wenn es prinzipiell so viele Hauptkomponenten wie Sensoren gibt, sollte man beachten, dass nur die ersten wenigen Hauptkomponenten einflussreiche Information repräsentieren. Die höheren Hauptkomponenten enthalten oft nur noch Informationen über das Rauschen.
1) | PC1: principal component 1 |