zum Directory-modus

Allgemeine Multivariate Datenanalyse

Matrizendarstellung

Die Wertepaare ( x i , y i )   von zwei Zufallsvariablen sollen durch ein lineares Gleichungssystem mit Polynomen m-ter Ordnung dargestellt werden:

y 1 = p 0 + p 1 x 1 + p 2 x 1 2 + + p m x 1 m + e 1 y 2 = p 0 + p 1 x 2 + p 2 x 2 2 + + p m x 2 m + e 2 y n = p 0 + p 1 x n + p 2 x n 2 + + p m x n m + e n

Die Abweichung eines Messwertes y i vom Schätzwert y ^ i ist durch den Fehler e i gegeben:

y i = y ^ i + e i y ^ i = p 0 + p 1 x + p 2 x 2 + + p m x m y i = p 0 + p 1 x + p 2 x 2 + + p m x m + e i

Das Gleichungssystem kann durch die Matrizen

y ^ = ( y ^ 1 y ^ 2 . . . y ^ n )  , y = ( y 1 y 2 . . . y n )  , e = ( e 1 e 2 . . . e n )  , p = ( p 0 p 1 . . . p m )  , X = ( 1 x 1 x 1 2 x 1 3 x 1 m 1 x 2 x 2 2 x 2 3 x 2 m 1 x n x n 2 x n 3 x n m )

beschrieben werden:

y = y ^ + e = X p + e y ^ = n × 1 -Matrix der berechneten y-Werte (Schätzwerte) y = n × 1 -Matrix der y-Messwerte X = n × (m+1) -Matrix p = m × 1 -Matrix der Koeffizienten e = n × 1 -Matrix der Fehler

Matrizen können nur dann multipliziert werden, wenn die Spaltenanzahl der ersten Matrix mit der Zeilenanzahl der zweiten Matrix übereinstimmt.

Durch Aufstellen der Fehlerfunktion

S ( p ) = i = 1 n ( y i y ^ i ) 2 = | e | 2 = e T e = ( y X p ) T ( y X p )

und Minimalisierung des Fehlers

S p = ( S p 0 , S p 1 ,..., S p m ) T = 0

erhält man die sogenannte Normalengleichung

( X T X ) p ˆ = X T y

mit der Lösung

p ˆ = ( X ' X ) 1 X T y

Durch Umformen der Normalengleichung können die Koeffizienten p ^ i berechnet und damit die Abweichungen e i = y i y ^ i vom richtigen Wert (Schätzwert) ermittelt werden.

Nachfolgend werden als Beispiel die Koeffizienten einer linearen Funktion

y = y ^ + e = p 0 + p 1 x + e

durch Minimalisierung der Quadratsummen ermittelt:

i = 1 n ( y i y ^ i ) 2 = i = 1 n ( y i p 0 + p 1 x i ) 2 p 0 i = 1 n ( y i y ^ i ) 2 = 0 p 1 i = 1 n ( y i y ^ i ) 2 = 0

Es wird nach p 0 bzw. nach p 1 abgeleitet und diese Ableitungen null gesetzt. Man erhält

n p 0 + p 1 i = 1 n x i = i = 1 n y i p 0 i = 1 n x i + p 1 i = 1 n x i 2 = i = 1 n x i y i

mit

p 0 = i = 1 n x i 2 i = 1 n y i i = 1 n x i i = 1 n x i y i i = 1 n x i 2 1 n ( i = 1 n x i ) 2 = y ¯ x ¯ r ( x , y ) s y s x x ¯ , y ¯ = Mittelwerte s y , s x = Standardabweichungen

p 1 = i = 1 n x i y i 1 n i = 1 n x i i = 1 n y i i = 1 n x i 2 1 n ( i = 1 n x i ) 2 = cov ( x , y ) s x 2 = r ( x , y ) s y s x cov ( x , y ) = Kovarianz s x 2 = Varianz

Der Korrelationskoeffizient r ( x , y ) ist

r ( x , y ) = cov ( x , y ) s x s y = i = 1 n ( x i x ¯ ) ( y i y ¯ ) i = 1 n ( x i x ¯ ) 2 i = 1 n ( y i y ¯ ) 2

und p 0 der Regressionskoeffizient (Steigung).

Das obige Beispiel kann übersichtlicher mit der Matrixschreibweise dargestellt werden. Es gilt

( X T X ) = ( 1 1 1 x 1 x 2 x n ) ( 1 x 1 1 x 2 1 x 3 ) = ( n i = 1 n x i i = 1 n x i i = 1 n x i 2 )

und man erhält für die Normalengleichung

( n i = 1 n x i i = 1 n x i i = 1 n x i 2 ) ( p 0 p 1 ) = ( 1 1 1 x 1 x 2 x n ) ( y 1 y 2 y n ) = ( i = 1 n y i i = 1 n x i y i )

Bei dieser Ableitung wird angenommen, dass die Varianz des Fehlers im gesamten Zeitraum der Messung konstant ist. Ist dies z. B. bei kinetischen Untersuchungen nicht der Fall, so müssen Wichtungsfaktoren eingeführt werden. Dazu wird üblicherweise zunächst versucht als Wichtungsmatrix eine Diagonalmatrix mit den reziproken Varianzen

W = ( 1 s 1 2 1 s 2 2 1 s n 2 )

in die Fehlerfunktion einzusetzen

S ( p ) = e T W 1 e

und durch Minimalisierung die Koeffizienten zu bestimmen.

Seite 3 von 15