zum Directory-modus

Allgemeine Multivariate Datenanalyse

Varianzanalyse

Im Folgenden soll die Varianzanalyse (Analysis of Variance ANOVA) bei einer Geradengleichung

y i = p 0 + p 1 x i = 1,5 + 4 x i

dargestellt werden. Es gelten die Wertepaare

x = ( 1,0 3,0 2,0 2,0 ) y = ( 2,0 10,0 6,0 8,0 )

, wobei für x = 2   eine Wiederholungsmessung durchgeführt wurde (Replikation). Die Messpunktanzahl ist n = 4   und die Anzahl der Freiheitsgrade f = 3 . Die Datenschwerpunkte ergeben sich zu:

y ¯ = ( 6 , 5 6 , 5 6 , 5 6 , 5 ) x ¯ = ( 2 2 2 2 )

Die Distanz c i = y i y ¯ mit den Messwerten y i und dem Datenschwerpunkt y ¯ als korrigierter Wert ergibt den Vektor

c = y y ¯ = ( 2,0 6,5 10,0 6,5 6,0 6,5 8,0 6,5 ) = ( 4 , 5 3 , 5 0 , 5 1 , 5 )

Mit

y ˆ i = p 1 ( x i x ¯ c ) + y ¯ c = 4 ( x i 2 ) + 6 , 5 = 4 x i 1 , 5

ergeben sich die Schätzwerte zu

y ˆ = ( 4 1,0 1,5 4 3,0 1,5 4 2,0 1,5 4 2,0 1,5 ) = ( 2 , 5 10 , 5 6 , 5 6 , 5 )

Die Abweichung der Geradengleichung von den Datenschwerpunkten

y ˆ i y ¯ = m i

ergibt den Modellvektor

m = y ^ y ¯ = ( 2,5 10,5 6,5 6,5 ) ( 6,5 6,5 6,5 6,5 ) = ( 4 4 0 0 )

Die Abweichung von Messwert und berechnetem Schätzwert findet sich in den Residuen

r i = y i y ˆ i r = y y ^ = ( 2,0 10,0 6,0 8,0 ) ( 2,5 10,5 6,5 6,5 ) = ( 0 , 5 0 , 5 0 , 5 1 , 5 )

Man bildet nun die Quadratsummen (sum of squares)

S S total = y T y S S mean = y ¯ T y ¯ S S corr = c T c = ( y y ¯ ) T ( y y ¯ ) S S mod = m T m = ( y ^ y ¯ ) T ( y ^ y ¯ ) S S res = r T r = ( y y ^ ) T ( y y ^ )

, wobei p = 2   die Anzahl der Replikationen sind. Das entsprechende Schema für eine Ableitung der verschiedenen Stufen der Varianzanalyse ist in in folgender Abbildung dargestellt.

Abb.1

ANOVA für lineare Regression mit Darstellung von lack of fit.

Aus dem Vergleich der Quadratsummen können weitere Informationen erhalten werden.

Korrelationskoeffizient

Man kann zeigen, dass der Korrelationskoeffizient r die Wurzel aus dem Verhältnis der Quadratsummen von Modell

S S mod = ( y ˆ - y ¯ ) T ( y ˆ y ¯ )

und Korrektur

S S corr = ( y y ¯ ) T ( y y ¯ )

ist:

r 2 = S S mod S S c o r r 1

Es handelt sich eigentlich um keinen Test. Dadurch wird deutlich, dass diese Vorgehensweise problematisch ist, da zwischen Ebenen der Varianzanalyse gesprungen und verglichen wird. D.h. eine Korrelation sagt nur aus, wie gut die Kurve durch die Punkte geht.

Seite 8 von 15