zum Directory-modus

Allgemeine Multivariate Datenanalyse

Lack of Fit

Wie folgende Abbildung zeigt, setzt sich die Residuenquadratsumme S S r e s aus zwei Anteilen zusammen:

S S r e s = S S L O F + S S P E

  1. einer Abweichung, die nicht durch Zufall erklärbar ist und mit Lack of Fit (LOF) bezeichnet wird, und
  2. einer zufälligen Streuung der Messwerte, für die in der Literatur der Begriff pure experimental (PE) geführt wird.

In der nachfolgenden Abbildung beziehen sich die verschiedenen Größen auf das Zahlenbeispiel der Seite Varianzananalyse.

Abb.1

Messdaten mit einer Geradengleichung modelliert und ANOVA für lineare Regression mit Darstellung von lack of fit und weiterer Größen

Definiert man noch den Vektor für die um die Replikationen korrigierten Daten

j = ( y 1 y 2 y 3 + y 4 2 y 3 + y 4 2 )

, so erhält man die Quadratsummen

S S LOF = l T l = ( j y ^ ) T ( j y ^ ) = ( ( 2 10 6 + 8 2 6 + 8 2 ) ( 2,5 10,5 6,5 6,5 ) ) T ( ( 2 10 6 + 8 2 6 + 8 2 ) ( 2,5 10,5 6,5 6,5 ) ) = ( 0,5 0,5 0,5 0,5 ) T ( 0,5 0,5 0,5 0,5 ) = 1 S S PE = p T p = ( y j ) T ( y j ) = ( ( 2 10 6 8 ) ( 2 10 6 + 8 2 6 + 8 2 ) ) T ( ( 2 10 6 8 ) ( 2 10 6 + 8 2 6 + 8 2 ) ) = ( 0 0 1 1 ) T ( 0 0 1 1 ) = 2

Für den Lack of Fit ergibt sich ein Prüfwert von

F ˆ = S S LOF / ( f p ) S S PE / ( n f ) = 1 / ( 3 2 ) 2 / ( 4 3 ) = 1 / 1 2 / 1 = 0 , 5 f = Freiheitsgrad p = Anzahl Replikationen n = Anzahl Messwerte

und ein Tabellenwert der Fisher-Verteilung von

F ( f Z , f N , α ) = = F ( 1 ; 1 ; 0 , 05 ) = 161 , 4

mit

F ( f Z , f N , α ) < F ^

Da der Prüfwert kleiner als die kritische Größe (Tabellenwert) ist, ist die systematische Abweichung signifikant kleiner als die Streuung (Nullhypothese erfüllt).

Sowohl beim Lack of Fit (LOF) als auch beim Goodness of Fit (GOF) werden anders als beim normalen Fisher-Test ( F ˆ 1 ) immer die Definitionsgleichungen für den Prüfwert eingehalten. Beim normalen F-Test ist die größere Varianz der Zähler und die kleinere der Nenner. Falls der Prüfwert F ˆ kleiner ist als der tabellierte Wert, macht der Test keine Aussage.

Für diesen Test sind Wiederholungsmessungen (Replikationen) Voraussetzung. J-Werte sind Mittelwerte von Replikationen.

Für den 3. und 4. Messwert des Zahlenbeispiels gilt:

y 3 = 6 y 4 = 8 y ˆ 3 = y ˆ 4 = 6 , 5 y ¯ = 6 , 5 j 3 = j 4 = 7 c 4 = y 4 y ¯ = 8 6,5 = 1 , 5 m 4 = y ^ 4 y ¯ = 6,5 6,5 = 0 r 4 = y 4 y ^ 4 = 8 6,5 = 1 , 5

In dem dargestellten Fall gilt eine Besonderheit. Da

c i = y i y ¯ r i = y i y ¯ m i = y ^ i y ¯ c i = r i + m i

erhält man für den 4. Messwert

c 4 = r 4 + m 4 m 4 = 0 c 4 = r 4 = 1,5

und den 3. Messwert

c 3 = r 3 = 0,5

Aus diesem Grunde sind in folgender Abbildung andere Wiederholungsmessungen gewählt worden, für die die Messwerte x i nicht mehr so nahe am Datenschwerpunkt liegen, so dass y ˆ nicht mehr gleich y ¯ wird.

Abb.2

Modellierte Geradengleichung und ANOVA für lineare Regression mit Darstellung von lack of fit und weiterer Größen für Replikation entfernt vom Datenschwerpunkt

Seite 10 von 15