zum Directory-modus

Einführung in die Regressionsanalyse

Bestimmung einer einfachen linearen Regressionsfunktion

Wir betrachten die lineare Regressionsfunktion

y ^ = a 1 + a 2 x .

Die Summe der Abweichungsquadrate für m Messpaare ( x i , y i ) lautet

S ( a 1 , a 2 ) = i = 1 m y i - y ^ i 2 = i = 1 m y i - a 1 - a 2 x i 2 .

Ein Extremwert der Kostenfunktion S ( a 1 , a 2 ) liegt vor, wenn

S a 1 = S a 2 = 0

gilt. Bildet man die ersten partiellen Ableitungen, so erhält man

S a 1 = - 2 i = 1 m y i - a 1 - a 2 x i und S a 2 = - 2 i = 1 m x i y i - a 1 - a 2 x i .

Nach Einsetzen in und Auflösung der Summen resultieren die beiden folgenden Gleichungen.

m a ^ 1 + a ^ 2 i = 1 m x i = i = 1 m y i a ^ 1 i = 1 m x i + a ^ 2 i = 1 m x i 2 = i = 1 m x i y i

Die Gleichungen liefern die geschätzten Werten a ^ 1 und a ^ 1 der Regressionskoeffizienten a 1 und a 2 gemäß der Methode der kleinsten Quadrate. Sie werden als Normalgleichungen bezeichnet. Nach Auflösung von erhält man

a ^ 1 = i = 1 m x i 2 i = 1 m y i - i = 1 m x i i = 1 m x i y i m i = 1 m x i 2 - i = 1 m x i 2 und a ^ 2 = m i = 1 m x i y i - i = 1 m x i i = 1 m y i m i = 1 m x i 2 - i = 1 m x i 2 .

Man nennt a ^ 1 und a ^ 2 die Regressionskoeffizienten der kleinsten Quadrate. Dass tatsächlich ein Mininum von S ( a 1 , a 2 ) ergibt, zeigt eine Betrachtung der höheren partiellen Ableitungen von S ( a 1 , a 2 ) .

Die Regressionsfunktion der kleinsten Quadrate lautet

y ^ = a ^ 1 + a ^ 2 x .

Beispiel

Der Zusammenhang zwischen zwei beobachteten Variablen lässt sich gut durch eine Gerade darstellen. Die Werte für ( x i , y i ) sowie die Summen zur Berechnung der Regressionskoeffizienten sind in der folgenden Tabelle zusammengestellt.

Tab.1
Datentabelle
i x i y i x i 2 y i 2 x i y i
11,1526243,175841,32854310,0859573,66055
21,9394882,4366363,7616135,9371944,725826
33,0164044,2353949,09869417,93856212,77566
44,0653023,5574516,52668412,65544814,462109
54,9458954,92080424,46187324,2143124,337777
66,2135036,97798538,60761448,6922843,35773
77,0184425,41472249,25853429,3192138,002912
87,9383378,55672963,01719573,21760667,926197
98,955138,99671980,19435880,94094480,566786
1010,08238210,97213101,654435120,387642110,625213
55,32750859,244407387,909544423,389155400,44076

Die Regressionskoeffizienten der kleinsten Quadrate sind durch die Formeln gegeben und berechenbar.

a ^ 1 = i = 1 m x i 2 i = 1 m y i - i = 1 m x i i = 1 m x i y i m i = 1 m x i 2 - i = 1 m x i 2 = 387,909544 59,244407 - 55,327508 400,44076 10 387,909544 - ( 55,327508 ) 2 = 1,009926271 a ^ 2 = m i = 1 m x i y i - i = 1 m x i i = 1 m y i m i = 1 m x i 2 - i = 1 m x i 2 = 10 400,44076 - 55,327508 59,244407 10 387,909544 - ( 55,327508 ) 2 = 0,8882587739

Folglich lautet die Regressionsfunktion der kleinsten Quadrate

y ^ = a ^ 1 + a ^ 2 x = 1,009926271 + 0,8882587739 x .
Abb.1
Regressionsgerade

Die Fehler der Regressionskoeffizienten resultieren aus den Fehlern der Messpunkte y 1 , y 2 , , y m . Es lässt sich zeigen, dass die Fehler der Regressionskoeffizienten

S ( a ^ 1 ) = m σ ( y ) i = 1 m x i 2 1 / 2 m ( m - 2 ) m i = 1 m x i 2 - i = 1 m x i 2 1 / 2 S ( a ^ 2 ) = m σ ( y ) ( m - 2 ) m i = 1 m x i 2 - i = 1 m x i 2 1 / 2

sind, wobei σ ( y ) die geschätzte Standardabweichung der einzelnen Messungen y 1 , y 2 , , y m ist

σ ( y ) = 1 m i = 1 m e i 2 = 1 m i = 1 m y i - y ^ i 2 m 2 σ 2 ( y ) = m i = 1 m y i 2 - i = 1 m y i 2 - m i = 1 m x i y i - i = 1 m x i i = 1 m y i 2 m i = 1 m x i 2 - i = 1 m x i 2 .

Für das obige Beispiel erhält man

S ( a ^ 1 ) 0,6826695568 S ( a ^ 2 ) 0,1096087699.
Seite 2 von 3