zum Directory-modus

Einführung in die Regressionsanalyse

Korrelation

Nimmt man zwischen den Variablen x und y eine lineare Abhängigkeit

y ^ = a 1 + a 2 x

an, dann stellt sich die Frage, wie weit diese Beziehung zutrifft. Durch eine qualitative Auswertung anhand des Streuungsdiagramms kann dies festgestellt werden. Zwei Kriterien für die lineare Beziehung der Form sind:

  1. die Steigung der Regressionsgerade für die Regression von y auf x sollte mit derjenigen für die Regression von x auf y übereinstimmen und
  2. die Steigungsfehler sollten klein sein.

Es lässt sich zeigen, dass die Regressionsfunktion der kleinsten Quadrate

y ^ = a ^ 1 + a ^ 2 x

durch den Schwerpunkt ( x ¯ , y ¯ ) der Punktwolke ( x i , y i ) , i = 1 , 2 , , m geht, wobei

x ¯ = 1 m i = 1 m x i und y ¯ = 1 m i = 1 m y i

sind. Transformiert man die Koordinaten auf folgende Weise

x ' i = x i - x ¯ und y ' i = y i - y ¯ ,

so wird die Gerade in den neuen Koordinaten aus dargestellt:

y ^ ' = a 2 x ' .

Der Regressionskoeffizient der kleinsten Quadrate und sein Fehler sind

a ^ 2 = i = 1 m x ' i y ' i i = 1 m x ' i 2 S ( a ^ 2 ) = ( 1 - r 2 ) i = 1 m y ' i 2 ( m - 2 ) i = 1 m x ' i 2 1 / 2 ,

wobei

r = i = 1 m x ' i y ' i i = 1 m x ' i 2 i = 1 m y ' i 2 1 / 2

ist (so genannter Korrelationskoeffizient). Tauscht man x ' mit y ' aus, so erhält man die Regressionsgerade für die Regression von x ' auf y '

x ^ ' = a 2 * y ' .

Der Regressionskoeffizient und sein Fehler sind

a ^ 2 * = i = 1 m x ' i y ' i i = 1 m y ' i 2 S ( a ^ 2 * ) = ( 1 - r 2 ) i = 1 m x ' i 2 ( m - 2 ) i = 1 m y ' i 2 1 / 2 .

Perfekte Korrelation

Für perfekte Korrelationen (kein Punkt weicht von der Regressionsgerade ab) gilt:

a ^ 2 = 1 a ^ 2 * und S ( a ^ 2 ) = S ( a ^ 2 * ) = 0 .

Nach Gleichungen und ist erfüllt, wenn

i = 1 m x ' i y ' i i = 1 m x ' i 2 = i = 1 m y ' i 2 i = 1 m x ' i y ' i und ( 1 - r 2 ) i = 1 m y ' i 2 i = 1 m x ' i 2 = ( 1 - r 2 ) i = 1 m x ' i 2 i = 1 m y ' i 2 = 0

gilt. Geht man davon aus, dass

i = 1 m x ' i 2 0 und i = 1 m y ' i 2 0 ,

dann folgt

1 - r 2 = 0 oder r = ± 1 .

Eine perfekte Korrelation liegt also vor, wenn

r = i = 1 m x ' i y ' i i = 1 m x ' i 2 i = 1 m y ' i 2 1 / 2 = ± 1

ist.

Nichtvorhandensein einer Korrelation

Besteht zwischen x und y keine Beziehung, dann gilt

i = 1 m x ' i y ' i = 0 .

Gilt , dann folgt aus

r = 0 .

Aus Gleichungen und folgt weiter

a ^ 2 = 0 und a ^ 2 * = 0 ,

d.h. die Regressionsgeraden fallen mit der x - bzw. y -Achse zusammen.

Korrelationsgrad

Aus , und folgt

a ^ 2 a ^ 2 * = r 2

und

S ( a ^ 2 ) a ^ 2 = S ( a ^ 2 * ) a ^ 2 * = ( 1 - r 2 ) ( m - 2 ) r 2 1 / 2 ,

wobei

0 | r | 1

gilt. Je größer der Wert von | r | ist, desto geringer wird die Streuung der Punkte um die Regressionsgerade; um so größer wird das Vertrauen sein, dass die Beziehung mit den Daten konform ist.

In den Koordinaten x und y ist r gegeben durch

r = m i = 1 m x i y i - i = 1 m x i i = 1 m y i m i = 1 m x i 2 - i = 1 m x i 2 1 / 2 m i = 1 m y i 2 - i = 1 m y i 2 1 / 2 .
Abb.1
r = 0,9441463844
Abb.2
r = 0,4451685447

Zerlegung der Quadratsumme für die Gesamtabweichung

Es lässt sich zeigen, dass für die lineare Regressionsfunktion die folgende Zerlegung möglich ist.

i = 1 m ( y i - y ¯ ) 2 = i = 1 m ( y ^ i - y ¯ ) 2 + i = 1 m ( y i - y ^ i ) 2

Wir führen die nachfolgende Bezeichnungen ein.

i = 1 m ( y i - y ¯ ) 2 = Σ t Quadratsumme der zu erklärenden Abweichungen i = 1 m ( y ^ i - y ¯ ) 2 = Σ r Quadratsumme der erklärten Abweichungen i = 1 m ( y i - y ^ i ) 2 = Σ e Quadratsumme der nichterklärten Abweichungen

Σ r ist durch die Regression erklärt. Σ e ist eigentlich die Summe der Residuen Σ e = i = 1 m e i 2 . Läuft die Regressionsfunktion der kleinsten Quadrate durch alle beobachteten Punkte ( x i , y i ) , i = 1 , 2 , , m , dann ist Σ e = 0 , und alle Abweichungen in den Werten y i , i = 1 , 2 , , m sind durch die Regression erklärt. Ist andererseits das Vertrauen in die Beziehung niedrig, dann bedeutet dies, dass Σ r kleiner als Σ e ( Σ r Σ e ) ist. Die Abweichungen der Werte y i , i = 1 , 2 , , m erweisen damit die vorgeschlagene Regressionsfunktion als ungeeignet. Der Korrelationskoeffizient ist auch gegeben durch

r 2 = Σ r Σ t = Σ r Σ r + Σ e .

Daraus folgt

| r | 0 für Σ r Σ e fast keine Korrelation | r | 1 für Σ r Σ e fast perfekte Korrelation .
Seite 3 von 3>