Einführung in die Regressionsanalyse
Korrelation
Nimmt man zwischen den Variablen und eine lineare Abhängigkeit
an, dann stellt sich die Frage, wie weit diese Beziehung zutrifft. Durch eine qualitative Auswertung anhand des Streuungsdiagramms kann dies festgestellt werden. Zwei Kriterien für die lineare Beziehung der Form sind:
- die Steigung der Regressionsgerade für die Regression von auf sollte mit derjenigen für die Regression von auf übereinstimmen und
- die Steigungsfehler sollten klein sein.
Es lässt sich zeigen, dass die Regressionsfunktion der kleinsten Quadrate
durch den Schwerpunkt der Punktwolke geht, wobei
sind. Transformiert man die Koordinaten auf folgende Weise
so wird die Gerade in den neuen Koordinaten aus dargestellt:
Der Regressionskoeffizient der kleinsten Quadrate und sein Fehler sind
wobei
ist (so genannter Korrelationskoeffizient). Tauscht man mit aus, so erhält man die Regressionsgerade für die Regression von auf
Der Regressionskoeffizient und sein Fehler sind
Perfekte Korrelation
Für perfekte Korrelationen (kein Punkt weicht von der Regressionsgerade ab) gilt:
Nach Gleichungen und ist erfüllt, wenn
gilt. Geht man davon aus, dass
dann folgt
Eine perfekte Korrelation liegt also vor, wenn
ist.
Nichtvorhandensein einer Korrelation
Besteht zwischen und keine Beziehung, dann gilt
Gilt , dann folgt aus
Aus Gleichungen und folgt weiter
d.h. die Regressionsgeraden fallen mit der - bzw. -Achse zusammen.
Korrelationsgrad
Aus , und folgt
und
wobei
gilt. Je größer der Wert von ist, desto geringer wird die Streuung der Punkte um die Regressionsgerade; um so größer wird das Vertrauen sein, dass die Beziehung mit den Daten konform ist.
In den Koordinaten und ist gegeben durch
Zerlegung der Quadratsumme für die Gesamtabweichung
Es lässt sich zeigen, dass für die lineare Regressionsfunktion die folgende Zerlegung möglich ist.
Wir führen die nachfolgende Bezeichnungen ein.
ist durch die Regression erklärt. ist eigentlich die Summe der Residuen . Läuft die Regressionsfunktion der kleinsten Quadrate durch alle beobachteten Punkte , dann ist , und alle Abweichungen in den Werten sind durch die Regression erklärt. Ist andererseits das Vertrauen in die Beziehung niedrig, dann bedeutet dies, dass kleiner als () ist. Die Abweichungen der Werte erweisen damit die vorgeschlagene Regressionsfunktion als ungeeignet. Der Korrelationskoeffizient ist auch gegeben durch
Daraus folgt