zum Directory-modus

Einführung in die Regressionsanalyse

Einführung

In den Naturwissenschaften werden oft Beziehungen zwischen zwei oder mehreren Größen untersucht. Die Regressionsanalyse versucht die Art der Abhängigkeit zwischen den Größen (Variablen) zu bestimmen, d.h. die Funktion zu finden, die die zwischen den Variablen bestehende Abhängigkeit beschreibt. Bei der einfachen Regression von y auf x wird nur die Beziehung zwischen zwei Variablen x und y untersucht. Man bezeichnet x als die unabhängige (Regressor) und y als die abhängige Variable (Regressand). Die gesuchte Funktion nennt man die y x -Regressionsfunktion. Demgegenüber geht es bei der mehrfachen Regression um die Beziehung zwischen einer abhängigen Variable y und mehreren unabhängigen Variablen x 1 , x 2 , , x k .

In manchen Fällen resultiert aus der physikalischen Theorie eine Hypothese über die Beziehung zwischen den Variablen x und y , d.h. über die Form der Regressionsfunktion. Ansonsten lässt sich die mathematische Form der Regressionsfunktion anhand der gemessenen Wertepaare ( x i , y i ) , i = 1 , 2 , , m gewinnen. Stellt man die m Punkte ( x i , y i ) in einem kartesischen Koordinatensystem dar, so erhält man ein Streuungsdiagramm.

Abb.1
Kein Zusammenhang
Abb.2
Linearer Zusammenhang y ^ = a 1 + a 2 x

Erkennt man im Streuungsdiagramm eine Tendenz, z.B. dass die Punkte auf einer Geraden liegen, dann ist die folgende Regressionsfunktion vorzuschlagen.

y ^ = a 1 + a 2 x ,

y ^ bezeichnet den geschätzten Wert im Gegensatz zu dem beobachteten Wert y . Die Parameter a 1 und a 2 sind die so genannten Regressionskoeffizienten, die man mittels der beobachteten Daten ermitteln will. Man beachte, dass die Regressionskoeffizienten in linear auftreten. Die allgemeine lineare Regressionsfunktion hat die Form

y ^ = a 1 g 1 ( x ) + a 2 g 2 ( x ) + + a n g n ( x ) ,

wobei g i ( x ) , i = 1 , 2 , , n bekannte Funktionen einer Variablen sind und nicht unbedingt linear in x sein müssen, z.B.

y ^ = a 1 sin ( x ) + a 2 x 3 + a 3 x .

Die Formel ist somit ein Sonderfall von mit n = 2 , g 1 ( x ) = 1 und g 2 ( x ) = x .

Abb.3
Zusammenhang der Form y ^ = a 1 + a 2 x + a 3 x 2

Eine nichtlineare Regressionsfunktion, z.B.

y ^ = a 1 + a 2 e a 3 x ,

ist dagegen keine lineare Funktion der Regressionskoeffizienten.

Für einen Wert x i der unabhängigen Variable x ergibt die Regressionsfunktion den geschätzten Wert y ^ i . Die m Messpunkte liefern ein System von m linearen Gleichungen mit n Unbekannten. Für die Regressionsfunktion erhält man dann das folgende Lineargleichungssystem.

y ^ 1 = a 1 + a 2 x 1 y ^ 2 = a 1 + a 2 x 2 y ^ m = a 1 + a 2 x m

Das Lineargleichungssystem ist in der Regel überbestimmt. Nur für m = 2 ist eine exakte Lösung gewährleistet, d.h. man kann immer eine Gerade durch 2 Messpunkte zeichnen. Für m 3 ist i. Allg. keine exakte Lösung möglich, da die geschätzten Werte y ^ i von den entsprechenden beobachteten Werten y i abweichen können, d.h. die Messpunkte sind nicht kollinear. In diesem Fall muss man für näherungsweise eine Lösung suchen. Die Abweichung der beobachteten Werte von den geschätzten Werten nennt man Residuen oder Messfehler

e i = y i - y ^ i .

Der Fehler e i hängt von den eingesetzten Werten der Regressionskoeffizienten a 1 , a 2 ab. Man versucht nun die Werte für die Regressionskoeffizienten zu finden, die die beobachteten Daten möglichst gut beschreiben. Dies ist die Aufgabe der Ausgleichsrechnung. Ein sehr bekanntes Kriterium dafür ist, dass man die Summe der Quadrate der einfachen Abweichungen

S = i = 1 m e i 2 = i = 1 m y i - y ^ i 2

minimiert (so genannte Methode der kleinsten Quadrate). Die Summe S ist eine Funktion der Regressionskoeffizienten a 1 und a 2 und wird häufig als Fehlerfunktion oder als Kostenfunktion bezeichnet. Man bestimmt das Minimum von S ( a 1 , a 2 ) , d.h. den Extremwert einer Funktion mit zwei Veränderlichen, oder, wie im allgemeinen Fall (), mit n Veränderlichen.

<Seite 1 von 3