zum Directory-modus

Lineare Regression

Bestimmung einer allgemein-einfachen linearen Regressionsfunktion

Wir versuchen die beobachteten Wertepaare ( x i , y i ) , i = 1 , 2 , , m mit einer linearen Regressionsfunktion

y ^ = a 1 g 1 ( x ) + a 2 g 2 ( x ) + + a n g n ( x )

anzupassen. Die Funktionen g i ( x ) , i = 1 , 2 , , n sind bekannt. Wir werden die Regressionskoeffizienten a i , i = 1 , 2 , , n nach der Methode der kleinsten Quadrate bestimmen. Die geschätzten Werte sind

y ^ 1 = a 1 g 1 ( x 1 ) + a 2 g 2 ( x 1 ) + + a n g n ( x 1 ) y ^ 2 = a 1 g 1 ( x 2 ) + a 2 g 2 ( x 2 ) + + a n g n ( x 2 ) y ^ m = a 1 g 1 ( x m ) + a 2 g 2 ( x m ) + + a n g n ( x m ).

Wir gehen nun zur kompakteren vektoriellen Schreibweise über. Dann wird

y ^ = G a ,

wobei

G = g 1 ( x 1 ) g 2 ( x 1 ) g n ( x 1 ) g 1 ( x 2 ) g 2 ( x 2 ) g n ( x 2 ) g 1 ( x m ) g 2 ( x m ) g n ( x m )

eine m × n Matrix ist, die als Regressormatrix bezeichnet wird. Der Residuenvektor ist

e = y - y ^ = y - G a .

Die Fehlerfunktion ist eine Funktion von n Veränderlichen a 1 , a 2 , , a n

S ( a ) = i = 1 m y i - y ^ i 2 = e T e = y T - a T G T y - G a .

Wir suchen den Wert a = a ^ , der S ( a ) minimiert. S ( a ) besitzt einen Extremwert, wenn

S a = S a 1 S a 2 S a n T = 0

gilt. Aus erhält man

S ( a ) = y T y - y T G a - a T G T y + a T G T G a .

Es gilt

y T G a = a T G T y

und somit ist

S a = a - 2 y T G a + a a T G T G a .

Wir berechnen nun die partiellen Ableitungen in in Komponentenform. Es sind

a k - 2 y T G a = a k - 2 i j y i G i j a j = - 2 i y i G i k = - 2 i G k i T y i = - 2 G T y k

und

a k a T G T G a = a k i j l a j G j i T G i l a l = i l G k i T G i l a l + i j a j G j i T G i k = i l G k i T G i l a l + i j G k i T G i j a j = 2 G T G a k .

Für das Minimum gilt

S a = - 2 G T y + 2 G T G a ^ = 0 .

Folglich sind die Normalgleichungen

G T G a ^ = G T y .

a ^ ist der Vektor der Regressionskoeffizienten der kleinsten Quadrate. Gleichung stellt ein lineares Gleichungssystem von n Gleichungen mit n Unbekannten dar. G T G ist eine symmetrische n × n Matrix, als Normalmatrix bekannt. Die Normalgleichungen haben die Lösung

a ^ = G T G -1 G T y .

Die geschätzten Werte der abhängigen Variablen für die durch die Methode der kleinsten Quadrate bestimmten Regressionskoeffizienten sind

y ^ = G a ^ .

Aus ergibt sich, dass y ^ eine Linearkombination der Spaltenvektoren von G ist.

y ^ = a ^ 1 g 1 + a ^ 2 g 2 + + a ^ n g n

Da i. Allg. n < m ist, bilden die Spaltenvektoren einen n -dimensionalen Unterraum des m -dimensionalen Vektorraums des Vektors y . Der Vektor y ^ ist die orthogonale Projektion von y auf diesen Unterraum. Bilden wir jetzt das Skalarprodukt von y ^ mit dem Fehlervektor e = y - y ^ , so erhalten wir

y ^ T e = a ^ T G T y - G a ^ = y T G G T G -1 G T y - G G T G -1 G T y = y T G G -1 G T -1 G T y - G G -1 G T -1 G T y = y ^ T y - y ^ T y = 0 ,

d.h. der Vektor e ist zu den Vektoren in diesem Unterraum orthogonal.

<Seite 1 von 4