zum Directory-modus

Allgemeine Multivariate Datenanalyse

Lineare Regression

Besteht ein Zusammenhang zwischen einer unabhängigen Variablen x und einer abhängigen Variablen y , der einer Geraden entspricht, so wird diese Problemstellung als lineare Regression behandelt und durch die Geradengleichung

y = a + b x a = Achsenabschnitt der Ordinate b = Steigung

beschrieben. Dies ist zwar mathematisch richtig, aber nicht hinsichtlich der Statistik oder der Analytik. Man darf nämlich nicht extrapolieren: b befindet sich jedoch i.A. ausserhalb des bestimmten Bereiches (z.B. Kalibrierbereiches, Kalibrierung). Daher nimmt man die Schwerpunkte ( y ¯ , x ¯ ) der Messwerte, die immer innerhalb des Kalibrierbereiches liegen. Dabei steht der Index c für Kalibrieren. Die Geradengleichung lautet dann, wenn a durch die Datenschwerpunkte ausgedrückt wird:

y ¯ c = a + b x ¯ c a = b x ¯ c + y ¯ c y = b ( x x ¯ c ) + y ¯ c

Genauso wie bei der mathematischen Form der Ausgleichsgeraden wird zur Bestimmung der Geradenparameter a und b auch hier die Methode der kleinsten Fehlerquadrate (Gauß) eingesetzt:

S ( a , b ) = 1 n i = 1 n ( y i y ^ i ) 2 = 1 n i = 1 n [ y i ( a x i + b ) ] 2 S ( a , b ) a = 0 S ( a , b ) b = 0 y ^ i = berechneter Signalwert

Da man auch von den wahrscheinlichsten Schätzwerten spricht, nennt man dieses Prinzip auch das Maximum-Likelihood-Prinzip (von engl.: likelihood = Wahrscheinlichkeit). Nach dem Maximum-Likelihood-Prinzip werden die Schätzwerte so bestimmt, dass die Summe der Fehlerquadrate zu einem Minimum wird. Schätzwerte werden durch das Symbol ^ charakterisiert.

Abb.1

Kalibrierfunktion mit Kalibrierbereich bezogen auf die Datenschwerpunkte

Wichtig: Der Kreis in Abb.1 stellt den Mittelwert (Datenschwerpunkt) dar. Dieser muss nicht in der Mitte der Strecke liegen. Er hängt nur von der Lage der Messwerte ab.

Somit ergeben sich für die Kalibrierfunktion (Ausgleichsfunktion durch den Kalibrierdatensatz) zusätzlich folgende Gleichungen:

x ¯ c = 1 n c x i y ¯ c = 1 n c y i b ^ = ( x i x ¯ c ) ( y i y ¯ c ) ( x i x ¯ ) 2 = s x y s x 2 a ^ = b ^ x ¯ c + y ¯ c = i = 1 n c = Summenzeichen x i = bekannte Probengehalte y i = gemessene Signalwerte b ^ = Regressionskoeffizient (Steigung) a ^ = Ordinatenabschnitt (Schätzwert)

Die Größe s x y ist die Kovarianz

cov ( x , y ) = s x y = ( x i x ¯ c ) ( y i y ¯ c ) n 1

und s x 2 die Varianz

var ( x ) = s x 2 = ( x i x ¯ c ) 2 n 1  .

Da die Größe x ¯ c nur aus den fehlerfreien x-Werten berechnet wird, hat die Kalibriergeradengleichung genauso wie die normale Geradengleichung zwei Parameter ( a ^ , b ^ ).

Die Kalibrierfunktion ist dann

y ˆ ( x ) = a ^ + b ^ x = b ^ ( x x ¯ c ) + y ¯ c

und die Analysenfunktion als Umkehrfunktion

x ˆ ( y ) = y a ^ b ^ = ( y ˆ ( x ) ) 1 = y y ¯ c b ^ + x ¯ c  .

Über Fehlerfortpflanzungsrechnung kann man weitere Beziehungen erhalten. Weil die einzelnen x i bei der Kalibrierung als fehlerfrei betrachtet werden, ist definitionsgemäß

var ( x ¯ c ) = 0

und es gilt weiter

var ( y ¯ c ) = var ( y ) n c = ( y i y ¯ ) 2 n c ( n c 1 )  ,

d.h. die Varianz ("Stichprobenfehler") ist gleich der Varianz der Stichprobe (Signalwerte) geteilt durch den Stichprobenumfang.

Berücksichtigt man für den speziellen Fall der Steigung nun, dass dann die Varianz von y   nicht wie oben aus den Abweichungen der Messwerte vom Mittelwert gebildet wird, sondern die Residuals ( y i y ˆ i ) genommen werden müssen (Quadratsummen), so wird die Varianz der Steigung

var ( b ˆ ) = var ( y ) s x 2 = 1 n c 2 ( y i y ^ i ) 2 1 n c 1 ( x i x ¯ ) 2  .

Punktschätzer ohne Intervallschätzer sind wertlos. Daher sollte immer der Vertrauensbereich angegeben werden. Der Vertrauensbereich wird je breiter, desto weiter man vom Datenschwerpunkt entfernt ist. Für den Vertrauensbereich des Datenschwerpunkts c n f ( y ¯ c ) gilt

cnf ( y ¯ c ) = y ¯ c ± t α / 2 , n c 2 sdv ( y ¯ c ) t α / 2 , n c 2 = Student-t-Faktor α = Irrtumswahrscheinlichkeit n c 2 = Anzahl Freiheitsgrade sdv ( y ¯ c ) = Standardabweichung des Datenschwerpunkts

und für die Steigung

cnf ( b ^ ) = b ^ ± t α / 2 , n c 2 sdv ( b ^ )  .

Auch für den Achsenabschnitt kann ein Vertrauensbereich ermittelt werden:

cnf ( a ^ ) = a ^ ± t α / 2 , n c 2 sdv ( a ^ )  .

Da a ˆ = y ˆ ( x = 0 )   gefunden wird, kann man auch den Vertrauensbereich für den Achsenabschnitt aus dem Vertrauensbereich der Kalibrierfunktion

cnf ( y ˆ ( x ) ) = y ˆ ( x ) ± t α / 2 , n c 2 sdv ( y ˆ ( x ) )

berechnen.

Abb.2

Darstellung des Vertrauensbereiches

Allgemein gilt für die Parameterschätzung bei der univariaten Regression

y = i = 0 m p i x i p i = Kurvenparameter

wobei für

  • m = 0: y zur Konstanten wird,
  • m = 1: ein lineares Modell mit einer Gerade erhalten wird,
  • m > 1: ein Polynom m-ter Ordnung auftritt.

Jedes Modell der Form

y = p 0 + p 1 ( Operator auf  x ) + p 2 ( Operator auf  x ) +

liefert einen linearen Zusammenhang bezüglich der Parameter p i . Beispiele für Operatoren sind

1 x  ,  ln x  ,  log x  ,  sin x  .

Falls jedoch x   Argument einer Exponentialfunktion oder einer hyperbolischen Funktion ist, wird das Modell nichtlinear.

Seite 2 von 15