Demos Einfache Lineare Regression

Schätzung der Regressionsgeraden

Wir führen nun ein Simulationsexperiment durch, um den Schätzprozess der Koeffizienten b0 und b1 besser zu verstehen. Dazu nehmen wir an, dass wir das wahre Modell kennen. Es sieht folgendermassen aus:

$$y_i = 1.5 + 3 \cdot x_i + E_i$$

Setzen Sie die Grösse der Stichprobe sowie die Standardabweichung des Fehlerterms (sogenanntes 'Noise') in untenstehendem Panel und schauen Sie, was passiert.

Die geschätzte Regressionsgerade dürfte im Normalfall nicht genau mit der wahren Regressionsgeraden übereinstimmen, da es sich um eine Schätzung basierend auf einer Stichprobe handelt. Je grösser die Stichprobe, desto näher kommt unsere geschätzte Regressionsgerade der wahren Regressionsgeraden.

Simulationsexperiment

Wir können den Schätzprozess nun viele Male wiederholen (jeweils mit einer neu gezogenen Stichprobe). Für jede Schätzung zeichnen wir die entsprechende Regressionsgerade in den Plot ein. Ausserdem visualisieren wir die geschätzten Koeffizienten b0 und b1, die aus jeder Simulation resultieren, als Histogramm. Was beobachten Sie?

Die Histogramme zeigen, dass die geschätzten Koeffizienten relativ genau einer Normalverteilung mit Mittelwert b0 bzw. b1 (also den wahren Koeffizienten) folgen, vorausgesetzt die Anzahl Simulationen ist gross genug. Das heisst die Stichprobenverteilung entspricht tatsächlich einer Normalverteilung (wie bereits in den Folien postuliert). Dieses Resultat ist die Grundlage für die Berechnung der Hypothesentests und der Konfidenzintervalle und darum sehr wichtig.

Achtung: das Resultat basiert auf Annahmen und wir haben dieses Simulationsexperiment natürlich so konstruiert, dass die Annahmen erfüllt sind. Zum Beispiel haben die Fehlerterme eine Normalverteilung mit Mittelwert 0 und die Varianz der Fehlerterme ist konstant (= Homoskedastizität). Dies ist in der Praxis oft nicht der Fall und wir werden beim nächsten Mal lernen, wie wir die Annahmen überprüfen und was wir machen können, wenn die Annahmen nicht erfüllt sind.