Demos Business Analytics

1) Bias-Varianz Tradeoff

In dieser Demo schauen wir uns den Bias-Varianz Tradeoff anhand der polynomischen Regression an. Das polynomische Regressionsmodell sieht folgendermassen aus:

$$y = b_0 + b_1 \cdot x^1 + b_2 \cdot x^2 + b_3 \cdot x^3 + \dotsb + b_M \cdot x^M + E$$

M bezeichnet hier den Grad des Polynoms. Mit einem Datensatz der Grösse N, trifft eine polynomische Regression mit Grad N - 1 die Daten perfekt. Das Modell hat in diesem Fall so viele Freiheitsgrade wie der Trainingsdatensatz Beobachtungen hat. Das ermöglicht dem Modell die Datenpunkte perfekt abzubilden. Dabei handelt es sich um ein extremes Beispiel von Overfitting. Je mehr Daten unser Trainingsdatensatz enthält, desto mehr schwächt sich das Problem des Overfittings ab.

2) Decision Trees

In dieser Demo rechnen wir einen Regressionsbaum auf einem simplen Datensatz mit einer erklärenden Variable. Wir beschränken den Baum mittels der minimalen Anzahl Beobachtungen in einem internen Knoten. Wenn dieses Kriterium auf 2 gesetzt wird, dann kann der resultierende Baum die Daten perfekt abbilden. Die R-Funktion, die den Baum lernt, hat einen internen Maximalwert für die Tiefe eines Baums (31). Wenn die Anzahl Trainingsbeobachtungen steigt, dann ist es möglich, dass auch ein Baum ohne Beschränkungen die Daten nicht mehr optimal trifft. Abgebildet ist immer nur der Trainingsdatensatz. Der Testdatensatz hat immer die selbe Grösse wie der Trainingsdatensatz.

3) Gradient Boosting

In dieser Demo verwenden wir die Gradient Boosting Methode auf einem simplen Datensatz mit einer erklärenden Variable. Wir schauen uns an, wie sich die Hyperparameter dieser Methode (B, Shrinkage, Anzahl Splits) auf den Fit an die Trainingsdaten sowie die Fehler auf Training- und Testdatensatz auswirken. Abgebildet ist immer nur der Trainingsdatensatz. Der Testdatensatz hat immer die selbe Grösse wie der Trainingsdatensatz.