Skip to Tutorial Content

Statistisches Testen

Mittelwerte testen - Einstieg

Warum testet man auf signifikante Unterschiede? Eine quantitative Variable kann auf signfikante Unterschiede in Faktor-Stufen getestet werden. Zum Beispiel könnte eine quantitative Variable die Monatsmiete von Wohnungen und der Faktor die Postleitzahl (PLZ) sein, oder ob die Wohnungen einen Balkon haben (ja/nein) und so weiter.

Oft testet man auf 2 Ausprägungen einer Faktorstufe (z.B. man vergleicht die Mieten der Wohnungen der PLZ 4600 und 8032).

Mit 2 Faktorstufen testen wir mit dem klassischen t-Test oder, falls Normalverteilung der quantitativen Variable nicht gegeben ist, mit einem nicht-parametrischen Test.

Das Wichtigste in Kürze

Datensatz erzeugen

Mittels untenstehender App können Sie sich einen Datensatz erzeugen, welcher von der Homegate homepage die Mietpreise von Mietwohnungen spezifischer Grösse (Anzahl Zimmer) für zwei auszuwählende Gemeinden beinhaltet. Diesen Datensatz können Sie sich anschliessend herunterladen und damit lokal in R oder ansonsten mit vorliegendem Tutorial bearbeiten.

Es ist die Meinung, dass Sie dieses Tutorial mindestens fünf Mal durchführen (unterschiedliche PLZs wählen, unterschiedliche Raumbegrenzungen etc…)!

Datensatz zur Auswertung vorbereiten



Daten auswerten

Deskriptive Statistiken



Durchführen eines 2-Stichproben-Testes für die mieten nach Gemeinde






Ergebnis-Bericht und finaler R-Code

Laden Sie sich hier den Ergebnis-Bericht in Word auf Ihren Computer.

Den finalen R-Code können Sie hier unter Zuhilfe-Nahme des Datenobjektes dfCH_1022.RData benutzen.

Weitere zu ergänzende Variablen

Untenstehend erhalten Sie eine Übung zum statistischen Testen für den Datensatz dfCH_1022.RData.

Wählen Sie Mietpreise, Daten, Wohnflächen oder andere Grössen und führen Sie Statistische Tests durch. Besonders interessant ist die Variable allemerkmale. Geben Sie sich nun die erste Position dieser Variable aus, die nicht leer oder fehlend ist:

head(dfCH)
dfCH$allemerkmale[2]

Offensichtlich vergibt Homegate Merkmale wie:

  • Haustiere erlaubt
  • Balkon / Terrasse
  • Waschmaschine
  • Ruhige Lage
  • Parkplatz
  • Garage
  • Lift
  • Altbau
  • Neubau
  • Minergie Bauweise
  • Kinderfreundlich

Wieviele Wohnungen in 4600 Olten haben einen Balkon / Terrasse? Benutzen Sie die Funktion grepl() und erzeugen Sie mit dieser die neue Variable balkon und geben Sie die Miet-Mittelwerte gruppiert nach balkon aus.

dfCH %>% filter(plz==4600) %>% mutate(balkon = grepl("Balkon / Terrasse",allemerkmale)) %>% group_by(balkon) %>%
  summarise(n=n(),
            miete=mean(miete,na.rm=T))

Es scheint, als tatsächlich Wohnungen mit Balkon im Mittel teurer sind (in Olten)!

Allerdings sind Wohnungen mit Balkon im Mittel auch grösser, und daher in der Tendenz teurer. Auch diese Behauptung können Sie überprüfen - berechnen Sie den Mittelwert der Fläche nach Typ Wohnung (Balkon ja/nein):

dfCH %>% filter(plz==4600) %>% mutate(balkon = grepl("Balkon / Terrasse",allemerkmale)) %>% group_by(balkon) %>%
  summarise(n=n(),
            miete=mean(miete,na.rm=T),
            flaeche=mean(flaeche,na.rm=T))

Ihr R-Code schaut so aus:

In der Tat sind Wohnungen mit Balkon grösser. Um nun beide Effekte zu erklären, müsste man multivariat testen mittels einer Regression (später hierzu mehr).

Dokumente mit Rmarkdown erzeugen (PDF, Word, HTML, shiny)

Was ist Rmarkdown?

RMarkdown ist eine Dateiformat- und Ökosystemkombination, die in der Statistik und Datenanalyse weit verbreitet ist. Es wurde ursprünglich von RStudio entwickelt. RMarkdown kombiniert Text, Code und Ergebnisse in einem einzigen Dokument, um Berichte, Präsentationen und andere Dokumentationsarten zu erstellen. Hier sind einige wichtige Merkmale von RMarkdown:

  • Mehrere Ausgabeformate: Sie können RMarkdown-Dokumente in verschiedene Ausgabeformate konvertieren, darunter HTML, PDF, Word, Präsentationsformate wie PowerPoint und mehr. Dies ermöglicht es Ihnen, Ihre Analysen und Ergebnisse in verschiedenen Kontexten zu teilen.
  • Integrierte Code-Ausführung: In RMarkdown können Sie Codeblöcke einfügen, die in der zugrunde liegenden Programmiersprache (z. B. R oder Python) ausgeführt werden können. Die Ergebnisse dieser Code-Ausführung können in das Dokument eingefügt werden, einschließlich Text, Tabellen, Diagramme und Grafiken.
  • Text und Formatierung: Sie können Text, Überschriften, Listen und Formatierungen wie fett, kursiv und Links in Ihrem RMarkdown-Dokument verwenden, um Ihre Analyse zu erklären und zu dokumentieren.
  • Integration von LaTeX: RMarkdown unterstützt LaTeX, eine Textsatzsprache, die häufig für die Erstellung von wissenschaftlichen Dokumenten verwendet wird. Dies ermöglicht es Ihnen, hochwertige wissenschaftliche Dokumente mit mathematischen Formeln und komplexen Layouts zu erstellen.
  • Wiederverwendbare Vorlagen: Sie können benutzerdefinierte Vorlagen erstellen oder vorhandene Vorlagen verwenden, um das Erscheinungsbild und das Layout Ihrer Dokumente anzupassen.
  • Interaktive Elemente: Sie können interaktive Elemente wie interaktive Grafiken und Shiny-Dashboards in RMarkdown-Dokumente integrieren, um Ihre Ergebnisse für Benutzer erlebbarer zu machen.

RMarkdown ist besonders beliebt in der Data-Science-Community, da es eine effektive Möglichkeit bietet, Datenanalysen, Forschungsergebnisse und Berichte zu dokumentieren und gleichzeitig die Möglichkeit bietet, den Code, der zur Analyse verwendet wurde, transparent und reproduzierbar zu machen. Es wird nicht nur von R-Anwendern, sondern auch von Datenanalysten und Wissenschaftlern verwendet, die andere Programmiersprachen wie Python verwenden.

Rmarkdown mit Word verwenden

Während PDF-Dokumente vor allem durch Ihre Qualität bestechen und Vektorgrafiken einbinden können, liegt der Vorteil von Word ebenfalls auf der Hand: Die Dokumente können nämlich nach der Ausgabe mit R bei Bedarf weiter bearbeitet werden.

Wählen Sie File \(\rightarrow\) New File \(\rightarrow\) R Markdown und wählen Sie anschliessend als Ausgabeformat Word. Es öffnet sich dann eine Rmarkdown-Datei, welche Sie bitte abspeichern und mit dem Knopf Run-Dokument kompilieren.

Fügen Sie dem Dokument ...Rmd nun noch folgende Code-Zeilen hinzu und kompilieren Sie das File erneut (Wichtig: das vorhin erzeugte Dokument muss vor dem Kompilieren wieder geschlossen sein).

# Das ist eine Überschrift 1

Hier schreibe ich Text

## Das ist eine Überschrift 2

Hier schreibe ich Text

### Das ist eine Überschrift 3

Hier schreibe ich Text

### Und Wieder eine 3

Hier schreibe ich Text

## wieder eine 2

Hier schreibe ich Text
blabla

### Das ist eine Überschrift 3

Hier schreibe ich Text
Hier schreibe ich Text

# Neue Ü1  

## Blabla 2

1. Aufzählung 1 
2. Aufzählung 2
3. Aufzählung 3  

- nicht num A     
- nicht num A2
 
`x <- 3`             
`y <- 7`

Kompilieren Sie nun das Dokument erneut und speichern Sie das Word-File unter dem Namen mytemplate_formatted.docx.

Formatvorlage in Word für Rmarkdown erstellen

Nun formattieren wir das Dokument mytemplate_formatted.docx nach unseren Wünschen um. Zu diesem Zweck haben wir mit dem Zufügen von obigem Code noch sichergestellt, dass schon mehrere Überschriftenebenen, Code und ähnliches eingefügt wird.

Zuallererst ändern wir das Titelformat:

  1. Platzieren Sie den Cursor im Word auf den Titel. Anschliessend klicken Sie oben im Bild unter Formatvorlagen auf den kleinen gelb-markierten Pfeil, wobei sich die Formatleiste links in Word öffnet.
  2. Hier sollte nun die Formatüberschrift Titel markiert sein. Mit einem Rechtsklick darauf wählen Sie ändern aus!
  3. Ändern Sie die Schrift des Titels zu Arial (oder ähnlich), geben Sie dem Titel eine “schöne” Farbe und platzieren Sie diesen linksbündig.
  • Nun gehen Sie gleich vor mit dem Datum, welches ebenfalls die Schrift Arial ausweisen und linksbündig sein soll. Ebenfalls können Sie gleich die Seitenränder oben und unten verkleinern (mit dem Lineal rechts in Word) und allenfalls in der Kopf-Zeile das FHNW-Logo links oder rechts einfügen.
  • Speichern Sie das Dokument mit CTRL+S. Anschliessend formattieren wir die restlichen 4 Überschriften (mehr sollte man eigentlich nicht benötigen):
  • Nun gehen Sie weiter mit der nächsten Überschrift R Markdown (Formatvorlage Überschrift 2), ebenfalls vergeben Sie hier eine schöne Farbe, setzen die Schrift auf Arial und den Absatz vor und nach der Überschrift auf 12 Punkte.
  • Der nächste Text This is an R Markdown Document… entspricht der Vorlage First Paragraph. Ändern Sie die Schrift auf Arial, 11 Punkte. Der Hyperlink sollte dabei automatisch sein Format ändern.
  • Nun ändern Sie wie im vorherigen Punkt die nächste Schrift When you click the … zu Arial 11Pt.
  • Die Formatvorlage Source Code ändern Sie so, dass die Schriftgrösse 8Pt-10 beträgt und die Schrift Consolas heisst.
  • Zum Schluss ändern Sie die restlichen Überschriften analog zur vorherig geänderten Überschrift 2. Überschrift 1 ebenfalls zu Arial, Absatz vor 24Pt und Absatz nach 12Pt. Überschrift 3 analot mit Absatz vor 12Pt und Absatz nach 12Pt, ebenfalls für Überschrift 4. Schauen Sie zu, dass alle Überschriften die gleiche Farbe haben, Ihrer Bedeutung nach aber unterschiedlich gross sind.
  • Am unteren Ende der Seite fügen wir nun noch Seitenzahlen hinzu. Anschliessend formattieren Sie die Seitenzahl noch auf Schrift Arial 11Pt.

Versuchen Sie bitte, Ihrem Dokument eine persönliche Formattierung zu vergeben. Sie können dieses Dokument nach Belieben stetig weiterverändern… Zum Beispiel können wir den Kapitelüberschriften noch Nummern vergeben - dies ist für grössere Dokumente wichtig, für kleine Reports hingegen tendenziell eher störend. Ebenfalls können Literatur-, Abbildungs- und Inhaltsverzeichnisse angelegt werden, das ist aber nicht trivial.

Speichern Sie nun das Dokument ab unter mytemplate_formatted.docx!

Formatvorlage anwenden, Parameter Verwenden

Nun wenden wir die Formatvorlage an. Gehen Sie zu Ihrem Rmarkdown-Dokument und schreiben Sie folgenden Code in den Header:

---
title: "Mein Dokument"
output:
  word_document:
    fig_caption: no
    fig_height: 5
    fig_width: 5
    reference_docx: mytemplate_formatted.docx
date: '2024-10-16'
params:
  myseed: 5
---

Anschliessend versuchen Sie, das Dokument mit Knit oder Run Document auszugeben.

Quarto-Dokumente (.qmd) im Vergleich zu R Markdown (.Rmd)

Quarto ist ein modernes Open-Source-Publishing-System für Datenanalyse, Berichte und wissenschaftliches Schreiben.
Es wurde als Nachfolger von R Markdown entwickelt und unterstützt mehrere Programmiersprachen (R, Python, Julia, Observable JS).
Mit Quarto lassen sich Dokumente, Präsentationen, Bücher und sogar komplette Websites aus einer einheitlichen Syntax heraus erstellen. Weiterführende Inhalte finden Sie hier:

Quarto Website

  • Grundidee
    • Beide Formate kombinieren Text, Code und Ergebnisse in einem Dokument.
    • Syntax basiert auf Markdown mit Code-Chunks für R, Python, Julia etc.
  • Gemeinsamkeiten
    • Codeblöcke mit R (```{r}) zur Analyse und Visualisierung.
    • Ausgabe möglich als HTML, PDF oder Word.
    • YAML-Header am Dokumentanfang für Metadaten wie Titel, Autor, Datum.
  • Unterschiede
    • Quarto ist Nachfolger und Weiterentwicklung von R Markdown.
    • Unterstützt mehr Sprachen nativ (R, Python, Julia, Observable JS).
    • Einheitliches Kommandozeilen-Tool (quarto render) statt nur knitr.
    • YAML-Header einfacher und konsistenter (format: html statt verschachtelter Optionen).
    • Bessere Unterstützung für Projekte, Bücher und Websites.
  • Erzeugen eines Quarto-Dokuments
    • Quarto installieren: https://quarto.org

    • In RStudio oder VS Code: File → New File → Quarto Document auswählen.

    • Rendern über:

      quarto render mein_dokument.qmd

      oder per Render-Button in RStudio.

  • Migration von Rmd zu Qmd
    • Häufig reicht es, die Datei-Endung .Rmd zu .qmd zu ändern.
    • YAML-Header ggf. anpassen (z. B. output: html_documentformat: html).

Ihre Eigenleistung

Ziel im Rahmen der (Vor-)Prüfungsleistung wäre es nun, individuell einen automatisierten Report zu den Homegate-Daten zu ziehen. Dabei zählt der Report selbst 50% (Qualität, Formattierung, etc) und das Statistische 50%.

Vorgaben

  1. Sie speichern das persönliche resp. eigen erstellte Rmarkdown-Template mytemplate_formatted_nachname.docx und ein Rmarkdown-File Homegate_Nachname.Rmd, welches Sie bearbeiten in einem Ordner Homegate_Nachname. Das Template soll kreativ und professionell wirken.
  2. Sie speichern alle weiteren relevanten Dateien wie dfCH_1022.RData, Bilder etc. in diesem Ordner.
  3. Das Dokument soll eine interaktive Auswertung der Mietpreise auf Homegate vom Oktober 2022 erstellen. Dabei werden folgende Parameter im Dokument festgelegt:
  • Siehe Download Ordner
  1. Verlangt sind deskriptive Statistiken mit Kommentaren, eine saubere Test-Prodzedur zur Variable Miete und Kommentare zur Variablen Fläche (wenn die mittlere Fläche sehr unterschiedlich ist, hat dies natürlich einen Effekt auf die zu vergleichenden Mieten). Ebenfalls verlangt ist Recherche und Durchführung zu einem \(\chi^2\)-Unabhängigkeits-Test einer ausgewählten Merkmals-Variable über die beiden Kantone.
  2. Das Dokument enthält zwei schöne, hochauflösende und kreative Abbildungen (ggplot).
  3. Sie zippen den Ordner und geben diesen über Moodle als “Homegate_Nachname.zip” ab (Datum gemäss Semesterplan, aktuell 04.12.2025)
  4. Kriterien für die volle Punkzahl:
  • Das File kompiliert nach dem Entzippen durch den Dozierenden. Es können alle Einstellungen bezüglich der Variablen alpha, cant1, cant2, testvar usw. vorgenommen werden.
  • Alle statistischen Tests sind korrekt durchgeführt und interpretiert.
  • Das Word-File sieht professionell aus, ist eigenständig erstellt und weist keine Fehler auf.

Tutorial - Deskriptive Statistik, Testen, Einführung in R-Markdown