Statistik I – Lernhilfe

Grundlagen der Statistik

Merkmale, Skalenniveaus und Datenstrukturen

Das Wort Statistik stammt vom lateinischen status (Zustand) ab. Die Disziplin gliedert sich in zwei Hauptbereiche: deskriptive Statistik (Beschreibung und Zusammenfassung von Daten) und Inferenzstatistik (Schlüsse von Stichproben auf Populationen).

Merkmale und Merkmalstypen

Definition

Ein Merkmal (Variable) ist eine Eigenschaft, die an Untersuchungseinheiten beobachtet wird. Die möglichen Werte heißen Merkmalsausprägungen.

📊 Quantitativ

Numerische Merkmale, bei denen Rechenoperationen sinnvoll sind. Beispiel: Körpergröße, Reaktionszeit, IQ-Wert.

🏷️ Qualitativ

Kategoriale Merkmale ohne natürliche Ordnung oder mit Ordnung, aber ohne feste Abstände. Beispiel: Geschlecht, Schulnoten.

🔢 Diskret

Endlich oder abzählbar viele Ausprägungen. Beispiel: Anzahl Kinder, Würfelergebnis.

📈 Stetig

Überabzählbar viele Ausprägungen (jeder Wert in einem Intervall möglich). Beispiel: Gewicht, Temperatur.

Skalenniveaus

Das Skalenniveau bestimmt, welche Operationen und statistischen Kennwerte bedeutsam (sinnvoll interpretierbar) sind.

Skala	Eigenschaft	Zulässige Transformation	Beispiel
Nominalskala	Gleichheit / Verschiedenheit	Jede eineindeutige Abbildung	Geschlecht, Blutgruppe
Ordinalskala	Rangordnung	Streng monoton steigende Funktionen	Schulnoten, Ranglisten
Intervallskala	Gleiche Abstände interpretierbar	Positiv lineare: y = p·x + q (p > 0)	Temperatur (°C), Kalender
Verhältnisskala	Natürlicher Nullpunkt	Ähnlichkeit: y = p·x (p > 0)	Gewicht, Länge, Dauer
Absolutskala	Natürliche Einheit	Nur Identität: y = x	Anzahl, Häufigkeit

Ein statistisches Ergebnis ist bedeutsam, wenn es unter allen zulässigen Transformationen der verwendeten Skala invariant bleibt. Beispiel: „Der Median der Noten ist 3" bleibt sinnvoll auch bei Umkodierung (solange die Ordnung erhalten bleibt).

Mittelwert und Standardabweichung setzen mindestens Intervallskalenniveau voraus. Für ordinale Daten (z.B. Schulnoten) sind diese Kennwerte streng genommen nicht bedeutsam — auch wenn sie in der Praxis oft trotzdem berechnet werden.

Repräsentationstheorem

Eine Skala ist eine Abbildung von einem empirischen Relativ (Objekten mit Relationen) in ein numerisches Relativ. Die zulässigen Transformationen sind genau die Abbildungen, die eine gültige Skala wieder in eine gültige Skala überführen.

Beispiel: Temperatur

Celsius und Fahrenheit sind beide Intervallskalen. Die Umrechnung F = 1.8·C + 32 ist positiv linear. Die Aussage „Heute ist es doppelt so warm wie gestern" ist in Celsius und Fahrenheit verschieden — also nicht bedeutsam auf Intervallskalenniveau.

Dagegen ist die Aussage „Der Temperaturunterschied zwischen Montag und Dienstag ist gleich groß wie zwischen Mittwoch und Donnerstag" invariant unter linearer Transformation — also bedeutsam.

🧪 Wissenscheck: Skalenniveaus

Welches Skalenniveau hat das Merkmal „Reaktionszeit in Millisekunden"?

Richtig! Reaktionszeit hat einen natürlichen Nullpunkt (0 ms = keine Zeit) und eine natürliche Einheit. Damit ist das Verhältnis zweier Zeiten sinnvoll interpretierbar.

Nicht ganz. Reaktionszeit hat einen natürlichen Nullpunkt → Verhältnisskala. Aussagen wie „doppelt so schnell" sind bedeutsam.

🧪 Wissenscheck: Bedeutsamkeit

Welche Aussage ist auf Ordinalskala bedeutsam?

Richtig! Auf Ordinalskala sind nur Rangvergleiche (besser/schlechter) bedeutsam, keine Abstände oder Verhältnisse.

Falsch. Die Ordinalskala erlaubt nur Aussagen über Rangordnungen — also „besser als" oder „schlechter als".

Häufigkeitsverteilungen

Häufigkeitstabellen, Verteilungsfunktion und Formen

Bei einem diskreten Merkmal A mit Ausprägungen {a₁, …, aₘ} und einer Urliste der Länge n beschreibt die Häufigkeitsverteilung, wie oft jede Ausprägung vorkommt.

Absolute und relative Häufigkeit

Definition

Die absolute Häufigkeit h(aⱼ) gibt an, wie oft die Ausprägung aⱼ in der Urliste auftritt.

Die relative Häufigkeit f(aⱼ) = h(aⱼ) / n normiert auf den Stichprobenumfang.

Noten bei Klassenarbeit (n = 25): x = (3, 5, 4, 3, 2, 3, 4, 6, 1, 2, 3, 3, 4, 5, 2, 1, 3, 4, 2, 4, 3, 1, 2, 3, 4)

Note 1: h = 3, f = 0.12 · Note 2: h = 5, f = 0.20 · Note 3: h = 8, f = 0.32 · Note 4: h = 6, f = 0.24 · Note 5: h = 2, f = 0.08 · Note 6: h = 1, f = 0.04

Empirische Verteilungsfunktion

Die kumulierte Häufigkeit summiert alle Häufigkeiten bis zu einem Wert x auf:

Kumulierte Häufigkeiten

Absolut: H(x) = Σ h(aⱼ) für alle aⱼ ≤ x

Relativ: F(x) = H(x) / n = Σ f(aⱼ) für alle aⱼ ≤ x

Die empirische Verteilungsfunktion F(x) ist eine Treppenfunktion mit folgenden Eigenschaften:

F(x) = 0 für x < a₁ (vor dem kleinsten Wert)
F(x) = 1 für x ≥ aₘ (ab dem größten Wert)
F(x) ist monoton nicht-fallend: x < x' → F(x) ≤ F(x')

Stetige Merkmale und Klasseneinteilung

Bei stetigen (oder quasi-stetigen) Merkmalen werden die Werte in Klassen (Intervalle) eingeteilt. Das resultierende Diagramm heißt Histogramm. Die Fläche jedes Balkens (nicht die Höhe!) gibt die relative Häufigkeit der Klasse an.

Im Histogramm ist die Höhe immer die Häufigkeitsdichte f(aⱼ)/Δⱼ — die Fläche eines Balkens ergibt die relative Häufigkeit. Bei gleichen Klassenbreiten ist die Dichte proportional zur Häufigkeit, bei ungleichen Breiten muss die Dichte explizit berechnet werden, sonst werden breitere Klassen visuell überrepräsentiert.

Formen von Verteilungen

Symmetrisch

Spiegelsymmetrie um den Mittelpunkt. Modus, Median und Mittelwert fallen zusammen.

Rechtsschief (linkssteil)

Langer Schwanz nach rechts. Mittelwert > Median > Modus. Beispiel: Einkommensverteilung.

Linksschief (rechtssteil)

Langer Schwanz nach links. Modus > Median > Mittelwert. Beispiel: Klausurergebnisse bei leichter Klausur.

Bimodal

Zwei Gipfel — oft Hinweis auf zwei verschiedene Subpopulationen in den Daten.

Verteilungsfunktion mit ecdf()

# Urliste eingeben x <- c(3,5,4,3,2,3,4,6,1,2,3,3,4,5,2,1,3,4,2,4,3,1,2,3,4) # Empirische Verteilungsfunktion berechnen F <- ecdf(x) # Rückgabewert ist eine Funktion # Grafisch darstellen plot(F, col.points="red", col.hor="red", pch=16, ylab="F(x)", main="Empirische Verteilungsfunktion")

Die Funktion ecdf() gibt eine Funktion zurück, die für jeden Wert x die kumulierte relative Häufigkeit liefert: F(3) ergibt 0.64.

🧪 Wissenscheck: Verteilungsfunktion

Gegeben die Urliste x = (1, 3, 3, 5, 5, 5, 7). Was ist F(5)?

Richtig! F(5) = Anzahl der Werte ≤ 5 geteilt durch n. Das sind {1, 3, 3, 5, 5, 5} = 6 von 7 → F(5) = 6/7.

F(5) zählt alle Werte ≤ 5: {1, 3, 3, 5, 5, 5} = 6 Werte. Also F(5) = 6/7 ≈ 0.86.

Lagemaße

Modus, Median, arithmetisches Mittel und weitere Mittelwerte

Lagemaße beschreiben das „Zentrum" einer Verteilung — den typischen oder repräsentativen Wert.

Modus (Modalwert)

Definition

Der Modus x_mod ist die Merkmalsausprägung mit der größten Häufigkeit. Setzt mindestens Nominalskalenniveau voraus.

Der Modus muss nicht eindeutig sein (bimodale Verteilung). Er ist das einzige Lagemaß, das auch für qualitative Merkmale sinnvoll ist.

Median (Zentralwert)

Definition

Der Median x̃ teilt die geordnete Urliste in zwei gleich große Hälften. Setzt mindestens Ordinalskalenniveau voraus.

Für die Rangreihe x₍₁₎ ≤ x₍₂₎ ≤ … ≤ x₍ₙ₎ gilt:
x̃ = x₍₍ₙ₊₁₎/₂₎ falls n ungerade
x̃ = ½(x₍ₙ/₂₎ + x₍ₙ/₂₊₁₎) falls n gerade

Minimumeigenschaft des Medians: Der Median minimiert die Summe der absoluten Abweichungen: Σ|xᵢ − a| wird minimal für a = x̃. Dies macht den Median robust gegen Ausreißer.

Arithmetisches Mittel

Definition

Das arithmetische Mittel x̄ = (1/n) · Σxᵢ ist der „Schwerpunkt" der Daten. Setzt mindestens Intervallskalenniveau voraus.

Nulleigenschaft

Die Summe der Abweichungen vom Mittelwert ist null: Σ(xᵢ − x̄) = 0. Das Mittel liegt immer „in der Mitte" der Werte.

Minimumeigenschaft

Das Mittel minimiert die Summe der quadrierten Abweichungen: Σ(xᵢ − a)² wird minimal für a = x̄.

Weitere Mittelwerte

Mittelwert	Formel	Anwendung
Geometrisches Mittel	x̄_geo = (∏xᵢ)^1/n	Durchschnittliche Wachstumsraten, Verhältnisse
Harmonisches Mittel	x̄_harm = n / Σ(1/xᵢ)	Durchschnittsgeschwindigkeit bei gleichen Strecken

Es gilt stets: x̄_harm ≤ x̄_geo ≤ x̄_arith (Ungleichung der Mittelwerte). Gleichheit nur wenn alle Werte identisch sind.

Waage vs. Lineal: Der Mittelwert ist wie der Schwerpunkt einer Wippe — jeder Wert übt „Drehmoment" aus, proportional zu seinem Abstand. Der Median ist wie die Mitte einer Schlange — er teilt die Anzahl der Personen in zwei gleiche Gruppen, egal wie weit die Ausreißer entfernt stehen.

Bei rechtsschiefer Verteilung: Modus < Median < Mittelwert — der Mittelwert wird durch Ausreißer nach rechts gezogen, der Median bleibt robust.

Skalenabhängigkeit

Der Modus ist auf allen Skalenniveaus bedeutsam (ab Nominal). Der Median erfordert Ordinalskala — er bleibt bei jeder streng monotonen Transformation erhalten. Das arithmetische Mittel erfordert Intervallskala, das geometrische Mittel erfordert Verhältnisskala.

Vergleich von Mittelwerten

Aussagen der Form „x̄(A) > x̄(B)" sind auf Intervallskala bedeutsam: Unter positiv linearer Transformation y = p·x + q wird ȳ(A) = p·x̄(A) + q > p·x̄(B) + q = ȳ(B) für p > 0.

Aber: „x̄(A) = 2 · x̄(B)" ist auf Intervallskala nicht bedeutsam, da die Transformation den Quotienten ändert.

🧪 Wissenscheck: Lagemaße

Für die Werte 2, 3, 3, 7, 100: Welches Lagemaß ist am robustesten gegenüber dem Ausreißer 100?

Richtig! Der Median (= 3) ignoriert den Ausreißer 100 komplett. Das arithmetische Mittel (= 23) wird stark verzerrt.

Der Median ist hier am robustesten: Er beträgt 3, unabhängig davon, ob der größte Wert 100 oder 1000 ist. Das arithmetische Mittel reagiert dagegen stark auf Extremwerte.

🧪 Wissenscheck: Eigenschaften

Welche Eigenschaft hat das arithmetische Mittel?

Richtig! Das arithmetische Mittel minimiert die Summe der quadrierten Abweichungen (Minimumeigenschaft). Die absoluten Abweichungen werden vom Median minimiert.

Σ(xᵢ − a)² wird durch a = x̄ minimiert (Minimumeigenschaft des Mittels). Σ|xᵢ − a| wird dagegen vom Median minimiert.

Streuung und Transformationen

Varianz, Standardabweichung, z-Transformation und Schiefe

Während Lagemaße das Zentrum beschreiben, quantifizieren Streuungsmaße die Variabilität der Daten um dieses Zentrum herum.

Varianz und Standardabweichung

Definitionen

Varianz: s̃² = (1/n) · Σ(xᵢ − x̄)² — mittlere quadrierte Abweichung vom Mittelwert.

Standardabweichung: s̃ = √s̃² — in der Originaleinheit der Daten.

Beide setzen mindestens Intervallskalenniveau voraus.

Verschiebungssatz: s̃² = (1/n) · Σxᵢ² − x̄² = x̄² − (x̄)². Die Varianz entspricht dem „mittleren Quadrat minus Quadrat des Mittels". Nützlich für Handrechnung.

Weitere Streuungsmaße

Maß	Formel	Skalenniveau
Spannweite	R = x_(n) − x₍₁₎	Ordinal
Interquartilsabstand	IQR = Q₃ − Q₁	Ordinal
Mittlere absolute Abw.	d = (1/n) · Σ\|xᵢ − x̃\|	Intervall
Varianz	s̃² = (1/n) · Σ(xᵢ − x̄)²	Intervall
Variationskoeffizient	V = s̃ / x̄	Verhältnis

Lineare Transformationen

Werden Daten linear transformiert mit yᵢ = p · xᵢ + q, dann gilt:

Transformationsregeln

Mittelwert: ȳ = p · x̄ + q

Varianz: s̃²_y = p² · s̃²_x

Standardabweichung: s̃_y = |p| · s̃_x

z-Transformation (Standardisierung)

Definition

Die z-Transformation (Standardisierung) transformiert Daten so, dass Mittelwert = 0 und Varianz = 1:

zᵢ = (xᵢ − x̄) / s̃_x

Dies ist ein Spezialfall der linearen Transformation mit p = 1/s̃_x und q = −x̄/s̃_x.

Werte: 16, 4, 13, 9, 8 → x̄ = 10, s̃_x = √17.2 ≈ 4.15

z-Werte: z₁ = (16−10)/4.15 = 1.45, z₂ = (4−10)/4.15 = −1.45, z₃ = 0.72, z₄ = −0.24, z₅ = −0.48

Kontrolle: z̄ = 0, s̃²_z = 1 ✓

Die z-Transformation macht Werte aus verschiedenen Verteilungen vergleichbar. Ein z-Wert von +2 bedeutet immer: „2 Standardabweichungen über dem Mittelwert" — egal ob es um Klausurergebnisse, IQ oder Reaktionszeiten geht.

Schiefe

Die Schiefe (skewness) beschreibt die Asymmetrie einer Verteilung. Ein erster Anhaltspunkt ist die Differenz x̄ − x̃:

Keine Schiefe

x̄ − x̃ = 0: Symmetrische Verteilung. Modus, Median und Mittelwert fallen zusammen.

Positive Schiefe

x̄ − x̃ > 0: Rechtsschief (linkssteil). Der Mittelwert wird durch hohe Ausreißer nach rechts gezogen.

Negative Schiefe

x̄ − x̃ < 0: Linksschief (rechtssteil). Der Mittelwert wird durch niedrige Ausreißer nach links gezogen.

Mittelwert

ȳ = (1/n) Σyᵢ = (1/n) Σ(p·xᵢ + q) = p · (1/n)Σxᵢ + (1/n) · n · q = p · x̄ + q ✓

Varianz

s̃²_y = (1/n) Σ(yᵢ − ȳ)² = (1/n) Σ(p·xᵢ + q − p·x̄ − q)² = (1/n) Σ(p·(xᵢ − x̄))² = p² · (1/n) Σ(xᵢ − x̄)² = p² · s̃²_x ✓

z-Transformation: z̄ = 0 und s̃²_z = 1

z̄ = (1/s̃_x) · x̄ − x̄/s̃_x = 0 ✓

s̃²_z = (1/s̃_x)² · s̃²_x = 1 ✓

🧪 Wissenscheck: z-Transformation

Eine Klausur hat x̄ = 60 und s̃ = 10. Welchen z-Wert hat ein Student mit 75 Punkten?

Richtig! z = (75 − 60) / 10 = 15/10 = 1.5. Der Student liegt 1.5 Standardabweichungen über dem Mittelwert.

z = (xᵢ − x̄) / s̃ = (75 − 60) / 10 = 1.5. Der z-Wert gibt an, wie viele Standardabweichungen der Wert vom Mittelwert entfernt ist.

🧪 Wissenscheck: Varianz

Wenn alle Werte einer Stichprobe mit 3 multipliziert werden, wie verändert sich die Varianz?

Richtig! Bei yᵢ = 3·xᵢ gilt s̃²_y = 3² · s̃²_x = 9 · s̃²_x. Die Varianz skaliert mit dem Quadrat des Faktors.

Bei Multiplikation mit p gilt: s̃²_y = p² · s̃²_x. Also wird die Varianz mit 3² = 9 multipliziert. Die Standardabweichung wird verdreifacht.

Korrelation

Zusammenhangsmaße, Korrelationskoeffizienten und partielle Korrelation

Korrelationsmaße quantifizieren den linearen Zusammenhang zwischen zwei Merkmalen. Die Art des Zusammenhangsmaßes hängt vom Skalenniveau der beteiligten Variablen ab.

Kovarianz

Definition

Die empirische Kovarianz zweier Merkmale X und Y:

s̃_xy = (1/n) · Σ(xᵢ − x̄)(yᵢ − ȳ)

Positiv → gleichsinniger Zusammenhang · Negativ → gegensinnig · Null → kein linearer Zusammenhang

Pearson-Korrelation r

Definition

Der Produkt-Moment-Korrelationskoeffizient (Pearson):

r = s̃_xy / (s̃_x · s̃_y)

Es gilt immer: −1 ≤ r ≤ +1. Setzt Intervallskalenniveau voraus.

r = +1

Perfekt positiver linearer Zusammenhang. Alle Punkte liegen auf einer Geraden mit positiver Steigung.

r = 0

Kein linearer Zusammenhang. Aber: Es kann trotzdem ein nichtlinearer Zusammenhang bestehen!

r = −1

Perfekt negativer linearer Zusammenhang. Alle Punkte auf einer Geraden mit negativer Steigung.

Korrelation ≠ Kausalität! Ein hoher Korrelationskoeffizient zeigt nur einen statistischen Zusammenhang, keine Ursache-Wirkungs-Beziehung. Klassiker: Eisverkauf und Ertrinkungsfälle korrelieren positiv — die gemeinsame Ursache ist die Temperatur.

Drei Streudiagramme: starker positiver Zusammenhang (r = +0,8), kein Zusammenhang (r ≈ 0), starker negativer Zusammenhang (r = −0,8).

Spearman-Rangkorrelation r_s

Definition

Für ordinale Daten: Man ersetzt die Werte durch ihre Ränge und berechnet die Pearson-Korrelation der Ränge. Bei keinen Bindungen gilt die vereinfachte Formel:

r_s = 1 − 6·Σdᵢ² / (n·(n²−1))

wobei dᵢ = Rang(xᵢ) − Rang(yᵢ) die Rangdifferenzen sind.

Zusammenhangsmaße für kategoriale Daten

Maß	Anwendung	Wertebereich
φ-Koeffizient	Zwei dichotome Merkmale (2×2-Tafel)	−1 bis +1
Odds Ratio (OR)	Vierfeldertafel: Chancenverhältnis	0 bis ∞ (1 = kein Zusammenhang)
Kontingenzkoeffizient	Allgemeine Kontingenztafeln	0 bis 1

Vierfeldertafel: In einer 2×2-Tafel mit Zellen a, b, c, d (zeilenweise) berechnet sich:

φ = (a·d − b·c) / √((a+b)(c+d)(a+c)(b+d))

OR = (a·d) / (b·c) — ein OR von 3 bedeutet: Die Chance für das Ereignis ist in Gruppe 1 dreimal so hoch wie in Gruppe 2.

Partielle Korrelation

Die partielle Korrelation r_xy.z misst den Zusammenhang zwischen X und Y, nachdem der Einfluss eines dritten Merkmals Z statistisch eliminiert (herauspartialisiert) wurde.

Formel

r_xy.z = (r_xy − r_xz · r_yz) / √((1 − r²_xz) · (1 − r²_yz))

Scheinkorrelation: Mit r_xy = 0.5, r_xz = 0.5, r_yz = 0.5 ergibt sich:

r_xy.z = (0.5 − 0.5·0.5) / √((1−0.25)·(1−0.25)) = 0.25/0.75 = 0.33

Der Zusammenhang zwischen X und Y wird schwächer, wenn Z kontrolliert wird.

Suppression: Lernaufwand (X), Prüfungsleistung (Y), Prüfungsangst (Z):

r_xy = +0.2, r_xz = +0.8, r_yz = −0.4

r_xy.z = (0.2 − 0.8·(−0.4)) / √((1−0.64)·(1−0.16)) = 0.52/0.55 ≈ +0.95

Nach Kontrolle der Angst wird der wahre Zusammenhang zwischen Lernen und Leistung sichtbar!

Idee: Herauspartialisieren

Man berechnet die Regression von X auf Z und von Y auf Z. Die Residuen (x − a_xz − b_xz·z) und (y − a_yz − b_yz·z) repräsentieren den Anteil von X bzw. Y, der nicht durch Z erklärt wird.

Die partielle Korrelation r_xy.z ist dann die Pearson-Korrelation dieser Residuen.

Herleitung

Mithilfe der Bilinearität der Kovarianz lässt sich die partielle Kovarianz als s̃_xy.z = s̃_xy − s̃_xz·s̃_yz/s̃²_z herleiten. Die Residualvarianzen sind s̃²(x−b_xzz) = s̃²_x·(1−r²_xz) und analog für Y. Division der partiellen Kovarianz durch die Residual-Standardabweichungen ergibt die Korrelationsformel r_xy.z = (r_xy − r_xz·r_yz) / √((1−r²_xz)·(1−r²_yz)).

🧪 Wissenscheck: Korrelation

Der Korrelationskoeffizient r = −0.85 bedeutet:

Richtig! r = −0.85 zeigt einen starken negativen linearen Zusammenhang. Korrelation sagt nichts über Kausalität aus, und der erklärte Varianzanteil wäre r² = 0.72 (72%).

r = −0.85 bedeutet: starker negativer linearer Zusammenhang. Der erklärte Varianzanteil ist r² = 0.72, nicht 0.85. Und Korrelation impliziert keine Kausalität.

🧪 Wissenscheck: Spearman

Wann ist die Spearman-Rangkorrelation r_s dem Pearson-r vorzuziehen?

Richtig! Spearman ist für ordinale Daten geeignet und erfasst auch monotone nichtlineare Zusammenhänge, da er nur die Rangordnung berücksichtigt.

Spearman eignet sich für ordinal skalierte Daten und monotone (nicht notwendig lineare) Zusammenhänge — er basiert auf Rängen statt Originalwerten.

Lineare Regression

Methode der kleinsten Quadrate, Determinationskoeffizient und Varianzzerlegung

Die lineare Regression modelliert den Zusammenhang zwischen einem Prädiktor X und einem Kriterium Y durch eine Gerade: ŷ = â + b̂·x.

Methode der kleinsten Quadrate

Prinzip

Gesucht sind â und b̂, die die Summe der quadrierten Residuen minimieren:

Q(a, b) = Σ(yᵢ − a − b·xᵢ)² → min

Durch Ableiten und Nullsetzen erhält man die Normalgleichungen:

Regressionskoeffizienten

Steigung: b̂ = s̃_xy / s̃²_x

Achsenabschnitt: â = ȳ − b̂·x̄

Die Regressionsgerade geht immer durch den Schwerpunkt (x̄, ȳ).

Der Regressionskoeffizient b̂ lässt sich mit dem Korrelationskoeffizienten r ausdrücken: b̂ = (s̃_y/s̃_x) · r. Bei z-transformierten Daten vereinfacht sich alles zu â = 0 und b̂ = r.

Determinationskoeffizient r²

Definition

Die Varianz der Residuen eᵢ = yᵢ − ŷᵢ ist:

s̃²_e = (1 − r²) · s̃²_y

Der Determinationskoeffizient r² gibt den Anteil der Varianz von Y an, der durch die Regression auf X erklärt wird.

Bei r = 0.80 ist r² = 0.64 → 64% der Varianz von Y werden durch X erklärt. Die restlichen 36% sind „Residualvarianz".

Regressionsgerade durch die Punktewolke: Rote gestrichelte Linien zeigen die Residuen eᵢ = yᵢ − ŷᵢ — die KQ-Methode minimiert Σeᵢ².

Varianzzerlegung

Die Gesamtvarianz von Y lässt sich zerlegen in erklärte und nicht-erklärte Varianz:

Varianzzerlegung

s̃²_y = s̃²_ŷ + s̃²_e

Gesamtvarianz = erklärte Varianz (durch Regression) + Residualvarianz (nicht erklärt)

Gesamtvarianzs̃²_y

Erklärte Varianzs̃²_ŷ = r² · s̃²_y

Residualvarianzs̃²_e = (1−r²) · s̃²_y

Residualvarianz herleiten

s̃²_e = (1/n) Σ(yᵢ − ŷᵢ)² = (1/n) Σ[yᵢ − ȳ − (s̃_xy/s̃²_x)(xᵢ − x̄)]²

Ausmultiplizieren und vereinfachen unter Nutzung der Definitionen von s̃²_y, s̃²_x, s̃_xy:

s̃²_e = s̃²_y − 2·(s̃²_xy/s̃²_x) + (s̃_xy/s̃²_x)²·s̃²_x = s̃²_y − s̃²_xy/s̃²_x

Mit r = s̃_xy/(s̃_x·s̃_y) und b̂ = (s̃_y/s̃_x)·r:

s̃²_e = s̃²_y − s̃²_y·r² = (1 − r²) · s̃²_y ✓

Varianzzerlegung

Man kann zeigen, dass der „Kreuzterm" 2·(1/n)Σ(yᵢ − ŷᵢ)(ŷᵢ − ȳ) verschwindet. Damit folgt direkt s̃²_y = s̃²_ŷ + s̃²_e.

🧪 Wissenscheck: Regression

Die Regressionsgerade ŷ = 2 + 0.5x wurde berechnet. Durch welchen Punkt verläuft sie garantiert?

Richtig! Die Regressionsgerade verläuft immer durch (x̄, ȳ), da â = ȳ − b̂·x̄ → ŷ(x̄) = â + b̂·x̄ = ȳ.

Die Regressionsgerade verläuft immer durch den Schwerpunkt (x̄, ȳ) der Daten. Das folgt direkt aus der Bestimmungsgleichung für â.

🧪 Wissenscheck: r²

Wenn r² = 0.49, wie viel Prozent der Varianz von Y bleiben durch die Regression unerklärt?

Richtig! Unerklärt = 1 − r² = 1 − 0.49 = 0.51 = 51%. Bei r = 0.7 werden also „nur" knapp die Hälfte der Varianz erklärt.

r² = 0.49 bedeutet 49% erklärte Varianz. Also bleiben 1 − 0.49 = 51% unerklärt.

Wahrscheinlichkeitstheorie

Axiome, Kombinatorik und bedingte Wahrscheinlichkeit

Die Wahrscheinlichkeitstheorie bildet die Grundlage der Inferenzstatistik. Sie formalisiert den Umgang mit Zufall und Unsicherheit.

Kolmogorov-Axiome

Die drei Axiome

Sei Ω ein Ergebnisraum (Menge aller möglichen Ergebnisse). Eine Wahrscheinlichkeitsfunktion P ordnet jedem Ereignis A ⊆ Ω eine Zahl P(A) zu mit:

Axiom 1: P(Ω) = 1 (Normierung)

Axiom 2: P(A) ≥ 0 für alle A (Nichtnegativität)

Axiom 3: P(A ∪ B) = P(A) + P(B) falls A ∩ B = ∅ (Additivität für disjunkte Ereignisse)

Aus diesen drei Axiomen folgen alle weiteren Rechenregeln:

Komplementregel

P(Ā) = 1 − P(A)
Die Wahrscheinlichkeit des Gegenereignisses.

Monotonie

A ⊆ B → P(A) ≤ P(B)
Teilmengen haben kleinere oder gleiche Wahrscheinlichkeit.

Additionssatz

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Für nicht-disjunkte Ereignisse.

Laplace-Experiment

Alle Ergebnisse gleichwahrscheinlich:
P(A) = |A| / |Ω|

Kombinatorik

Die Kombinatorik liefert Methoden zum Abzählen von Möglichkeiten — essenziell für Laplace-Wahrscheinlichkeiten.

Typ	Reihenfolge	Wiederholung	Formel	Beispiel
Permutation m.W.	ja	ja	n^k	PIN-Code (10⁴ = 10000)
Permutation o.W.	ja	nein	n! / (n−k)!	Podestplätze (Medaillen)
Kombination o.W.	nein	nein	C(n,k) = n! / (k!(n−k)!)	Lotto 6 aus 49
Kombination m.W.	nein	ja	C(n+k−1, k)	Kugeln auf Fächer

Fußballtoto (11er-Wette): 3 Möglichkeiten pro Spiel (0, 1, 2), 11 Spiele. Das ist eine Permutation mit Wiederholung: 3¹¹ = 177.147 verschiedene Tipps.

Der Binomialkoeffizient C(n,k) = „n über k" zählt die Möglichkeiten, k Elemente aus n ohne Reihenfolge und ohne Zurücklegen auszuwählen. Er taucht bei der Binomialverteilung wieder auf.

Bedingte Wahrscheinlichkeit

Definition

Die bedingte Wahrscheinlichkeit von A gegeben B:

P(A | B) = P(A ∩ B) / P(B) (falls P(B) > 0)

Multiplikationssatz

P(A ∩ B) = P(A | B) · P(B) = P(B | A) · P(A)

Stochastische Unabhängigkeit

Zwei Ereignisse A und B sind stochastisch unabhängig, wenn gilt:

P(A ∩ B) = P(A) · P(B) bzw. äquivalent: P(A | B) = P(A)

Das Wissen über B ändert die Wahrscheinlichkeit von A nicht.

Satz der totalen Wahrscheinlichkeit

Wenn B₁, B₂, …, Bₖ eine Partition von Ω bilden (disjunkt und Vereinigung = Ω):

P(A) = Σ P(A | Bⱼ) · P(Bⱼ)

Satz von Bayes

P(Bⱼ | A) = P(A | Bⱼ) · P(Bⱼ) / P(A)

Bayes erlaubt es, von der „Wirkung" (A beobachtet) auf die „Ursache" (welches Bⱼ?) rückzuschließen.

Beispiel: Medizinischer Test

Krankheit: P(K) = 0.01. Sensitivität: P(+ | K) = 0.99. Falsch-positiv-Rate: P(+ | K̄) = 0.05.

P(K | +) = (0.99 · 0.01) / (0.99 · 0.01 + 0.05 · 0.99) = 0.0099 / 0.0594 ≈ 0.167

Nur ~17% der positiv Getesteten sind tatsächlich krank — das Base-Rate-Problem!

🧪 Wissenscheck: Wahrscheinlichkeit

Wenn P(A) = 0.3 und P(B) = 0.5 und A, B unabhängig, was ist P(A ∩ B)?

Richtig! Bei Unabhängigkeit gilt P(A ∩ B) = P(A) · P(B) = 0.3 · 0.5 = 0.15.

Bei stochastischer Unabhängigkeit: P(A ∩ B) = P(A) · P(B) = 0.3 · 0.5 = 0.15.

🧪 Wissenscheck: Kombinatorik

Wie viele Möglichkeiten gibt es, aus 10 Studierenden ein 3er-Team (ohne Reihenfolge) zu bilden?

Richtig! C(10,3) = 10! / (3! · 7!) = (10·9·8) / (3·2·1) = 120.

Ohne Reihenfolge, ohne Wiederholung: C(10,3) = 10! / (3!·7!) = 720/6 = 120.

Wahrscheinlichkeitsverteilungen

Binomialverteilung, Normalverteilung und Stichprobenverteilungen

Wahrscheinlichkeitsverteilungen beschreiben, mit welchen Wahrscheinlichkeiten eine Zufallsvariable bestimmte Werte annimmt.

Zufallsvariablen

Definition

Eine Zufallsvariable X ist eine Funktion, die jedem Ergebnis ω ∈ Ω einen Zahlenwert X(ω) zuordnet. Man unterscheidet diskrete (abzählbar viele Werte) und stetige (kontinuierliches Spektrum) Zufallsvariablen.

Diskret

Wahrscheinlichkeitsfunktion P(X = x)
Summe aller P(X = xₖ) = 1
E(X) = Σ xₖ · P(X = xₖ)
Beispiele: Binomial, Poisson

Stetig

Dichtefunktion f(x) mit P(a ≤ X ≤ b) = ∫f(x)dx
P(X = x) = 0 für jeden einzelnen Punkt
E(X) = ∫ x · f(x) dx
Beispiele: Normal, Exponential

Erwartungswert und Varianz

Kenngrößen

Erwartungswert: E(X) = μ — der „theoretische Mittelwert"

Varianz: Var(X) = E[(X − μ)²] = σ²

Standardabweichung: σ = √Var(X)

Rechenregeln: E(aX + b) = a·E(X) + b und Var(aX + b) = a²·Var(X). Bei unabhängigen X, Y: E(X + Y) = E(X) + E(Y) und Var(X + Y) = Var(X) + Var(Y).

Binomialverteilung

Bernoulli- und Binomialverteilung

Ein Bernoulli-Experiment hat zwei Ausgänge (Erfolg mit P = p, Misserfolg mit P = 1−p) und wird n-mal unabhängig wiederholt.

Die Wahrscheinlichkeit für genau k Erfolge:

P(X = k) = C(n,k) · p^k · (1−p)^n−k

Parameter: E(X) = n·p, Var(X) = n·p·(1−p)

Diskriminationsexperiment: Eine VP soll in n = 20 Durchgängen einen Reiz erkennen (2AFC, Ratewahrscheinlichkeit p = 0.5). Wie wahrscheinlich sind mindestens 15 richtige Antworten?

P(X ≥ 15) = Σ C(20,k) · 0.5²⁰ für k = 15, …, 20 ≈ 0.021 → sehr unwahrscheinlich durch Raten.

Normalverteilung

Definition

Die Normalverteilung N(μ, σ²) hat die Dichtefunktion:

φ(x) = (1 / (σ√(2π))) · exp(−(x − μ)² / (2σ²))

Parameter: μ = Erwartungswert (Lage), σ² = Varianz (Breite). Die Kurve ist symmetrisch um μ und hat die Form der „Gaußschen Glockenkurve".

Standardnormalverteilung N(0,1)

Durch z-Transformation Z = (X − μ) / σ wird jede Normalverteilung auf die Standardnormalverteilung N(0,1) zurückgeführt.

Rechenregeln mit z-Tabelle

Fall 1 — Wahrscheinlichkeit gesucht: P(X ≤ x) = Φ((x − μ)/σ), dann in z-Tabelle nachschlagen.

Fall 2 — Quantil gesucht: x_p = μ + σ · z_p, wobei Φ(z_p) = p aus der Tabelle.

Negativregel: Φ(−z) = 1 − Φ(z) (Symmetrie der Standardnormalverteilung).

IQ-Verteilung: X ~ N(100, 15²). Wie wahrscheinlich ist IQ ≤ 120?

z = (120 − 100)/15 = 1.33 → Φ(1.33) ≈ 0.908 → 90.8% der Bevölkerung haben IQ ≤ 120.

Quantil: Welcher IQ-Wert wird von 67% der Bevölkerung nicht überschritten?

Φ(z) = 0.67 → z ≈ 0.44 (aus Tabelle) → x = 100 + 15 · 0.44 = 106.6

68-95-99.7-Regel: Bei jeder Normalverteilung liegen ca. 68% der Werte im Intervall μ ± σ, ca. 95% in μ ± 1.96σ (Faustregel: ≈ 2σ ergibt 95.4%), und ca. 99.7% in μ ± 3σ.

Multinomialverteilung

Verallgemeinerung der Binomialverteilung auf r > 2 Ausgänge mit Wahrscheinlichkeiten p₁, …, pᵣ:

P(k₁, k₂, …, kᵣ) = n! / (k₁! · k₂! · … · kᵣ!) · p₁^k₁ · p₂^k₂ · … · pᵣ^kᵣ

Beispiel: Würfel (r = 6, pⱼ = 1/6), Blutgruppen in einer Stichprobe.

Stichprobenverteilung des Mittelwerts

Für den Mittelwert X̄ einer Stichprobe vom Umfang n aus einer Verteilung mit μ und σ² gilt:

E(X̄) = μ und Var(X̄) = σ²/n

Der Standardfehler σ/√n beschreibt die Streuung des Stichprobenmittelwerts. Er wird mit wachsendem n kleiner — die Schätzung wird präziser.

Nach dem Zentralen Grenzwertsatz ist X̄ für großes n annähernd normalverteilt, auch wenn die Ausgangspopulation nicht normalverteilt ist.

🧪 Wissenscheck: Binomialverteilung

Ein fairer Würfel wird 6-mal geworfen. Wie groß ist die Wahrscheinlichkeit, genau zweimal eine 6 zu würfeln?

Richtig! Bernoulli-Experiment mit n = 6, k = 2, p = 1/6: P = C(6,2) · (1/6)² · (5/6)⁴ = 15 · (1/36) · (625/1296) ≈ 0.20.

Binomialverteilung: P(X=2) = C(6,2) · (1/6)² · (5/6)⁴ = 15 · 0.0278 · 0.482 ≈ 0.20.

🧪 Wissenscheck: Normalverteilung

X ~ N(50, 100). Wie standardisiert man den Wert x = 65?

Richtig! N(50, 100) bedeutet μ = 50 und σ² = 100, also σ = 10. Damit z = (65 − 50)/10 = 1.5.

Bei N(μ, σ²) mit μ = 50 und σ² = 100 ist σ = √100 = 10. Also z = (x − μ)/σ = (65 − 50)/10 = 1.5.

🧪 Wissenscheck: 68-95-99.7

Bei einer Normalverteilung N(100, 225) liegen ca. 95% der Werte in welchem Intervall? (Faustregel: μ ± 2σ)

Richtig! σ = √225 = 15. Faustregel: μ ± 2σ = 100 ± 30, also [70, 130]. Exakt: μ ± 1.96σ = [70.6, 129.4] für genau 95%.

σ = √225 = 15. Faustregel: μ ± 2σ = 100 ± 30 → Intervall [70, 130]. (Exakt 95%: μ ± 1.96σ.)

Grundlagen der Statistik

Merkmale und Merkmalstypen

📊 Quantitativ

🏷️ Qualitativ

🔢 Diskret

📈 Stetig

Skalenniveaus

Repräsentationstheorem

Beispiel: Temperatur

🧪 Wissenscheck: Skalenniveaus

🧪 Wissenscheck: Bedeutsamkeit

Häufigkeitsverteilungen

Absolute und relative Häufigkeit

Empirische Verteilungsfunktion

Stetige Merkmale und Klasseneinteilung

Formen von Verteilungen

Symmetrisch

Rechtsschief (linkssteil)

Linksschief (rechtssteil)

Bimodal

Verteilungsfunktion mit ecdf()

🧪 Wissenscheck: Verteilungsfunktion

Lagemaße

Modus (Modalwert)

Median (Zentralwert)

Arithmetisches Mittel

Nulleigenschaft

Minimumeigenschaft

Weitere Mittelwerte

Skalenabhängigkeit

Vergleich von Mittelwerten

🧪 Wissenscheck: Lagemaße

🧪 Wissenscheck: Eigenschaften

Streuung und Transformationen

Varianz und Standardabweichung

Weitere Streuungsmaße

Lineare Transformationen

z-Transformation (Standardisierung)

Schiefe

Keine Schiefe

Positive Schiefe

Negative Schiefe

Mittelwert

Varianz

z-Transformation: z̄ = 0 und s̃²z = 1

🧪 Wissenscheck: z-Transformation

🧪 Wissenscheck: Varianz

Korrelation

Kovarianz

Pearson-Korrelation r

r = +1

r = 0

r = −1

Spearman-Rangkorrelation rs

Zusammenhangsmaße für kategoriale Daten

Partielle Korrelation

Idee: Herauspartialisieren

Herleitung

🧪 Wissenscheck: Korrelation

🧪 Wissenscheck: Spearman

Lineare Regression

Methode der kleinsten Quadrate

Determinationskoeffizient r²

Varianzzerlegung

Residualvarianz herleiten

Varianzzerlegung

🧪 Wissenscheck: Regression

🧪 Wissenscheck: r²

Wahrscheinlichkeitstheorie

Kolmogorov-Axiome

Komplementregel

Monotonie

Additionssatz

Laplace-Experiment

Kombinatorik

Bedingte Wahrscheinlichkeit

Satz der totalen Wahrscheinlichkeit

Satz von Bayes

Beispiel: Medizinischer Test

🧪 Wissenscheck: Wahrscheinlichkeit

z-Transformation: z̄ = 0 und s̃²_z = 1

Spearman-Rangkorrelation r_s