Grundlagen der Statistik
Merkmale, Skalenniveaus und Datenstrukturen
Das Wort Statistik stammt vom lateinischen status (Zustand) ab. Die Disziplin gliedert sich in zwei Hauptbereiche: deskriptive Statistik (Beschreibung und Zusammenfassung von Daten) und Inferenzstatistik (Schlüsse von Stichproben auf Populationen).
Merkmale und Merkmalstypen
Ein Merkmal (Variable) ist eine Eigenschaft, die an Untersuchungseinheiten beobachtet wird. Die möglichen Werte heißen Merkmalsausprägungen.
📊 Quantitativ
Numerische Merkmale, bei denen Rechenoperationen sinnvoll sind. Beispiel: Körpergröße, Reaktionszeit, IQ-Wert.
🏷️ Qualitativ
Kategoriale Merkmale ohne natürliche Ordnung oder mit Ordnung, aber ohne feste Abstände. Beispiel: Geschlecht, Schulnoten.
🔢 Diskret
Endlich oder abzählbar viele Ausprägungen. Beispiel: Anzahl Kinder, Würfelergebnis.
📈 Stetig
Überabzählbar viele Ausprägungen (jeder Wert in einem Intervall möglich). Beispiel: Gewicht, Temperatur.
Skalenniveaus
Das Skalenniveau bestimmt, welche Operationen und statistischen Kennwerte bedeutsam (sinnvoll interpretierbar) sind.
| Skala | Eigenschaft | Zulässige Transformation | Beispiel |
|---|---|---|---|
| Nominalskala | Gleichheit / Verschiedenheit | Jede eineindeutige Abbildung | Geschlecht, Blutgruppe |
| Ordinalskala | Rangordnung | Streng monoton steigende Funktionen | Schulnoten, Ranglisten |
| Intervallskala | Gleiche Abstände interpretierbar | Positiv lineare: y = p·x + q (p > 0) | Temperatur (°C), Kalender |
| Verhältnisskala | Natürlicher Nullpunkt | Ähnlichkeit: y = p·x (p > 0) | Gewicht, Länge, Dauer |
| Absolutskala | Natürliche Einheit | Nur Identität: y = x | Anzahl, Häufigkeit |
Ein statistisches Ergebnis ist bedeutsam, wenn es unter allen zulässigen Transformationen der verwendeten Skala invariant bleibt. Beispiel: „Der Median der Noten ist 3" bleibt sinnvoll auch bei Umkodierung (solange die Ordnung erhalten bleibt).
Mittelwert und Standardabweichung setzen mindestens Intervallskalenniveau voraus. Für ordinale Daten (z.B. Schulnoten) sind diese Kennwerte streng genommen nicht bedeutsam — auch wenn sie in der Praxis oft trotzdem berechnet werden.
Repräsentationstheorem
Eine Skala ist eine Abbildung von einem empirischen Relativ (Objekten mit Relationen) in ein numerisches Relativ. Die zulässigen Transformationen sind genau die Abbildungen, die eine gültige Skala wieder in eine gültige Skala überführen.
Beispiel: Temperatur
Celsius und Fahrenheit sind beide Intervallskalen. Die Umrechnung F = 1.8·C + 32 ist positiv linear. Die Aussage „Heute ist es doppelt so warm wie gestern" ist in Celsius und Fahrenheit verschieden — also nicht bedeutsam auf Intervallskalenniveau.
Dagegen ist die Aussage „Der Temperaturunterschied zwischen Montag und Dienstag ist gleich groß wie zwischen Mittwoch und Donnerstag" invariant unter linearer Transformation — also bedeutsam.
🧪 Wissenscheck: Skalenniveaus
Welches Skalenniveau hat das Merkmal „Reaktionszeit in Millisekunden"?
🧪 Wissenscheck: Bedeutsamkeit
Welche Aussage ist auf Ordinalskala bedeutsam?
Häufigkeitsverteilungen
Häufigkeitstabellen, Verteilungsfunktion und Formen
Bei einem diskreten Merkmal A mit Ausprägungen {a₁, …, aₘ} und einer Urliste der Länge n beschreibt die Häufigkeitsverteilung, wie oft jede Ausprägung vorkommt.
Absolute und relative Häufigkeit
Die absolute Häufigkeit h(aⱼ) gibt an, wie oft die Ausprägung aⱼ in der Urliste auftritt.
Die relative Häufigkeit f(aⱼ) = h(aⱼ) / n normiert auf den Stichprobenumfang.
Noten bei Klassenarbeit (n = 25): x = (3, 5, 4, 3, 2, 3, 4, 6, 1, 2, 3, 3, 4, 5, 2, 1, 3, 4, 2, 4, 3, 1, 2, 3, 4)
Note 1: h = 3, f = 0.12 · Note 2: h = 5, f = 0.20 · Note 3: h = 8, f = 0.32 · Note 4: h = 6, f = 0.24 · Note 5: h = 2, f = 0.08 · Note 6: h = 1, f = 0.04
Empirische Verteilungsfunktion
Die kumulierte Häufigkeit summiert alle Häufigkeiten bis zu einem Wert x auf:
Absolut: H(x) = Σ h(aⱼ) für alle aⱼ ≤ x
Relativ: F(x) = H(x) / n = Σ f(aⱼ) für alle aⱼ ≤ x
Die empirische Verteilungsfunktion F(x) ist eine Treppenfunktion mit folgenden Eigenschaften:
- F(x) = 0 für x < a₁ (vor dem kleinsten Wert)
- F(x) = 1 für x ≥ aₘ (ab dem größten Wert)
- F(x) ist monoton nicht-fallend: x < x' → F(x) ≤ F(x')
Stetige Merkmale und Klasseneinteilung
Bei stetigen (oder quasi-stetigen) Merkmalen werden die Werte in Klassen (Intervalle) eingeteilt. Das resultierende Diagramm heißt Histogramm. Die Fläche jedes Balkens (nicht die Höhe!) gibt die relative Häufigkeit der Klasse an.
Im Histogramm ist die Höhe immer die Häufigkeitsdichte f(aⱼ)/Δⱼ — die Fläche eines Balkens ergibt die relative Häufigkeit. Bei gleichen Klassenbreiten ist die Dichte proportional zur Häufigkeit, bei ungleichen Breiten muss die Dichte explizit berechnet werden, sonst werden breitere Klassen visuell überrepräsentiert.
Formen von Verteilungen
Symmetrisch
Spiegelsymmetrie um den Mittelpunkt. Modus, Median und Mittelwert fallen zusammen.
Rechtsschief (linkssteil)
Langer Schwanz nach rechts. Mittelwert > Median > Modus. Beispiel: Einkommensverteilung.
Linksschief (rechtssteil)
Langer Schwanz nach links. Modus > Median > Mittelwert. Beispiel: Klausurergebnisse bei leichter Klausur.
Bimodal
Zwei Gipfel — oft Hinweis auf zwei verschiedene Subpopulationen in den Daten.
Verteilungsfunktion mit ecdf()
Die Funktion ecdf() gibt eine Funktion zurück, die für jeden Wert x die kumulierte relative Häufigkeit liefert: F(3) ergibt 0.64.
🧪 Wissenscheck: Verteilungsfunktion
Gegeben die Urliste x = (1, 3, 3, 5, 5, 5, 7). Was ist F(5)?
Lagemaße
Modus, Median, arithmetisches Mittel und weitere Mittelwerte
Lagemaße beschreiben das „Zentrum" einer Verteilung — den typischen oder repräsentativen Wert.
Modus (Modalwert)
Der Modus xmod ist die Merkmalsausprägung mit der größten Häufigkeit. Setzt mindestens Nominalskalenniveau voraus.
Der Modus muss nicht eindeutig sein (bimodale Verteilung). Er ist das einzige Lagemaß, das auch für qualitative Merkmale sinnvoll ist.
Median (Zentralwert)
Der Median x̃ teilt die geordnete Urliste in zwei gleich große Hälften. Setzt mindestens Ordinalskalenniveau voraus.
Für die Rangreihe x₍₁₎ ≤ x₍₂₎ ≤ … ≤ x₍ₙ₎ gilt:
x̃ = x₍₍ₙ₊₁₎/₂₎ falls n ungerade
x̃ = ½(x₍ₙ/₂₎ + x₍ₙ/₂₊₁₎) falls n gerade
Minimumeigenschaft des Medians: Der Median minimiert die Summe der absoluten Abweichungen: Σ|xᵢ − a| wird minimal für a = x̃. Dies macht den Median robust gegen Ausreißer.
Arithmetisches Mittel
Das arithmetische Mittel x̄ = (1/n) · Σxᵢ ist der „Schwerpunkt" der Daten. Setzt mindestens Intervallskalenniveau voraus.
Nulleigenschaft
Die Summe der Abweichungen vom Mittelwert ist null: Σ(xᵢ − x̄) = 0. Das Mittel liegt immer „in der Mitte" der Werte.
Minimumeigenschaft
Das Mittel minimiert die Summe der quadrierten Abweichungen: Σ(xᵢ − a)² wird minimal für a = x̄.
Weitere Mittelwerte
| Mittelwert | Formel | Anwendung |
|---|---|---|
| Geometrisches Mittel | x̄geo = (∏xᵢ)1/n | Durchschnittliche Wachstumsraten, Verhältnisse |
| Harmonisches Mittel | x̄harm = n / Σ(1/xᵢ) | Durchschnittsgeschwindigkeit bei gleichen Strecken |
Es gilt stets: x̄harm ≤ x̄geo ≤ x̄arith (Ungleichung der Mittelwerte). Gleichheit nur wenn alle Werte identisch sind.
Waage vs. Lineal: Der Mittelwert ist wie der Schwerpunkt einer Wippe — jeder Wert übt „Drehmoment" aus, proportional zu seinem Abstand. Der Median ist wie die Mitte einer Schlange — er teilt die Anzahl der Personen in zwei gleiche Gruppen, egal wie weit die Ausreißer entfernt stehen.
Skalenabhängigkeit
Der Modus ist auf allen Skalenniveaus bedeutsam (ab Nominal). Der Median erfordert Ordinalskala — er bleibt bei jeder streng monotonen Transformation erhalten. Das arithmetische Mittel erfordert Intervallskala, das geometrische Mittel erfordert Verhältnisskala.
Vergleich von Mittelwerten
Aussagen der Form „x̄(A) > x̄(B)" sind auf Intervallskala bedeutsam: Unter positiv linearer Transformation y = p·x + q wird ȳ(A) = p·x̄(A) + q > p·x̄(B) + q = ȳ(B) für p > 0.
Aber: „x̄(A) = 2 · x̄(B)" ist auf Intervallskala nicht bedeutsam, da die Transformation den Quotienten ändert.
🧪 Wissenscheck: Lagemaße
Für die Werte 2, 3, 3, 7, 100: Welches Lagemaß ist am robustesten gegenüber dem Ausreißer 100?
🧪 Wissenscheck: Eigenschaften
Welche Eigenschaft hat das arithmetische Mittel?
Streuung und Transformationen
Varianz, Standardabweichung, z-Transformation und Schiefe
Während Lagemaße das Zentrum beschreiben, quantifizieren Streuungsmaße die Variabilität der Daten um dieses Zentrum herum.
Varianz und Standardabweichung
Varianz: s̃² = (1/n) · Σ(xᵢ − x̄)² — mittlere quadrierte Abweichung vom Mittelwert.
Standardabweichung: s̃ = √s̃² — in der Originaleinheit der Daten.
Beide setzen mindestens Intervallskalenniveau voraus.
Verschiebungssatz: s̃² = (1/n) · Σxᵢ² − x̄² = x̄² − (x̄)². Die Varianz entspricht dem „mittleren Quadrat minus Quadrat des Mittels". Nützlich für Handrechnung.
Weitere Streuungsmaße
| Maß | Formel | Skalenniveau |
|---|---|---|
| Spannweite | R = x(n) − x(1) | Ordinal |
| Interquartilsabstand | IQR = Q₃ − Q₁ | Ordinal |
| Mittlere absolute Abw. | d = (1/n) · Σ|xᵢ − x̃| | Intervall |
| Varianz | s̃² = (1/n) · Σ(xᵢ − x̄)² | Intervall |
| Variationskoeffizient | V = s̃ / x̄ | Verhältnis |
Lineare Transformationen
Werden Daten linear transformiert mit yᵢ = p · xᵢ + q, dann gilt:
Mittelwert: ȳ = p · x̄ + q
Varianz: s̃²y = p² · s̃²x
Standardabweichung: s̃y = |p| · s̃x
z-Transformation (Standardisierung)
Die z-Transformation (Standardisierung) transformiert Daten so, dass Mittelwert = 0 und Varianz = 1:
zᵢ = (xᵢ − x̄) / s̃x
Dies ist ein Spezialfall der linearen Transformation mit p = 1/s̃x und q = −x̄/s̃x.
Werte: 16, 4, 13, 9, 8 → x̄ = 10, s̃x = √17.2 ≈ 4.15
z-Werte: z₁ = (16−10)/4.15 = 1.45, z₂ = (4−10)/4.15 = −1.45, z₃ = 0.72, z₄ = −0.24, z₅ = −0.48
Kontrolle: z̄ = 0, s̃²z = 1 ✓
Die z-Transformation macht Werte aus verschiedenen Verteilungen vergleichbar. Ein z-Wert von +2 bedeutet immer: „2 Standardabweichungen über dem Mittelwert" — egal ob es um Klausurergebnisse, IQ oder Reaktionszeiten geht.
Schiefe
Die Schiefe (skewness) beschreibt die Asymmetrie einer Verteilung. Ein erster Anhaltspunkt ist die Differenz x̄ − x̃:
Keine Schiefe
x̄ − x̃ = 0: Symmetrische Verteilung. Modus, Median und Mittelwert fallen zusammen.
Positive Schiefe
x̄ − x̃ > 0: Rechtsschief (linkssteil). Der Mittelwert wird durch hohe Ausreißer nach rechts gezogen.
Negative Schiefe
x̄ − x̃ < 0: Linksschief (rechtssteil). Der Mittelwert wird durch niedrige Ausreißer nach links gezogen.
Mittelwert
ȳ = (1/n) Σyᵢ = (1/n) Σ(p·xᵢ + q) = p · (1/n)Σxᵢ + (1/n) · n · q = p · x̄ + q ✓
Varianz
s̃²y = (1/n) Σ(yᵢ − ȳ)² = (1/n) Σ(p·xᵢ + q − p·x̄ − q)² = (1/n) Σ(p·(xᵢ − x̄))² = p² · (1/n) Σ(xᵢ − x̄)² = p² · s̃²x ✓
z-Transformation: z̄ = 0 und s̃²z = 1
z̄ = (1/s̃x) · x̄ − x̄/s̃x = 0 ✓
s̃²z = (1/s̃x)² · s̃²x = 1 ✓
🧪 Wissenscheck: z-Transformation
Eine Klausur hat x̄ = 60 und s̃ = 10. Welchen z-Wert hat ein Student mit 75 Punkten?
🧪 Wissenscheck: Varianz
Wenn alle Werte einer Stichprobe mit 3 multipliziert werden, wie verändert sich die Varianz?
Korrelation
Zusammenhangsmaße, Korrelationskoeffizienten und partielle Korrelation
Korrelationsmaße quantifizieren den linearen Zusammenhang zwischen zwei Merkmalen. Die Art des Zusammenhangsmaßes hängt vom Skalenniveau der beteiligten Variablen ab.
Kovarianz
Die empirische Kovarianz zweier Merkmale X und Y:
s̃xy = (1/n) · Σ(xᵢ − x̄)(yᵢ − ȳ)
Positiv → gleichsinniger Zusammenhang · Negativ → gegensinnig · Null → kein linearer Zusammenhang
Pearson-Korrelation r
Der Produkt-Moment-Korrelationskoeffizient (Pearson):
r = s̃xy / (s̃x · s̃y)
Es gilt immer: −1 ≤ r ≤ +1. Setzt Intervallskalenniveau voraus.
r = +1
Perfekt positiver linearer Zusammenhang. Alle Punkte liegen auf einer Geraden mit positiver Steigung.
r = 0
Kein linearer Zusammenhang. Aber: Es kann trotzdem ein nichtlinearer Zusammenhang bestehen!
r = −1
Perfekt negativer linearer Zusammenhang. Alle Punkte auf einer Geraden mit negativer Steigung.
Korrelation ≠ Kausalität! Ein hoher Korrelationskoeffizient zeigt nur einen statistischen Zusammenhang, keine Ursache-Wirkungs-Beziehung. Klassiker: Eisverkauf und Ertrinkungsfälle korrelieren positiv — die gemeinsame Ursache ist die Temperatur.
Spearman-Rangkorrelation rs
Für ordinale Daten: Man ersetzt die Werte durch ihre Ränge und berechnet die Pearson-Korrelation der Ränge. Bei keinen Bindungen gilt die vereinfachte Formel:
rs = 1 − 6·Σdᵢ² / (n·(n²−1))
wobei dᵢ = Rang(xᵢ) − Rang(yᵢ) die Rangdifferenzen sind.
Zusammenhangsmaße für kategoriale Daten
| Maß | Anwendung | Wertebereich |
|---|---|---|
| φ-Koeffizient | Zwei dichotome Merkmale (2×2-Tafel) | −1 bis +1 |
| Odds Ratio (OR) | Vierfeldertafel: Chancenverhältnis | 0 bis ∞ (1 = kein Zusammenhang) |
| Kontingenzkoeffizient | Allgemeine Kontingenztafeln | 0 bis 1 |
Vierfeldertafel: In einer 2×2-Tafel mit Zellen a, b, c, d (zeilenweise) berechnet sich:
φ = (a·d − b·c) / √((a+b)(c+d)(a+c)(b+d))
OR = (a·d) / (b·c) — ein OR von 3 bedeutet: Die Chance für das Ereignis ist in Gruppe 1 dreimal so hoch wie in Gruppe 2.
Partielle Korrelation
Die partielle Korrelation rxy.z misst den Zusammenhang zwischen X und Y, nachdem der Einfluss eines dritten Merkmals Z statistisch eliminiert (herauspartialisiert) wurde.
rxy.z = (rxy − rxz · ryz) / √((1 − r²xz) · (1 − r²yz))
Scheinkorrelation: Mit rxy = 0.5, rxz = 0.5, ryz = 0.5 ergibt sich:
rxy.z = (0.5 − 0.5·0.5) / √((1−0.25)·(1−0.25)) = 0.25/0.75 = 0.33
Der Zusammenhang zwischen X und Y wird schwächer, wenn Z kontrolliert wird.
Suppression: Lernaufwand (X), Prüfungsleistung (Y), Prüfungsangst (Z):
rxy = +0.2, rxz = +0.8, ryz = −0.4
rxy.z = (0.2 − 0.8·(−0.4)) / √((1−0.64)·(1−0.16)) = 0.52/0.55 ≈ +0.95
Nach Kontrolle der Angst wird der wahre Zusammenhang zwischen Lernen und Leistung sichtbar!
Idee: Herauspartialisieren
Man berechnet die Regression von X auf Z und von Y auf Z. Die Residuen (x − axz − bxz·z) und (y − ayz − byz·z) repräsentieren den Anteil von X bzw. Y, der nicht durch Z erklärt wird.
Die partielle Korrelation rxy.z ist dann die Pearson-Korrelation dieser Residuen.
Herleitung
Mithilfe der Bilinearität der Kovarianz lässt sich die partielle Kovarianz als s̃xy.z = s̃xy − s̃xz·s̃yz/s̃²z herleiten. Die Residualvarianzen sind s̃²(x−bxzz) = s̃²x·(1−r²xz) und analog für Y. Division der partiellen Kovarianz durch die Residual-Standardabweichungen ergibt die Korrelationsformel rxy.z = (rxy − rxz·ryz) / √((1−r²xz)·(1−r²yz)).
🧪 Wissenscheck: Korrelation
Der Korrelationskoeffizient r = −0.85 bedeutet:
🧪 Wissenscheck: Spearman
Wann ist die Spearman-Rangkorrelation rs dem Pearson-r vorzuziehen?
Lineare Regression
Methode der kleinsten Quadrate, Determinationskoeffizient und Varianzzerlegung
Die lineare Regression modelliert den Zusammenhang zwischen einem Prädiktor X und einem Kriterium Y durch eine Gerade: ŷ = â + b̂·x.
Methode der kleinsten Quadrate
Gesucht sind â und b̂, die die Summe der quadrierten Residuen minimieren:
Q(a, b) = Σ(yᵢ − a − b·xᵢ)² → min
Durch Ableiten und Nullsetzen erhält man die Normalgleichungen:
Steigung: b̂ = s̃xy / s̃²x
Achsenabschnitt: â = ȳ − b̂·x̄
Die Regressionsgerade geht immer durch den Schwerpunkt (x̄, ȳ).
Der Regressionskoeffizient b̂ lässt sich mit dem Korrelationskoeffizienten r ausdrücken: b̂ = (s̃y/s̃x) · r. Bei z-transformierten Daten vereinfacht sich alles zu â = 0 und b̂ = r.
Determinationskoeffizient r²
Die Varianz der Residuen eᵢ = yᵢ − ŷᵢ ist:
s̃²e = (1 − r²) · s̃²y
Der Determinationskoeffizient r² gibt den Anteil der Varianz von Y an, der durch die Regression auf X erklärt wird.
Bei r = 0.80 ist r² = 0.64 → 64% der Varianz von Y werden durch X erklärt. Die restlichen 36% sind „Residualvarianz".
Varianzzerlegung
Die Gesamtvarianz von Y lässt sich zerlegen in erklärte und nicht-erklärte Varianz:
s̃²y = s̃²ŷ + s̃²e
Gesamtvarianz = erklärte Varianz (durch Regression) + Residualvarianz (nicht erklärt)
Residualvarianz herleiten
s̃²e = (1/n) Σ(yᵢ − ŷᵢ)² = (1/n) Σ[yᵢ − ȳ − (s̃xy/s̃²x)(xᵢ − x̄)]²
Ausmultiplizieren und vereinfachen unter Nutzung der Definitionen von s̃²y, s̃²x, s̃xy:
s̃²e = s̃²y − 2·(s̃²xy/s̃²x) + (s̃xy/s̃²x)²·s̃²x = s̃²y − s̃²xy/s̃²x
Mit r = s̃xy/(s̃x·s̃y) und b̂ = (s̃y/s̃x)·r:
s̃²e = s̃²y − s̃²y·r² = (1 − r²) · s̃²y ✓
Varianzzerlegung
Man kann zeigen, dass der „Kreuzterm" 2·(1/n)Σ(yᵢ − ŷᵢ)(ŷᵢ − ȳ) verschwindet. Damit folgt direkt s̃²y = s̃²ŷ + s̃²e.
🧪 Wissenscheck: Regression
Die Regressionsgerade ŷ = 2 + 0.5x wurde berechnet. Durch welchen Punkt verläuft sie garantiert?
🧪 Wissenscheck: r²
Wenn r² = 0.49, wie viel Prozent der Varianz von Y bleiben durch die Regression unerklärt?
Wahrscheinlichkeitstheorie
Axiome, Kombinatorik und bedingte Wahrscheinlichkeit
Die Wahrscheinlichkeitstheorie bildet die Grundlage der Inferenzstatistik. Sie formalisiert den Umgang mit Zufall und Unsicherheit.
Kolmogorov-Axiome
Sei Ω ein Ergebnisraum (Menge aller möglichen Ergebnisse). Eine Wahrscheinlichkeitsfunktion P ordnet jedem Ereignis A ⊆ Ω eine Zahl P(A) zu mit:
Axiom 1: P(Ω) = 1 (Normierung)
Axiom 2: P(A) ≥ 0 für alle A (Nichtnegativität)
Axiom 3: P(A ∪ B) = P(A) + P(B) falls A ∩ B = ∅ (Additivität für disjunkte Ereignisse)
Aus diesen drei Axiomen folgen alle weiteren Rechenregeln:
Komplementregel
P(Ā) = 1 − P(A)
Die Wahrscheinlichkeit des Gegenereignisses.
Monotonie
A ⊆ B → P(A) ≤ P(B)
Teilmengen haben kleinere oder gleiche Wahrscheinlichkeit.
Additionssatz
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Für nicht-disjunkte Ereignisse.
Laplace-Experiment
Alle Ergebnisse gleichwahrscheinlich:
P(A) = |A| / |Ω|
Kombinatorik
Die Kombinatorik liefert Methoden zum Abzählen von Möglichkeiten — essenziell für Laplace-Wahrscheinlichkeiten.
| Typ | Reihenfolge | Wiederholung | Formel | Beispiel |
|---|---|---|---|---|
| Permutation m.W. | ja | ja | nk | PIN-Code (10⁴ = 10000) |
| Permutation o.W. | ja | nein | n! / (n−k)! | Podestplätze (Medaillen) |
| Kombination o.W. | nein | nein | C(n,k) = n! / (k!(n−k)!) | Lotto 6 aus 49 |
| Kombination m.W. | nein | ja | C(n+k−1, k) | Kugeln auf Fächer |
Fußballtoto (11er-Wette): 3 Möglichkeiten pro Spiel (0, 1, 2), 11 Spiele. Das ist eine Permutation mit Wiederholung: 3¹¹ = 177.147 verschiedene Tipps.
Der Binomialkoeffizient C(n,k) = „n über k" zählt die Möglichkeiten, k Elemente aus n ohne Reihenfolge und ohne Zurücklegen auszuwählen. Er taucht bei der Binomialverteilung wieder auf.
Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit von A gegeben B:
P(A | B) = P(A ∩ B) / P(B) (falls P(B) > 0)
P(A ∩ B) = P(A | B) · P(B) = P(B | A) · P(A)
Zwei Ereignisse A und B sind stochastisch unabhängig, wenn gilt:
P(A ∩ B) = P(A) · P(B) bzw. äquivalent: P(A | B) = P(A)
Das Wissen über B ändert die Wahrscheinlichkeit von A nicht.
Satz der totalen Wahrscheinlichkeit
Wenn B₁, B₂, …, Bₖ eine Partition von Ω bilden (disjunkt und Vereinigung = Ω):
P(A) = Σ P(A | Bⱼ) · P(Bⱼ)
Satz von Bayes
P(Bⱼ | A) = P(A | Bⱼ) · P(Bⱼ) / P(A)
Bayes erlaubt es, von der „Wirkung" (A beobachtet) auf die „Ursache" (welches Bⱼ?) rückzuschließen.
Beispiel: Medizinischer Test
Krankheit: P(K) = 0.01. Sensitivität: P(+ | K) = 0.99. Falsch-positiv-Rate: P(+ | K̄) = 0.05.
P(K | +) = (0.99 · 0.01) / (0.99 · 0.01 + 0.05 · 0.99) = 0.0099 / 0.0594 ≈ 0.167
Nur ~17% der positiv Getesteten sind tatsächlich krank — das Base-Rate-Problem!
🧪 Wissenscheck: Wahrscheinlichkeit
Wenn P(A) = 0.3 und P(B) = 0.5 und A, B unabhängig, was ist P(A ∩ B)?
🧪 Wissenscheck: Kombinatorik
Wie viele Möglichkeiten gibt es, aus 10 Studierenden ein 3er-Team (ohne Reihenfolge) zu bilden?
Wahrscheinlichkeitsverteilungen
Binomialverteilung, Normalverteilung und Stichprobenverteilungen
Wahrscheinlichkeitsverteilungen beschreiben, mit welchen Wahrscheinlichkeiten eine Zufallsvariable bestimmte Werte annimmt.
Zufallsvariablen
Eine Zufallsvariable X ist eine Funktion, die jedem Ergebnis ω ∈ Ω einen Zahlenwert X(ω) zuordnet. Man unterscheidet diskrete (abzählbar viele Werte) und stetige (kontinuierliches Spektrum) Zufallsvariablen.
Diskret
- Wahrscheinlichkeitsfunktion P(X = x)
- Summe aller P(X = xₖ) = 1
- E(X) = Σ xₖ · P(X = xₖ)
- Beispiele: Binomial, Poisson
Stetig
- Dichtefunktion f(x) mit P(a ≤ X ≤ b) = ∫f(x)dx
- P(X = x) = 0 für jeden einzelnen Punkt
- E(X) = ∫ x · f(x) dx
- Beispiele: Normal, Exponential
Erwartungswert und Varianz
Erwartungswert: E(X) = μ — der „theoretische Mittelwert"
Varianz: Var(X) = E[(X − μ)²] = σ²
Standardabweichung: σ = √Var(X)
Rechenregeln: E(aX + b) = a·E(X) + b und Var(aX + b) = a²·Var(X). Bei unabhängigen X, Y: E(X + Y) = E(X) + E(Y) und Var(X + Y) = Var(X) + Var(Y).
Binomialverteilung
Ein Bernoulli-Experiment hat zwei Ausgänge (Erfolg mit P = p, Misserfolg mit P = 1−p) und wird n-mal unabhängig wiederholt.
Die Wahrscheinlichkeit für genau k Erfolge:
P(X = k) = C(n,k) · pk · (1−p)n−k
Parameter: E(X) = n·p, Var(X) = n·p·(1−p)
Diskriminationsexperiment: Eine VP soll in n = 20 Durchgängen einen Reiz erkennen (2AFC, Ratewahrscheinlichkeit p = 0.5). Wie wahrscheinlich sind mindestens 15 richtige Antworten?
P(X ≥ 15) = Σ C(20,k) · 0.5²⁰ für k = 15, …, 20 ≈ 0.021 → sehr unwahrscheinlich durch Raten.
Normalverteilung
Die Normalverteilung N(μ, σ²) hat die Dichtefunktion:
φ(x) = (1 / (σ√(2π))) · exp(−(x − μ)² / (2σ²))
Parameter: μ = Erwartungswert (Lage), σ² = Varianz (Breite). Die Kurve ist symmetrisch um μ und hat die Form der „Gaußschen Glockenkurve".
Standardnormalverteilung N(0,1)
Durch z-Transformation Z = (X − μ) / σ wird jede Normalverteilung auf die Standardnormalverteilung N(0,1) zurückgeführt.
Fall 1 — Wahrscheinlichkeit gesucht: P(X ≤ x) = Φ((x − μ)/σ), dann in z-Tabelle nachschlagen.
Fall 2 — Quantil gesucht: xp = μ + σ · zp, wobei Φ(zp) = p aus der Tabelle.
Negativregel: Φ(−z) = 1 − Φ(z) (Symmetrie der Standardnormalverteilung).
IQ-Verteilung: X ~ N(100, 15²). Wie wahrscheinlich ist IQ ≤ 120?
z = (120 − 100)/15 = 1.33 → Φ(1.33) ≈ 0.908 → 90.8% der Bevölkerung haben IQ ≤ 120.
Quantil: Welcher IQ-Wert wird von 67% der Bevölkerung nicht überschritten?
Φ(z) = 0.67 → z ≈ 0.44 (aus Tabelle) → x = 100 + 15 · 0.44 = 106.6
68-95-99.7-Regel: Bei jeder Normalverteilung liegen ca. 68% der Werte im Intervall μ ± σ, ca. 95% in μ ± 1.96σ (Faustregel: ≈ 2σ ergibt 95.4%), und ca. 99.7% in μ ± 3σ.
Multinomialverteilung
Verallgemeinerung der Binomialverteilung auf r > 2 Ausgänge mit Wahrscheinlichkeiten p₁, …, pᵣ:
P(k₁, k₂, …, kᵣ) = n! / (k₁! · k₂! · … · kᵣ!) · p₁k₁ · p₂k₂ · … · pᵣkᵣ
Beispiel: Würfel (r = 6, pⱼ = 1/6), Blutgruppen in einer Stichprobe.
Stichprobenverteilung des Mittelwerts
Für den Mittelwert X̄ einer Stichprobe vom Umfang n aus einer Verteilung mit μ und σ² gilt:
E(X̄) = μ und Var(X̄) = σ²/n
Der Standardfehler σ/√n beschreibt die Streuung des Stichprobenmittelwerts. Er wird mit wachsendem n kleiner — die Schätzung wird präziser.
Nach dem Zentralen Grenzwertsatz ist X̄ für großes n annähernd normalverteilt, auch wenn die Ausgangspopulation nicht normalverteilt ist.
🧪 Wissenscheck: Binomialverteilung
Ein fairer Würfel wird 6-mal geworfen. Wie groß ist die Wahrscheinlichkeit, genau zweimal eine 6 zu würfeln?
🧪 Wissenscheck: Normalverteilung
X ~ N(50, 100). Wie standardisiert man den Wert x = 65?
🧪 Wissenscheck: 68-95-99.7
Bei einer Normalverteilung N(100, 225) liegen ca. 95% der Werte in welchem Intervall? (Faustregel: μ ± 2σ)