Despriptive vs. Inferenz Statistik
📊 Deskriptive Statistik (beschreibend)
Beschreibt Daten aus einer konkreten Stichprobe
Keine Verallgemeinerung auf andere Gruppen
Beispiel: „50 % der Schüler*innen in dieser Klasse sind weiblich“
Kennzahlen: Mittelwert, Median, Häufigkeit, Prozent
🔎 Induktive Statistik (schließend / Inferenzstatistik)
Nutzt Stichprobe, um auf Population zu schließen
Ziel: Verallgemeinerbare Aussagen mit Wahrscheinlichkeitsannahmen
Beispiel: „50 % der Schüler*innen in Deutschland sind weiblich“
Methoden: Hypothesentest, Konfidenzintervall, Signifikanz
Was ist der Unterschied zwischen Population und Stichprobe?
👥 Population (Grundgesamtheit)
Die gesamte Gruppe von statistischen Einheiten, über die man Aussagen treffen will
Beispiel: Alle Schülerinnen in Deutschland*
📉 Stichprobe
Eine Teilmenge der Population, die tatsächlich untersucht wird
Dient als „Miniaturbild“ der Population
Beispiel: 200 zufällig ausgewählte Schülerinnen aus verschiedenen Bundesländern*
🧠 Hinweis
In der theoretischen Statistik wird oft angenommen, dass Populationen unendlich groß sind – zur Vereinfachung mathematischer Modelle.
Was ist der Unterschied zwischen statistischen Kennwerten und Parametern?
📊 Stichprobe & Kennwerte
Eine Stichprobe besteht aus x1,...,xn – einer Auswahl von Beobachtungen aus der Population.
Daraus kann man Kennwerte wie den Mittelwert \bar{x} oder die Varianz s^2 berechnen.
Diese beschreiben die Merkmalsverteilung innerhalb der Stichprobe.
🔢 Population & Parameter
Für die Grundgesamtheit (Population) verwendet man Parameter, z. B.
𝜇 für den „wahren“ Mittelwert
𝜎^2 für die „wahre“ Varianz
Diese Parameter sind meist unbekannt und werden durch Stichproben geschätzt.
Welche Arten der Stichprobenziehung gibt es und wie unterscheiden sie sich?
🎯 Stichprobenarten: Zufällig vs. Nicht-zufällig
🔹 A) Zufallsstichproben (probabilistisch):
Auswahl erfolgt zufällig, jede Einheit hat eine bekannte Chance gezogen zu werden:
Einfache Zufallsstichprobe – gleiche Auswahlwahrscheinlichkeit für alle
Klumpenstichprobe – ganze Gruppen (z. B. Schulklassen) werden zufällig ausgewählt
Geschichtete Stichprobe – vorherige Einteilung nach Merkmalen (z. B. Alter), dann zufällige Auswahl innerhalb der Schichten
🔸 B) Nicht-probabilistische Stichproben:
Auswahl erfolgt nicht zufällig, z. B. durch gezielte Auswahl, Freiwilligkeit oder Zugänglichkeit.
→ Kein Rückschluss auf die Population mit statistischer Sicherheit möglich.
Was ist eine einfache Zufallsstichprobe?
🔹 Definition:
Eine Stichprobe mit n Objekten, bei der jede mögliche gleich große Teilmenge die gleiche Auswahlwahrscheinlichkeit besitzt.
🔹 Vereinfacht gesagt:
Jedes Mitglied der Population hat die gleiche Chance, in die Stichprobe zu kommen.
🔹 Voraussetzung:
Lässt sich eie Liste aller Populationsmitglieder erstellen, kann leicht eine Zufallsstichprobe bestimmt werden; z.B. mit Hilfe einer Zufallszahlentabelle oder eines Computers
🔹 Durchführung:
→ Auswahl per Zufallszahlentabelle, Würfel, Lostopf, Computer-Randomisierung usw.
Was ist eine Klumpenstichprobe (Cluster Sample)?
Eine Klumpenstichprobe besteht aus mehreren zufällig ausgewählten Gruppen („Klumpen“), wobei alle Mitglieder der ausgewählten Klumpen untersucht werden.
🔹 Praxisbeispiel:
Zufällig ausgewählte Schulen nehmen teil → alle Schüler*innen in diesen Schulen werden getestet.
🔹 Wichtig:
Es müssen mehrere Klumpen zufällig ausgewählt werden, nicht nur einer.
🔹 Vorteil:
Ökonomisch & praktisch, da man mit „natürlichen Gruppen“ arbeitet (z. B. Schulklassen, Betriebe, Kliniken).
Ökonomisch praktisch
Wenn du z. B. eine große Studie durchführen willst, wäre es sehr aufwendig, aus ganz Deutschland zufällig einzelne Schüler*innen auszuwählen, weil du dann an viele verschiedene Orte reisen oder viele Einzelpersonen erreichen müsstest.
Was kennzeichnet eine geschichtete Zufallsstichprobe, wann ist sie sinnvoll und wann nennt man sie “proportional”?
Grundgesamtheit wird in sinnvolle Gruppen (Schichten) unterteilt
Schichten basieren auf relevanten Merkmalen (z. B. Alter, Einkommen)
Aus jeder Schicht wird eine Zufallsstichprobe gezogen
Ziel: bessere Repräsentativität der Stichprobe
Liefert genauere Ergebnisse als einfache Zufallsstichprobe
Bei identischer Schichtverteilung wie in der Population: proportional geschichtete Stichprobe
Was kennzeichnet nicht-probabilistische Stichproben?
Bei nicht-probabilistischen Stichproben wählt man die Personen gezielt aus, nicht per Zufall
Beispiele:
Theoretische Stichprobe: gezielt passende Personen für eine Theorie
Quotenstichprobe: bestimmte Gruppen in festen Anteilen
Ad-hoc-Stichprobe: wer gerade verfügbar ist (z. B. Seminarteilnehmer)
Solche Stichproben sind nicht repräsentativ für die Gesamtbevölkerung
Deshalb ungeeignet für statistische Rückschlüsse (z. B. auf die ganze Bevölkerung)
Ausnahme: Man überlegt sich im Nachhinein eine „passende“ Zielgruppe – das ist aber unsicher und oft problematisch
Was ist ein systematischer Fehler bei der Stichprobenziehung und wann gilt eine Stichprobe als repräsentativ?
Beim Schließen von Stichprobenwerten (z. B. Mittelwert, Varianz) auf die Population können Fehler entstehen
Systematische Fehler: bestimmte Gruppen sind in der Stichprobe über- oder unterrepräsentiert
Beispiel: Nur Personen, die Fragebögen zurücksenden, werden erfasst → Verzerrung
Solche Verzerrungen führen zu unzuverlässigen Ergebnissen
Eine Stichprobe ist repräsentativ, wenn alle Gruppen fair vertreten sind – also keine systematischen Fehler auftreten
Was ist eine Stichprobenkennwerteverteilung und warum ist sie wichtig für die Schätzung von Populationsparametern?
Stichprobenfehler entsteht durch reinen Zufall – Stichprobe weicht zufällig von der Population ab
Beispiel: Nur rote Kugeln gezogen, obwohl beide Farben in der Urne vorhanden sind
Solche Fehler sind nicht vermeidbar, aber ihre Wahrscheinlichkeit ist berechenbar (z. B. mit Vertrauensintervall, Signifikanztest)
Der Mittelwert einer Stichprobe (x̄) unterscheidet sich meist vom wahren Populationsmittelwert (μ)
Zieht man viele Stichproben, ergeben ihre Mittelwerte eine eigene Verteilung
Diese nennt man Stichprobenkennwerteverteilung des Mittelwerts
Sie zeigt, wie stark Stichprobenmittelwerte rund um den Populationswert streuen
Die Stichprobenkennwerteverteilung ist eine theoretische Verteilung
Sie beschreibt, welche Werte ein Kennwert (z. B. Mittelwert x̄) bei vielen Zufallsstichproben annehmen kann
In der Realität haben wir meist nur eine einzige Stichprobe und einen einzigen Wert
Das Ziehen einer Stichprobe ist ein Zufallsexperiment → der beobachtete Wert ist eine mögliche Ausprägung
Die Streuung der Stichprobenkennwerteverteilung zeigt, wie genau der Stichprobenwert den wahren Wert (μ) schätzt
Je kleiner die Streuung, desto verlässlicher ist die Schätzung
Wie entsteht eine Stichprobenkennwerteverteilung bei n = 2 beim Würfeln?
Stichprobe mit n = 2 → 36 mögliche Kombinationen
Für jede Kombination wird Mittelwert berechnet
Es entsteht eine Verteilung der Mittelwerte (x̄)
Warum ist die Varianz der Stichprobenmittelwerte kleiner als die Populationsvarianz?
Mittelwerte schwanken weniger als Einzelwerte, weil sie Zufallseffekte ausgleichen. Je größer die Stichprobe, desto kleiner die Varianz der Mittelwerte.
📌 Beispiel mit Würfeln:
• Populationsvarianz (Einzelwürfe):
\sigma^2 = \frac{35}{12} ≈ 2{,}92
• Varianz der Mittelwerte bei n = 2:
\sigma^2_{x̄} = \frac{35}{12 \cdot 2} = \frac{35}{24} ≈ 1{,}46
➡️ Die Varianz halbiert sich, weil man pro Stichprobe 2 Werte mittelt → Zufallsextreme gleichen sich eher aus.
Wozu dient die Stichprobenkennwerteverteilung in der Inferenzstatistik?
Die Stichprobenkennwerteverteilung zeigt, wie stark Mittelwerte von vielen verschiedenen Stichproben aus der gleichen Population schwanken
Grundlage für Vertrauensintervalle & Signifikanztests
Je kleiner die Varianz, desto genauer die Schätzung von μ
Was bedeutet es, dass der Stichprobenmittelwert ein erwartungstreuer Schätzer ist?
Der Erwartungswert der Mittelwertverteilung ist gleich dem Populationsmittelwert:
Mittelwert ist ein erwartungstreuer Schätzer
Erwartungstreu = Der Stichprobenmittelwert unter- bzw. überschätzt den Populationsmittelwert nicht systematisch.
Erwartungstreue ist ein zentrales Kriterium für die Beurteilung von Schätzen
Was ist der Standardfehler des Mittelwerts (Stichprobenkennwerteverteilung) und wie verändert er sich mit der Stichprobengröße?
Was ist die Formel für die Stichprobenvarianz?
Wie berechne ich den Stichprobenfehler?
Wurzel aus der Stichprobenvarianz
Welche zwei Fälle betrachten wir, wenn die Populationsverteilung (Populationsvarianz) nicht bekannt ist?
Wir nehmen an, die Verteilung in der Population ist eine Normalverteilung
Dann ist auch die Stichprobenverteilung des Mittelwerts normalverteilt
Die Verteilung in der Population ist irgendeine beliebige Nicht- Normalverteilung.
Stichprobenkennwerte verteilung ist trotzdem normal verteilt, wenn die Stichprobe groß genug ist.
Zentraler Grenzwertsatz:
Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die derselben Grundgesamtheit entnommen wurden, geht mit wachsendem Stichprobenumfang in eine Normalverteilung über.
🔹 Was sagt der zentrale Grenzwertsatz (ZGW)?
Egal wie die Population verteilt ist:
Wenn du viele Stichproben ausreichender Größe ziehst, dann sind die Mittelwerte dieser Stichproben annähernd normalverteilt.
Aber:
Wie groß „ausreichend“ ist, hängt von der Form der Populationsverteilung ab.
📏
Was sagt die Vorlesung konkret?
Je unnormaler die Population, desto größer muss n sein
In der Praxis geht man oft davon aus, dass n ≥ 30 reicht, um Normalverteilung der Mittelwerte zu approximieren
Aber: Es ist keine fixe Grenze – bei extrem schiefer oder verzerrter Population kann man auch mehr als 30 brauchen
📊
Illustration aus deiner Vorlesung:
1. Population
Gleichverteilung von 0 bis 100 → das ist keine Normalverteilung!
Repräsentiert durch eine sehr große Stichprobe (n = 50.000)
Mittelwert: \bar{x} = 49.84,\quad s = 28.93
2. Was passiert bei n = 5?
Man zieht 5000 Stichproben mit je n = 5
Man berechnet jeweils den Mittelwert → ergibt eine Verteilung der Mittelwerte
Ergebnis:
Erwartungswert: \bar{x} = 50
Streuung der Mittelwerte (Standardfehler): s_{x̄} \approx 12.93
Die Verteilung der Mittelwerte ist deutlich glockenförmig → trotz ursprünglicher Gleichverteilung!
🧠
Warum ist das so wichtig?
Es erlaubt dir, statistische Tests (z. B. z-Test) anzuwenden, auch wenn die Population nicht normal ist
Du musst nur sicherstellen: n groß genug → meistens: n ≥ 30 → bei glatten Verteilungen wie Gleichverteilung: sogar schon bei n = 5 sichtbar
Wie berechnet man den Standartfehler aus der Population, wenn man diesen aus einer Stichprobe schätzen muss?
Zuletzt geändertvor 5 Tagen