Inferenz
Verallgemeinerung von Stichprobenkennwerten auf die Population
Was wäre eine korrekte Durchführung einer Stichprobenziehung?
Systematischer Zufallsvorgang:
Alle haben die gleiche Wahrscheinlichkeit gezogen zu werden
die Ziehung erfolgt nach einer Vorschrift (jede 5. Person)
keine Personengruppe kann systematisch ausgeschlossen werden
Wie kann man auf Basis einer Stichprobe verallgemeinern?
mithilfe eines Konfidenzintervalls (statistische Lösung), für das man Kenntnisse über die Normalverteilung braucht
Fehlerquellen bei der Stichprobenziehung
bei Umfragen:
Nicht-Teilnahme (Non-Response)
fehlende Antwortbereitschaft = Item-Nonresponse
ungeeignete Fragen
Praktische Probleme: Bsp.: Webdaten
verschiedene Kennwerte:
denn verschiedene Stichproben liefern verschiedene Kennwerte
Wie nennt man 2 Arten von Zufallsvariablen?
Diskrete Zufallsvariable
Kontinuierliche Zufallsvariable
können eines von einer abzählbaren Anzahl von unterschiedlichen Ergebnissen annehmen
Bsp.: Würfelexperiment
-> Gleichverteilung der Wahrscheinlichkeiten (1/6)
wird mittels Wahrscheinlichkeitsfunktion und Verteilungsfunktion beschrieben
Kontinuierliche Variablen
Können einen beliebigen Wert in einem bestimmten Intervall annehmen
wird mittels Dichtefunktion und Verteilungsfunktion beschrieben
Praktische Implikation des Gesetz der großen Zahl
= Qualitativ hochwertige Stichproben mit ausreichender Fallzahl sind ein gutes Abbild der Grundgesamtheit
echte Werte liegen nah an erwarteten Werten
Problem:
auch wenn die Stichprobenqualität hoch ist, können Umfragen Fehleinschätzungen liefern, Bsp.: bei sozialer Erwünschtheit
Wie lautet das Gesetz der großen Zahlen?
relative Häufigkeiten stabilisieren sich bei vielen Wiederholungen:
Wahrscheinlichkeit eines Ereignisses ist seine langfristige relative Häufigkeit
-> es wird so oft befragt, bis sich der Wert dem wahren Wert möglichst annähert (Bsp.: Bundestagswahl)
ist A ein Ereignis eines Zufallsexperiments, so stabilisieren sich bei einer hinreichend großen Anzahl n von Durchführungen dieses Experiments die relativen Häufigkeiten
das law of large numbers gilt nicht nur für große Populationen
Vorgang der Standardisierung -> Warum hilft uns die Standardisierung für Quantile von N(0,1)?
wandelt beliebige Normalverteilung in Standardnormalverteilung um, mit:
Mittelwert = 0
Standardabweichung = 1
Formel:
Beispiel: Wie groß ist die Wahrscheinlichkeit, dass Frauen kleiner als 160cm sind (PX<160) einer Normalverteilung X ~ N (164, 4.52)
z-Standardisierung
Quantil der Standardnormalverteilung
Was gibt die Verteilungsfunktion an?
gibt die kumulierte Wahrscheinlichkeit bis zu einem bestimmten Wert der Variable an -> summiert die Wahrscheinlichkeiten der Reihe nach auf
die Summe aller Wahrscheinlichkeiten ist 1
für diskrete UND kontinuierliche Zufallsvariablen
F(X) = P(X<x) oder P(X=x)
-> die Verteilungsfunktion ist die Fläche unter der Dichtefunktion
Schätzer
geschätzter Wert des Populationsparameters anhand einer Stichprobe
der Schätzer entspricht annähernd dem wahren Wert der Gesamtpopulation
Was gibt die Wahrscheinlichkeitsfunktion (aka Dichtefunktion) an?
gibt die relative Häufigkeit bestimmter Ausprägungen an
für diskrete Zufallsvariablen
Wahrscheinlichkeiten von bestimmten Ereignissen
f(x) = P(X=x)
Populationsparameter
wahrer Wert in der Gesamtpopulation / Grundgesamtheit
Es handelt sich um einen festen Wert, der eine ganze Gruppe repräsentiert, wie etwa den Mittelwert, Median, Modus oder die Standardabweichung eines Datensatzes
Beispiele:
68-95-99,7 Regel
Die Flächen unter der Normalverteilung eine, zwei oder drei Standardabweichungen nach links und rechts vom Mittelwert umfassen circa. 68, 95 und 99,7 Prozent der Gesamtfläche unter der Normalverteilung
Wann sind Ergebnisse unsicherer?
Je kleiner die Stichprobe ist, desto unsicherer sind die Ergebnisse
Was ist das relative Risiko? Und wie berechnet man es?
Es beantwortet die Frage „Wie viel wahrscheinlicher tritt Ereignis B ein, wenn vorher Ereignis A eingetreten ist?“
Beispiel:
Wie werden auf Basis von Stichprobendaten berechnete Werte genannt?
Auf Basis von Stichprobendaten berechnete Werte werden Stichprobenkennwerte genannt.
Beispiel: Anteil p
Wie hoch ist die Wahrscheinlichkeit mit einem zwölfseitigen Würfel bei einem einzelnen Wurf mindestens eine 7 zu würfeln?
Die Wahrscheinlichkeit liegt bei 50% (6 / 12)
Was ist notwendig für eine gute Stichprobe?
es sollte eine Zufallsauswahl bei der Ziehung der Stichprobe stattfinden
Jede Untersuchungseinheit der Population, über die man später Aussagen treffen möchte, sollte die gleiche Wahrscheinlichkeit haben gezogen zu werden
NICHT notwendig:
Bestimmte Bevölkerungsgruppen werden mithilfe einer vorher festgelegten Quotierung (zum Beispiel: 50% Männer) systematisch 'gezogen’
Wann ist eine Stichprobe repräsentativ?
Wenn alle Ergebnisse (Untersuchungseinheiten) die gleiche Wahrscheinlichkeit haben einzutreten
Der Wert einer Zufallsvariable, der sich bei einer hohen Anzahl an Wiederholungen eines Zufallsexperiments im Durchschnitt einstellt
Erwartungswert
Die zufällige Streuung der Messwerte einer Variablen zwischen verschiedenen Stichproben
Stichprobenvariabilität
Repräsentativität
Aussagen über die Grundgesamtheit sind möglich
Stichprobenkennwerteverteilung
Als Stichprobenkennwerteverteilung wird die Verteilung aller möglichen Ausprägungen eines Stichprobenkennwertes bezeichnet, die entsteht, wenn man nacheinander (unendlich viele) Stichproben der gleichen Größe aus einer Population zieht
Last changed6 days ago