Worum geht es in der Inferenzstatistik?
Abbildung:
Tabelle:
Was bei Stichproben falsch laufen kann und wie man sie richtig durchführt
• Verzerrte Stichproben liefern nicht zutreffende Ergebnisse für die Grundgesamtheit
• "Systematischer" Zufall zur Gewinnung einer repräsentativen Stichprobe:
Alle haben die gleiche Wahrscheinlichkeit gezogen zu werden
Ziehung erfolgt nach einer ganz bestimmten Vorschrift
Keine Person oder Teilgruppe mit spezifischen Merkmalen wird systematisch ausgeschlossen
• Fehlerquellen (auch bei unverzerrten Stichproben)
z.B. Nicht-Teilnahme, fehlende Antwortbereitschaft, ungeeignete Fragen, fehlerhafte Registerdaten (= Wahlen, Einkommensfrage, politische Einstellung)
• "Kehrseite" des Zufalls: Verschiedene Stichproben liefern verschiedene Kennwerte
Zufall oder doch nur Willkür?
• Eine Zufällige Auswahl der Teilnehmer unserer Studie ist wichtig
• Zufall : Alle haben die gleiche Chance gezogen zu werden und Ziehung läuft immer gleich (nach bestimmten Regeln ab). Führt zu angebbaren Wahrscheinlichkeiten
• Niemand wird systematisch ausgeschlossen
• Willkür: Bestimmte Leute haben bessere Chancen in unserer Stichprobe zu landen als andere (Beispiel : Internetbefragung)
Zufall oder doch nur Willkür
• Wenn jeder die gleiche Chance hat dann werden sich unsere Stichproben mehr oder weniger unterscheiden (mal hatten vielleicht mehr Frauen, mal mehr Männer das “Glück“ in der Stichprobe zu landen
• Manchmal werden für gleich Verteilungen Quoten vorgegeben. Das ist aber nicht unbedingt nötig
• Daher wird jede Stichprobe zu einem unterschiedlichen Stichprobenkennwert kommen
Ist Stichprobenvariabilität ein Problem?
Jein ...
• Dank des Zufalls gibt es keine systematische Verzerrung
• Aber wir müssen davon ausgehen, dass unsere Ergebnisse (zufällig) andere sind als in einer anderen Stichprobe
Der systematische Zufallsvorgang erlaubt es, Wahrscheinlichkeiten für bestimmte Kennwerte anzugeben (nächste Woche: Konfidenzintervall)
= wahrer Wert liegt in diesem Bereich
Wahrscheinlichkeiten und Verteilungen sind theoretische Konzepte
Zufallsvariablen
Eine Zufallsvariable nimmt die Werte an, die das Ergebnis eines zufälligen Ereignisses sind.
• i.d.R. werden sie mit Großbuchstaben bezeichnet, z.B. X
• Ein bestimmter Wert einer Zufallsvariablen wird mit dem entsprechenden Kleinbuchstaben bezeichnet, in diesem Fall x.
• Diskrete Zufallsvariablen:
Können eines von einer abzählbaren Anzahl von unterschiedlichen Ergebnissen annehmen (z.B. 1,2,3,4,5,6 bei Würfelexperiment)
• Kontinuierliche Zufallsvariablen:
Können einen beliebigen numerischen Wert annehmen (z.B. menschliche Körpergröße)
Diskrete Zufallsvariablen (z.B Würfelwurf)
Kontinuierliche Zufallsvariablen (z.b Körpergröße)
Da sie unendlich viele beliebige Werte annehmen können, tendiert die Wahrscheinlichkeit eines bestimmten Wertes gegen 0
Wahrscheinlichkeitsfunktion aka Dichtefunktion f(x)
Wahrscheinlichkeiten müssen über die Ausrechnung von Integralen bestimmt werden
Verteilungsfunktion F(x) = P(X <_ x)
—> Fläche unter der Dichtefunktion von - ♾️ bis x
Es gilt außerdem: Abbildung
Abbildung (große)
Gesetz der großen Zahlen (Law of Large Numbers)
• Die Wahrscheinlichkeit eines Ereignisses ist seine langfristige (n ∞) relative Häufigkeit
• Relative Häufigkeiten "stabilisieren" sich bei "vielen" Wiederholungen
• Gilt für alle Zufallsprozesse
pn(a) = P(A) für n —> ♾️
• "Qualitativ hochwertige Stichproben mit ausreichender Fallzahl sind ein gutes Abbild der Grundgesamtheit."
Aber:
• Wir können nicht aus den Ergebnissen der Vergangenheit auf zukünftige Ergebnisse schließen
Wahrscheinlichkeiten für bestimmte Ereignisse bleiben immer gleich
Beispiel: Lottogewinn wird nicht "fällig”
Beispiel Europawahlen
Dank des Law of Large Numbers können wir sagen:
Qualitative gute Stichproben liefern ein gutes Abbild der Grundgesamtheit
Eine gewisse Fehlertoleranz (1-3 Prozentpunkte) ist aber immer dabei
Die Größe der Grundgesamtheit ist bei einer guten Stichprobe irrelevan
Law of Large Numbers und Statistik
• ABER : All das gilt nur wenn unsere Stichprobe gut ist (ausreichend groß, zufällige Ziehung und keine Fehler)
• Praktisch kommt es oft zu Fehlern zum Beispiel wegen sogenannter “sozialer Erwünschtheit“, oder anderen technischen/praktischen Problemen
= Online Befragung / soziale Erwünschtheit; Probleme der Befragungen
Methoden waren richtig & gut = Stichproben falsch gewählt & soziale Erwünschtheit (“Trump zu wählen”)
Abbildung Karte U.S:
WahrscheinlichkeitenundVerteilungensindtheoretischeKonzepte | Praktische Implikation des Gesetz der großen Zahl
• Praktische Implikation des Gesetz der großen Zahlen: "Qualitativ hochwertige Stichproben mit ausreichender Fallzahl sind ein gutes Abbild der Grundgesamtheit."
• Mi tSchwankungen von 1 bis 3 Prozentpunkten war die Umfrage 10 Tage vor der Bundestagswahl eine sehr gute Hochrechnung
• Aber: Auch wenn die Stichprobenqualität hoch ist, können Umfragen Fehleinschätzungen liefern, z.B. wegen sozialer Erwünschtheit und anderen Antwortfehlern à eigenes Forschungsgeiet der Sozialwissenschafte
WahrscheinlichkeitenundVerteilungensindtheoretischeKonzepte | Nicht-Implikation des Gesetz der großen Zahl
• Das Gesetz der großen Zahlen bedeutet jedoch nicht, dass wir aus den Ergebnissen der Vergangenheit auf zukünftige Ergebnisse schließen können!
• Es gibt keinen kurzfristigen Ausgleich für frühere Abweichungen vom erwarteten Muster. Selbst wenn wir 999 Mal hintereinander Lotto gespielt und nichts gewonnen haben, erhöht sich die Wahrscheinlichkeit der "richtigen Zahlen" in der folgenden Woche nicht! Der Gewinn ist nicht "fällig"
• Wenn Sie jedoch tatsächlich unendlich lange spielen, wird Ihr Gewinn mit Sicherheit eintreten (P=1)
Warum uns 68-95-99.7 & Standardisierung für die Quantile von N (0,1) hilft
Welche EIgenschaften haben Normalverteilungen?
Wie sind die Werte in einer glockenförmigen Verteilung um den Mittelwert herum verteilt? (68-95- 99.7 Regel)
Bsp: Körpergröße & Standardisiserung
Abbildung (Ende Körpergrlße ist normalverteilt):
—>
-1,11 Standardabweichungen vom Durchschnitt der Körpergröße der Frauen
Warum uns Standardisierung für Quantile von N(0,1) hilft. | Wichtige Quantile der Standardnormalverteilung
Abbildungen:
WICHTIGE QUANTILE DER STANDARDNORMALVERTEILUNG
Online AUfgaben
Berechnung Mittlere 95% der Schuhgrößen Verteilung
Mittlere 68% der Schuhgrößen Verteilung
ARD DEUTSCHLAND TREND (APRIL 2022)
Lassen sich die Ergebnisse einer Befragung von 1.325 Personen auf 61 Mio (wahlberechtigte) Deutsche verallgemeinern?
Ja, wenn man gewisse Unsicherheit in Kauf nimmt (Schwankungsbreite aka Fehlertoleranz)
Abboldung:
WIe berechnen wir Schwankungsbreite / Fehlertoleranz?
Wovon hängt dese ab?
Was bei Stichproben falsch laufen kann und wie man sie richtig durchführt | Männer-/Frauenanteil in den WiSo-Bachelor-Studiengängen im ersten Studienjahr an der UzK?
• Was würden Sie tun, um eine Stichprobe von n= 100 WiSo-Studierende des ersten Studienjahrs zu befragen?
• Mögliches Vorgehen
Hinweis auf die Studie auf der WiSo-Website?
Vermutlich verzerrt, wenn nur die besonders interessierte, meinungsfreudige und/oder gelangweilt-surfende Studierenden teilnehmen
BefragungvonFreund:innenoderderheuteanwesendenStatistik1–Teilnehmer:innen? Vermutlich verzerrt, da ihr Freundeskreis oder die heute Anwesenden nicht alle Gruppen von Studierenden abdecken
VerwendungderListedessowi-baNewsletters?
Vermutlich verzerrt, da erneut bestimmte Teilgruppen nicht erfasst sind
• Verzerrte Stichprobe liefern nicht zutreffende Ergebnisse für die Grundgesamtheit!
• SEHR häufig: Ergebnisse von verzerrten Stichproben in Medienberichten!!
= oftmals Problem!
Was bei Stichproben falsch laufen kann und wie man sie richtig durchführt | Stichprobenziehung über Studierendensekretariat
• Das Studierendensekretariat führt eine Liste aller Studierenden
• Angenommen, Ihnen sei der Zugang zu den vollständigen Daten verwehrt, Sie können jedoch Angaben von 100 Personen erhalten
• "Systematischer" Zufall zur Gewinnung einer repräsentativen Stichprobe
Video-Tipp: Zufall und Zufallsvariablen
https://www.youtube.com/watch?v=DoHTsDrzAQk
Systemstischer Zufallsvorgang
• Zufallsstichprobe mit Hilfe eines systematischen Zufallsvorgangs
Alle haben die gleiche Wahrscheinlichkeit gezogen zu werden z.B. eingeschriebene Studierenden lt Studierendensekretariat
Ziehung erfolgt nach einer ganz bestimmten Vorschrift z.B. jede 5. Person auf der Liste
—> keine Personen oder Teilgruppe mit spezifischen Merkmalen wird systematisch ausgeschlossen
Videotipp: https://www.youtube.com/watch?v=701RLEqLpcU
Weitere Fehlerquellen
• Auch die Ergebnisse von unverzerrten Stichproben können fehlerhaft sein.
• Zum Beispiel bei Umfragen
Nicht-Teilnahme (aka Unit-Nonresponse), z. B. vielbeschäftigte Manager
fehlende Antwortbereitschaft (aka Item-Nonresponse), z.B. Einkommen, Alkoholkonsum
Ungeeignete Fragen, z. B. altmodische Messung von Geschlechterrollen
• Andere Daten wie Registerdaten, Webdaten, ... können andere praktische Probleme haben, z. B. erfassen die Registerdaten der Bundesagentur für Arbeit zum Einkommen keine Beamten und Selbstständigen
Wichtige Begriife
• Populations-Parameter:„wahrer“WertinderGesamtpopulation/Grundgesamtheit(unbekannt!)
• Schätzer: geschätzter Wert des Populationsparameters an hand einer Stichprobe
• Normalverteilung: Einenützliche, symmetrische, glockenförmige Wahrscheinlichkeitsfunktion, die durch ihren Mittelwert und ihre Standardabweichung eindeutig definiert ist.
• 68-95 99,7 Regel: Die Flächen unter der Normalverteilung eine, zwei, bzw. drei Standardabweichungen nach links und rechts vom Mittelwert umfassen circa 68, 95 und 99,7 Prozent der Gesamtfläche unter der Normalverteilung.
• Standardnormalverteilung: JedeN ormalverteilung N(𝛍,σ2) lässt sich eine Standardnormalverteilung (N(0,1) transformieren
Videotipps
Hintergründe zum ARD-Deutschlandtrend
• https://www.youtube.com/watch?v=Ua13pCXX81k
Zufall und Zufallsvariablen
• https://www.youtube.com/watch?v=DoHTsDrzAQk
• https://seeing-theory.brown.edu/basic-probability/index.html
Normalverteilung
• https://www.youtube.com/watch?v=JHQB5lmo0XQ • https://www.youtube.com/watch?v=_f1vgWUiavY • https://studyflix.de/statistik/normalverteilung-1089
Zuletzt geändertvor 4 Monaten