-Ziel: Aussage über eine gegebene Population, z.b. Wohnbevölkerung in Deutschland
o Deskriptiv: z.b. Mittelwert des Einkommens
o Erklärend: Trifft die Hypothese XY für diese Poluation zu?
-Problem: eine Vollerhebung (d.h. eine Befragung aller Elemente in der Population) ist in der Regel zu teuer und auch nicht immer praktikabel
-Lösung: Verwendung eines „verkleinerten Abbildes“ der Population – einer Stichprobe
-Grundgesamtheit (Population): Alle Elemente, die für die Untersuchung in Frage kommen, bzw. die Gruppe, über die man Aussagen treffen will
-Sie sollte vorab möglichst genauso beschrieben werden, z.B. … alle Erwachsenen ,die in Deutschland ihren ständigen Wohnsitzhaben; alle Studierenden eines BA-Studiengangs an der Uni Köln
-Befragt/untersucht man alle Mitglieder der Grundgesamtheit spricht man von einer Vollerhebung
-Stichprobe: Teilmenge der Population, die entweder rein willkürlich oder nach bestimmten Kriterien (z.B. Zufallsauswahl) ausgewählt wurde
-Auf Basis der Stichprobe sollen Aussagen über die Grundgesamtheit gemacht werden
Vorteile
-Vollerhebungen sind bei großen Grundgesamtheiten oft nur schwer durchführbar (selbst die deutsche Volkszählung ist heute stichprobenbasiert (aus Kosten- und Zeitgründen)
-Stichproben sind wesentlich kostengünstiger
-Stichproben ermöglichen komplexere Untersuchungsdesigns (z.B. bei Experimenten)
Nachteile
-Schätzungen auf der Basis von Stichproben enthalten Fehler (bilden eben nicht die Grundgesamtheit ab, sondern nur einen Anteil)
-Die Genauigkeit, mit der die Populationsparameter geschätzt werden können, hängt wesentlich von der Stichprobenqualität und der Größe (und damit der Varianz) des Samples ab
· Beispiel: alle Menschen, die in Köln wohnhaft sind
· Undercoverage (werden nicht erfasst): Heimbewohner, Gefängnisinsassen, etc. (da die Einwohnermeldeamtsstichprobe in vielen Städten nur Privathaushalte erfasst, d.h. institutionalisierte Einwohner würden nicht erfasst werden und Gruppen würden systematisch ausgeschlossen werden)
· Overcoverage: Besucher, Pendler, wenn bspw. eine Umfrage in der Schildergasse durchgeführt werden würde (also Elemente, die in der Stichprobe eigentlich nicht vorkommen dürften)
Wie kann sichergestellt werden, dass die Populationsparameter möglichst unverzerrt geschätzt werden?
==> In beiden Fällen ist die Grundgesamtheit nicht klar definiert, d.h. es können auch Leute befragt werden, die eigentlich gar nicht zur Grundgesamtheit gehören (und damit nicht repräsentativ sind), die Selektivität der Stichprobe verbleibt ungeklärt
==> die Ergebnisse sind dadurch meist wissenschaftlich wertlos (für die Marktforschung u.U. aber dennoch informativ)
-Bei Studien zu Ursachen und Folgen bestimmter Merkmale / Verhaltensweisen
-Wenn die Grundgesamtheit schlecht zu erreichen ist oder das interessierende Merkmal selten oder nicht „sichtbar“, bzw. registriert ist
-Wenn Zufallsauswahl nicht praktikabel (zu teuer, zu aufwändig, kein Verzeichnis vorhanden), wird oft in kommerziellen Instituten verwendet
-Dabei wird den Interviewern in einem Quotenplan vorgegeben, wie hoch der Anteil von Personen mit bestimmten soziodemografischen Merkmalen unter den Befragten sein muss (oft Geschlecht, Alter, Bildung, manchmal auch mehrstufige Quotierung (Merkmalskombination)) – so kann ich bspw. meine Befragten verhältnismäßig zur Merkmalsverteilungsstruktur in der BRD auswählen und frage dann dementsprechend viele Frauen, Männer, Schwarze, etc.
o Dies funktioniert nur, wenn die Verteilung dieser Merkmale innerhalb der Grundgesamtheit bekannt ist und in der Stichprobe nachgebildet wird
-Die ausgewählten Merkmale (z.b. Alter, Geschlecht, etc.) orientieren sich an der Machbarkeit und hängen oft nur in geringem Maße mit dem zusammen, was eigentlich interessiert (bspw. die politische Einstellung)
-Willkür der Interviewer, denen die Auswahl oft überlassen bleibt (und dann eher kooperative Personen auswählen) – dadurch entsteht die Gefahr von unkontrollierbaren Verzerrungen
-Es wird solange kontaktiert, bis die Quoten erfüllt sind – also werden vor allem gut erreichbare Elemente für die Stichprobe ausgewählt – was wiederum zu Verzerrung führt
-Keine Zufallsauswahl bedeutet keine Interferenzstatistik!!!
-Befragt werden alle Mitglieder einer Institution, Gruppe, etc. – dabei können die Klumpen tatsächlich nach dem Zufallsprinzip ausgewählt werden
-Grundregel: Jedes Element der Grundgesamtheit muss mit exakt der gleichen Wahrscheinlichkeit in die Stichprobe gelangen können (das kann auch mehrstufig erfolgen)
o Nur diese Methode erlaubt den interferenzstatistischen Schluss von der Stichprobe auf die Grundgesamtheit, bei dem Fehlerwahrscheinlichkeiten und Vertrauensintervalle bestimmt werden können!
-Voraussetzung: Schichtanteil muss bekannt sein und Zugehörigkeit der Untersuchungseinheiten muss erkennbar sein
-Vorteil: präzisere Schätzung, wenn die Schichten homogen sind (Schichtungseffekt) oder bei „seltenen Merkmalsträgern“
-Disproportional: nicht dem Größenverhältnis der Gruppen in der Gruppengesamtheit entsprechend
-Eine disproportionale Schichtung wird bspw. gewählt, um für Vergleiche zwischen alten und neuen Bundesländern eine hinreichend große Stichprobe aus den neuen Ländern zu haben
-Auf Gesamtdeutschland bezogen wird durch die disproportionale Schichtung aber die Regel verletzt, dass jedes Element in der GG die gleiche Chance haben muss, in die Stichprobe zu kommen
-D.h. man kann mit den Daten zwar Aussagen über (getrennt) Ost- und Westdeutschland machen, aber nicht für Gesamtdeutschland
-Um trotz der disproportionalen Schichtung Aussagen über Gesamtdeutschland machen zu können, wird die Stichprobe anhand der Anteile der tatsächlich in Ost- und Westdeutschland lebenden Menschen gewichtet
-Listenauswahl
o Verzeichnis sämtlicher Untersuchungseinheiten, z.b. Einwohnerliste von Meldeämtern, Liste aller Telefonbucheinträge
o Sind das Mittel der Wahl – jedoch nicht immer vorhanden (so gib es ersteres bspw. nicht in den USA)
-RDD-Methode
o Generierung von Telefonnummern durch Random-Digit-Dialing (Zufallsprogramm)
-Lotterieauswahl
o Stichprobe wird aus einer „Lostrommel“ gezogen
-Gebietsauswahl
a. Zufallsauswahl von Gebieten (Gemeinden)
b. Auswahl von Startadressen
c. Begehungsanweisung zur Auswahl einer Adresse (z.B. erste Strasse rechts, nächste links, drittes Haus, zweite Etage) – diese Person muss dann aber auch befragt werden
-Wahrscheinlichkeitsauswahl innerhalb des Haushalts: z.B. Geburtstagsmethode (Person im Haushalt, die zuletzt Geburtstag hatte)
-Zufallsauswahl aus unvollständigen Verzeichnissen
o Problematisch wenn…
/ Ich von meiner Stichprobe auf die Grundgesamtheit schließen möchte, z.b. das durchschnittliche Einkommen ermitteln
/ Bestimmte Phänomene quantifizieren möchte, z.b. den Anteil der regelmäßigen Theatergänger in der Bevölkerung ermitteln
o Nicht (so unbedingt) problematisch, wenn…
/ Ich Zusammenhangshypothesen testen möchte z.b. je höher das Einkommen, desto größer die Wohnung, ODER: je höher die Bildung, desto häufiger der Theaterbesuch
/ Ich eine qualitative Studie mit wenigen Tiefeninterviews durchführe
-Nur bei Zufallsstichproben können mit den Mitteln (Inferenz- oder Test-)Statistik Wahrscheinlichkeiten für die Übertragbarkeit von Kennwerten (zB. Mittelwerte, Prozentsätze, usw.) und Vertrauensintervalle berechnet werden)
-Solche Schlüsse sind umso weniger fehlerbehaftet je größer die Stichprobe ist
-Sogenannte Repräsentativitätsnachweise (bei denen gezeigt wird, dass bestimmte soziodemographische Merkmale (wie Alter, Geschlecht, usw.) der Stichprobe denen der Grundgesamtheit entsprechen) sagten nichts (oder zumindest wenig) über die Verteilung anderer Merkmale aus
==> Sie können also nicht die Repräsentativität hinsichtlich der eigentlich interessierenden Merkmale und Konstrukte (z.B. Religiosität) belegen
-Dieses Problem haben auch Quotenstichproben
-Auch bei einer methodisch korrekt gezogen Stichprobe können Verzerrungen durch Ausfälle bei der Befragung auftreten
-Erfolgen die Ausfälle rein zufällig haben sie keine Folgen für die Qualität der Stichprobe (neutrale Ausfälle)
-Problematisch sind dagegen systematische Ausfälle, bei denen die Ausfallsursachen mit dem Untersuchungsgegenstand zusammengehängt
-Die Ausschöpfungsquote alleine ist wegen der systematischen Ausfälle wenig aussagefähig
o Es hängt auch von der Fragestellung ab, ob ein Ausfall als neutraler Ausfall oder als systematischer Ausfall gewertet wird
-Besondere Anstrengungen müssen bei Verweigerern und schwer anzutreffenden Personen gemacht werden, denn Verzerrungen der Ergebnisse sind hier am ehesten zu erwarten
Last changeda year ago