Womit beginnt die Konzeption einer empirischen Studie bzw. Datenauswertung?
Grundgesamtheit, Untersuchungseinheit, Merkmal
Grundgesamtheit (Population): Menge aller Untersuchungseinheiten, über die Aussagen getroffen werden sollen. Die Grundgesamtheit (GG) ist vor einer Untersuchung festzulegen.
• Beispiele: Student:innen der UzK; Teilnehmer an der Statistik 1-Vorlesung, alle Personen mit deutscher Staatsbürgerschaft, alle europäischen Länder, Parteiprogramme deutscher Parteien
• Untersuchungseinheiten/statistische Einheiten: Objekte, über die Daten erhoben werden.
• Beispiel:Individuen,Nationen,Organisationen,Firmen,Städte,etc.
• Merkmale: interessierende Eigenschaften der Untersuchungseinheiten
•Beispiel:Geschlecht,Alter,Einkommen,Anzahl der Kinder im Haushalt,...
Stichprobe
• Stichprobe (oder Auswahl/ Sample): Teilmenge der Grundgesamtheit
• Die Verwendung von Stichproben ist in den Sozialwissenschaften üblich; typischerweise aus pragmatischen Gründen
•Beispiel: Wahlprognose auf Basis einer Stichprobe von 1.000 Wählern.
•Manchmal ist die Teilerhebung zwingend erforderlich. Beispiel: Crashtests bei PKWs.
Abbildung:
Beispiel
Im Rahmen einer Studie soll die Wirkung eines Workshops der Studienberatung der Universität zu Köln auf die Studienfachwahl untersucht werden. Der Workshop richtet sich an Oberstufen-Schülerinnen und Schüler an Kölner Schulen. Unter den Schülerinnen und Schülern, die sich für eine Teilnahme an den Workshops angemeldet haben, werden in zwei Gruppen ausgelost und eine der beiden Gruppen wird zur Teilnahme zugelassen. Die Wirkung des Workshops auf die Studienaufnahme und den Studienerfolg wird über den Vergleich der beiden Gruppen (Teilnehmer und Nicht-Teilnehmer) ermittelt. (à PräventAbb-Studie)
• Was ist die Grundgesamtheit der Studie? = Alle Teilnehmer, die sich beworben haben
• Wer sind die Untersuchungseinheiten? = Personen/Oberstufen Schülerinnen/Workshop interessiert
• Was ist das (wichtigste) interessierende Merkmal? (Wie könnte man das Merkmal in einer Befragung erfassen?) = Studienfachwahl, Vergleich in Prozentzahlen, Fachintention
• Warum werden die Schülerinnen und Schüler über ein Losverfahren ("randomisiert") in zwei Gruppen aufgeteilt?
= “um möglichst gleiche Gruppe zu erhalten”
• Was ist die Grundgesamtheit der Studie?
Schülerinnen und Schüler, die sich für einen Workshop interessieren
(-> Teilgruppe aller Studieninteressierten -> Teilgruppe aller OberstufenschülerInnen in Köln -> Teilgruppen aller OberstufenschülerInnen in De.)
• Wer sind die Untersuchungseinheiten? Teilnehmer und Nicht-Teilnehmer an den Workshops • Was ist das interessierende Merkmal?
Studienfachwahl (Für welche Studienfächer interessieren sie sich? ("choice set": Anzahl, Vielfalt, ... ) Haben Sie bereits ein konkretes Studienfach entschieden? ("entschlossen/unentschlossen") Für welches Studienfach möchten Sie sich einschreiben ("Fachintention")?
• WarumwerdendieSchülerinnenundSchülerübereinLosverfahren("randomisiert")inzweiGruppen aufgeteilt?
Um möglichst "gleiche" beiden Gruppen zu erhalten.
Ansonsten: Verzerrung möglich z.B bei first-come-first-serve
Mit welchen BEgriffen beschreibt man eine Datenmatrix?
Wer, Was und in welcher Einheit?
• Wer: Fall i
Oder auch: Untersuchungseinheit, Beobachtung
Das, worüber wir Aussagen machen wollen: z.B. Menschen, Länder, Tweets . . .
• Anzahl der Fälle: n
• Was: Variable X
Eigenschaft der Fälle, die sich über die Fälle unterscheidet: z.B. Bildungsabschluss, Einkommen, Alter, links/rechts, Bevölkerungsdichte . . .
• In welcher Einheit: a
z.B. Jahre, Euro, 0 - .. Jahre, Zustimmung von 0 bis 10, Menschen pro km2
• Welche Ausprägung: xi
Ausprägung der Variablen X für Person i.
Fall, Variable, Ausprägung aka Wert
• Fälle/Untersuchungseinheiten in den Zeilen (eine Zeile pro Untersuchungseinheit).
• Variablen in den Spalten angeordnet (typiscerweise eine Spalte pro Variable).
• Zellen enthalten die beobachteten Werte
list Befehl
Abbildung.
Was ist das Skalenniveau einer Variable. und warum ist es wichtig?
Kodierung von Merkmalsuausprägungen
• Kodierung = Zuordnen von Zahlen zu verschiedenen Ergebnissen von Variablen, z.B.
Geschlecht: 1 = männlich, 2 = weiblich, 3 = divers, 4 = keine Antwort
• Wie zufrieden sind Sie aktuell mit der Arbeit der Regierung?
5= sehr zufrieden, 4= zufrieden, 3= teils/teils, 2= nicht zufrieden, 1= überhaupt nicht zufr.
• IQ-Test Ergebnis ___ [0 - 200]
• Wie viel verdienen Sie in Ihrem Hauptberuf? _ _ _ _ _ €
Was bedeuten diese Zahlen? (Was) können wir mit diesen Zahlen berechnen? z.B. das durchschnittliche Geschlecht?
Ist jemand, der sehr zufrieden ist mit der Regierung 5-mal zufriedener als jemand, der überhaupt nicht zufrieden ist?
• "Skalenniveau" = Art der Information, die durch die Kodierung in Zahlen geliefert wird
Nominal, Ordinal-, Intervall und Ratioskala
Abbildung
Skalenniveau und Datenauswertungen
• Skalenniveau ist entscheidend für die Frage
welche Aussagen möglich sein, z.B. gleich/verschieden, größer/kleiner
welche Rechenoperationen, z.B. addieren, multiplizieren, zulässig sind
Das brauchen wir, wenn wir zum Beispiel
• Merkmale von Individuen oder Gruppen vergleichen
("Westdeutsche weisen eine höhere Zustimmung auf als Ostdeutsche ")
• einen Durchschnitt berechnen ("Die durchschnittliche Arbeitszeit von Frauen ist geringer als die von Männern")
• Zusammenhänge bestimmen ("Je größer die Zufriedenheit mit der Regierung, desto eher wird ein starker Sozialstaat befürwortet")
Skalenniveau & Datenauswertungen Beispiele
Abbildung Tabelle:
Womit beginnt die Auswertung einer Varible?
Beschreibung/Deskription einer Variable
Alle Werte auflisten = keine gute Idee
• Daher: Komplexitätsreduktion mittels Kennziffern und Visualisierungen der Verteilung einer Variablen
—> Wie kann man wesentliche Gesichts- punkte einer Variablen und ihrer Verteilung knapp und einleuchtend verdeutlichen?
Bsp: Inwiefern stimmen die im ESS befragten Deutschen der folgenden Aussage zu?
Beschreibung mittels Häufigkeitstabelle
Abbildungen:
Graphische Darstellung oftmals einfacher bzw. schneller zu verstehen als Tabelle!
Bso. Balkendiagramm
Absolute Häufigkeiten vs. Prozent
• Absolute Häufigkeiten nur für einzelne Variablen sinnvoll
• Für den Vergleich von Verteilungen oftmals sinnvoller: relative Häufigkeit bzw. Prozente
Achtung: Fehlende Werte (“Missings”)
Mit Missings:
Variablen mit vielen Ausprägungen
• Variablen mit vielen Ausprägungen können nicht ohne Weiteres als Häufigkeitstabelle dargestellt werden —> Zusammenfassung in Klassen
ABER:
• Klassierung von Variablen bedeutet Informationsverlust
• Wahl der Klassengrenzen kann Ergebnisse beeinflussen und sollte begründet sein • Entscheidung:nach Ähnlichkeit der Ausprägungen
z.B. Soziologie/Sozialpsy., Politikwiss. --> Sozialwissenschaften; was ist mit MES?
• Entscheidung: gleiche Klassen breite oder Abgrenzung nach benötigter Genauigkeit?
• Entscheidung: beobachtete oder theoretische Minimal-und Maximalwerte?
Häufigkeitstabelle für Altersgruppen (4 Kategorien)
Graphische Darstellung
Histogramm
Sozialwissenschaften: Beschreibung sozialer Sachverhalte
• Beschreibung setzt eine klare Definition und eine Entscheidung für eine Operationalisierung des Sachverhalts voraus
Beispiel, bei denen unterschiedliche Operationalisierungen möglich sind
• Einkommen: Brutto/Netto; Individual-/Haushaltseinkommen, mit/ohne Transferleistungen, mit/ohne Einkommen aus Vermögen, ...
• Armut: verschiedene Definitionen der Armutsgrenze,
siehe https://www.youtube.com/watch?v=tZx1PUU4h1w
• Arbeitslosigkeit: registrierte Arbeitslose, Arbeitssuchende (gemeldet, in der letzten Woche, ...), siehe https://www.youtube.com/watch?v=yGUH0p_muHw https://www.youtube.com/watch?v=5GWTN341nSY
—> Wer beschreibt was - und für welchen Zweck?
Tutorium zu Online Aufgaben
Modus = der häufigste Wert
Stata Eingabe
1. Möglichkeit: Tabelle anzeigen lassen und den häufigsten Wert suchen • tab variable
• 2. Möglichkeit: Werte der Tabelle nach Häufigkeit sortieren lassen tab variable, sort
Median bei Stata
Median = teilt die sortierten Fälle einer Variable in zwei gleich große Hälften
1. Möglichkeit:
Tabelle anzeigen lassen und Wert suchen, bei dem die kumulierte Häufigkeit von 50% überschritten wird
tab variable
2. Möglichkeit:
Durch den sum-Befehl das 50%-Perzentil anzeigen lassen
sum variable, detail
Recoding bei Stata
• recode variable (Regel 1)(Regel 2), gen (variable_new)
• 1. Beispiel: Alle Befragten unter 60 sollen den Wert 0 haben und alle ab 60 sollen den Wert 1 haben
recode agea (min/59=0) (60/max=1) (.=.), gen (agea_new)
• 2. Beispiel: Ausprägungen von wrclmch (Sorge vor dem Klimawandel) auf zwei Ausprägungen reduzieren (besorgt und nicht besorgt)
recode wrclmch(1 2 = 0) (3 4 5 = 1) (.=.), gen (sorgeklimaw)
• (.=.) bedeutet Missings bleiben Missings
Recoding bei Stata (2.Option)
Alternative: replace-Befehl
• Zunächst neue Variable generieren:
gen variable_new = variable_old
• Hier (1. Beispiel):
gen agea_new = age
replace agea_new = 0 if age <= 59
replace agea_new = 1 if age >= 60 & agea_new <=. Missings sind größer als 60, sollen aber nicht miteinbezogen werden
Rechenoperationen bei Stata
Zuletzt geändertvor 5 Monaten