2. Grundlagen und Lagesteuung

von Julia M.

Womit beginnt die Konzeption einer empirischen Studie bzw. Datenauswertung?

Grundgesamtheit, Untersuchungseinheit, Merkmal

Grundgesamtheit (Population): Menge aller Untersuchungseinheiten, über die Aussagen getroffen werden sollen. Die Grundgesamtheit (GG) ist vor einer Untersuchung festzulegen.

• Beispiele: Student:innen der UzK; Teilnehmer an der Statistik 1-Vorlesung, alle Personen mit deutscher Staatsbürgerschaft, alle europäischen Länder, Parteiprogramme deutscher Parteien

• Untersuchungseinheiten/statistische Einheiten: Objekte, über die Daten erhoben werden.

• Beispiel:Individuen,Nationen,Organisationen,Firmen,Städte,etc.

• Merkmale: interessierende Eigenschaften der Untersuchungseinheiten

•Beispiel:Geschlecht,Alter,Einkommen,Anzahl der Kinder im Haushalt,...

Womit beginnt die Konzeption einer empirischen Studie bzw. Datenauswertung?

Stichprobe

• Stichprobe (oder Auswahl/ Sample): Teilmenge der Grundgesamtheit

• Die Verwendung von Stichproben ist in den Sozialwissenschaften üblich; typischerweise aus pragmatischen Gründen

•Beispiel: Wahlprognose auf Basis einer Stichprobe von 1.000 Wählern.

•Manchmal ist die Teilerhebung zwingend erforderlich. Beispiel: Crashtests bei PKWs.

Abbildung:

Womit beginnt die Konzeption einer empirischen Studie bzw. Datenauswertung?

Beispiel

Im Rahmen einer Studie soll die Wirkung eines Workshops der Studienberatung der Universität zu Köln auf die Studienfachwahl untersucht werden. Der Workshop richtet sich an Oberstufen-Schülerinnen und Schüler an Kölner Schulen. Unter den Schülerinnen und Schülern, die sich für eine Teilnahme an den Workshops angemeldet haben, werden in zwei Gruppen ausgelost und eine der beiden Gruppen wird zur Teilnahme zugelassen. Die Wirkung des Workshops auf die Studienaufnahme und den Studienerfolg wird über den Vergleich der beiden Gruppen (Teilnehmer und Nicht-Teilnehmer) ermittelt. (à PräventAbb-Studie)

• Was ist die Grundgesamtheit der Studie? = Alle Teilnehmer, die sich beworben haben

• Wer sind die Untersuchungseinheiten? = Personen/Oberstufen Schülerinnen/Workshop interessiert

• Was ist das (wichtigste) interessierende Merkmal? (Wie könnte man das Merkmal in einer Befragung erfassen?) = Studienfachwahl, Vergleich in Prozentzahlen, Fachintention

• Warum werden die Schülerinnen und Schüler über ein Losverfahren ("randomisiert") in zwei Gruppen aufgeteilt?

= “um möglichst gleiche Gruppe zu erhalten”

• Was ist die Grundgesamtheit der Studie?

Schülerinnen und Schüler, die sich für einen Workshop interessieren

(-> Teilgruppe aller Studieninteressierten -> Teilgruppe aller OberstufenschülerInnen in Köln -> Teilgruppen aller OberstufenschülerInnen in De.)

• Wer sind die Untersuchungseinheiten? Teilnehmer und Nicht-Teilnehmer an den Workshops • Was ist das interessierende Merkmal?

Studienfachwahl (Für welche Studienfächer interessieren sie sich? ("choice set": Anzahl, Vielfalt, ... ) Haben Sie bereits ein konkretes Studienfach entschieden? ("entschlossen/unentschlossen") Für welches Studienfach möchten Sie sich einschreiben ("Fachintention")?

• WarumwerdendieSchülerinnenundSchülerübereinLosverfahren("randomisiert")inzweiGruppen aufgeteilt?

Um möglichst "gleiche" beiden Gruppen zu erhalten.

Ansonsten: Verzerrung möglich z.B bei first-come-first-serve

Mit welchen BEgriffen beschreibt man eine Datenmatrix?

Wer, Was und in welcher Einheit?

• Wer: Fall i

Oder auch: Untersuchungseinheit, Beobachtung

Das, worüber wir Aussagen machen wollen: z.B. Menschen, Länder, Tweets . . .

• Anzahl der Fälle: n

• Was: Variable X

Eigenschaft der Fälle, die sich über die Fälle unterscheidet: z.B. Bildungsabschluss, Einkommen, Alter, links/rechts, Bevölkerungsdichte . . .

• In welcher Einheit: a

z.B. Jahre, Euro, 0 - .. Jahre, Zustimmung von 0 bis 10, Menschen pro km2

• Welche Ausprägung: xi

Ausprägung der Variablen X für Person i.

Mit welchen BEgriffen beschreibt man eine Datenmatrix?

Fall, Variable, Ausprägung aka Wert

Abbildung:

• Fälle/Untersuchungseinheiten in den Zeilen (eine Zeile pro Untersuchungseinheit).

• Variablen in den Spalten angeordnet (typiscerweise eine Spalte pro Variable).

• Zellen enthalten die beobachteten Werte

Mit welchen BEgriffen beschreibt man eine Datenmatrix?

list Befehl

Abbildung.

Was ist das Skalenniveau einer Variable. und warum ist es wichtig?

Kodierung von Merkmalsuausprägungen

• Kodierung = Zuordnen von Zahlen zu verschiedenen Ergebnissen von Variablen, z.B.

Geschlecht: 1 = männlich, 2 = weiblich, 3 = divers, 4 = keine Antwort

• Wie zufrieden sind Sie aktuell mit der Arbeit der Regierung?

5= sehr zufrieden, 4= zufrieden, 3= teils/teils, 2= nicht zufrieden, 1= überhaupt nicht zufr.

• IQ-Test Ergebnis ___ [0 - 200]

• Wie viel verdienen Sie in Ihrem Hauptberuf? _ _ _ _ _ €

Was bedeuten diese Zahlen? (Was) können wir mit diesen Zahlen berechnen? z.B. das durchschnittliche Geschlecht?

Ist jemand, der sehr zufrieden ist mit der Regierung 5-mal zufriedener als jemand, der überhaupt nicht zufrieden ist?

• "Skalenniveau" = Art der Information, die durch die Kodierung in Zahlen geliefert wird

Was ist das Skalenniveau einer Variable. und warum ist es wichtig?

Nominal, Ordinal-, Intervall und Ratioskala

Abbildung

Was ist das Skalenniveau einer Variable. und warum ist es wichtig?

Skalenniveau und Datenauswertungen

• Skalenniveau ist entscheidend für die Frage

welche Aussagen möglich sein, z.B. gleich/verschieden, größer/kleiner

welche Rechenoperationen, z.B. addieren, multiplizieren, zulässig sind

Das brauchen wir, wenn wir zum Beispiel

• Merkmale von Individuen oder Gruppen vergleichen

("Westdeutsche weisen eine höhere Zustimmung auf als Ostdeutsche ")

• einen Durchschnitt berechnen ("Die durchschnittliche Arbeitszeit von Frauen ist geringer als die von Männern")

• Zusammenhänge bestimmen ("Je größer die Zufriedenheit mit der Regierung, desto eher wird ein starker Sozialstaat befürwortet")

Was ist das Skalenniveau einer Variable. und warum ist es wichtig?

Skalenniveau & Datenauswertungen Beispiele

Abbildung Tabelle:

Womit beginnt die Auswertung einer Varible?

Beschreibung/Deskription einer Variable

Alle Werte auflisten = keine gute Idee

• Daher: Komplexitätsreduktion mittels Kennziffern und Visualisierungen der Verteilung einer Variablen

—> Wie kann man wesentliche Gesichts- punkte einer Variablen und ihrer Verteilung knapp und einleuchtend verdeutlichen?

Bsp: Inwiefern stimmen die im ESS befragten Deutschen der folgenden Aussage zu?

Abbildung:

Womit beginnt die Auswertung einer Varible?

Beschreibung mittels Häufigkeitstabelle

Abbildungen:

Womit beginnt die Auswertung einer Varible?

Graphische Darstellung oftmals einfacher bzw. schneller zu verstehen als Tabelle!

Bso. Balkendiagramm

Abbildung:

Womit beginnt die Auswertung einer Varible?

Absolute Häufigkeiten vs. Prozent

• Absolute Häufigkeiten nur für einzelne Variablen sinnvoll

• Für den Vergleich von Verteilungen oftmals sinnvoller: relative Häufigkeit bzw. Prozente

Womit beginnt die Auswertung einer Varible?

Achtung: Fehlende Werte (“Missings”)

Abbildungen:

Mit Missings:

Womit beginnt die Auswertung einer Varible?

Variablen mit vielen Ausprägungen

• Variablen mit vielen Ausprägungen können nicht ohne Weiteres als Häufigkeitstabelle dargestellt werden —> Zusammenfassung in Klassen

ABER:

• Klassierung von Variablen bedeutet Informationsverlust

• Wahl der Klassengrenzen kann Ergebnisse beeinflussen und sollte begründet sein • Entscheidung:nach Ähnlichkeit der Ausprägungen

z.B. Soziologie/Sozialpsy., Politikwiss. --> Sozialwissenschaften; was ist mit MES?

• Entscheidung: gleiche Klassen breite oder Abgrenzung nach benötigter Genauigkeit?

• Entscheidung: beobachtete oder theoretische Minimal-und Maximalwerte?

Womit beginnt die Auswertung einer Varible?

Häufigkeitstabelle für Altersgruppen (4 Kategorien)

Abbildung:

Womit beginnt die Auswertung einer Varible?

Graphische Darstellung

Histogramm

Womit beginnt die Auswertung einer Varible?

Sozialwissenschaften: Beschreibung sozialer Sachverhalte

• Beschreibung setzt eine klare Definition und eine Entscheidung für eine Operationalisierung des Sachverhalts voraus

Beispiel, bei denen unterschiedliche Operationalisierungen möglich sind

• Einkommen: Brutto/Netto; Individual-/Haushaltseinkommen, mit/ohne Transferleistungen, mit/ohne Einkommen aus Vermögen, ...

• Armut: verschiedene Definitionen der Armutsgrenze,

siehe https://www.youtube.com/watch?v=tZx1PUU4h1w

• Arbeitslosigkeit: registrierte Arbeitslose, Arbeitssuchende (gemeldet, in der letzten Woche, ...), siehe https://www.youtube.com/watch?v=yGUH0p_muHw https://www.youtube.com/watch?v=5GWTN341nSY

—> Wer beschreibt was - und für welchen Zweck?

Tutorium zu Online Aufgaben

Modus = der häufigste Wert

Stata Eingabe

1. Möglichkeit: Tabelle anzeigen lassen und den häufigsten Wert suchen • tab variable

• 2. Möglichkeit: Werte der Tabelle nach Häufigkeit sortieren lassen tab variable, sort

Median bei Stata

Median = teilt die sortierten Fälle einer Variable in zwei gleich große Hälften

1. Möglichkeit:

Tabelle anzeigen lassen und Wert suchen, bei dem die kumulierte Häufigkeit von 50% überschritten wird

tab variable

2. Möglichkeit:

Durch den sum-Befehl das 50%-Perzentil anzeigen lassen

sum variable, detail

Recoding bei Stata

• recode variable (Regel 1)(Regel 2), gen (variable_new)

• 1. Beispiel: Alle Befragten unter 60 sollen den Wert 0 haben und alle ab 60 sollen den Wert 1 haben

recode agea (min/59=0) (60/max=1) (.=.), gen (agea_new)

• 2. Beispiel: Ausprägungen von wrclmch (Sorge vor dem Klimawandel) auf zwei Ausprägungen reduzieren (besorgt und nicht besorgt)

recode wrclmch(1 2 = 0) (3 4 5 = 1) (.=.), gen (sorgeklimaw)

• (.=.) bedeutet Missings bleiben Missings

Recoding bei Stata (2.Option)

Alternative: replace-Befehl

• Zunächst neue Variable generieren:

gen variable_new = variable_old

• Hier (1. Beispiel):

gen agea_new = age

replace agea_new = 0 if age <= 59

replace agea_new = 1 if age >= 60 & agea_new <=. Missings sind größer als 60, sollen aber nicht miteinbezogen werden

Rechenoperationen bei Stata

Abbildung:

Beitreten

Vorschau

Author

Julia M.

Informationen

Zuletzt geändert
vor 2 Jahren

Kurs melden