Wozu brauchen wir Statistik in den Sozialwissenschaften?
—> Statistik als Hilfsmittel für die Generierung aozialwissenschaftlichen, gesellschaftlich relevanten Wissens
Wie findet man wissenschaftliche Antworten auf Forschungsfragen?
Das wichtigste ist…
Abbildung:
Sozialwissenschafter:innen generieren und nutzen statistische Ergebnisse, um auf Grundlage von Daten Schlussfolgerungen für gesellschaftlich relevante Probleme zu ziehen
Welche unterschiedlichen Perspektiven gibt es in der Datenauswertung?/ Fragen die mit Hilfe von Statistik beantwortet werden
1. Deskription: Was beobachten wir in den vorliegenden Daten?
2. Zusammenhänge: Was steht in den Daten in Beziehung miteinander?
3. Inferenz: Wie können wir auf Basis vorliegender Daten verallgemeinern?
Im fortgeschrittenen Studium
4. Kausalität: Was sind die Ursachen?
5. Vorhersagen: Was wird in Zukunft der Fall sein?
Beschreibende Statistik vs. Inferenzstatistik
Inferenzstatistik
Tutorium 1: Einführung
ESS (European Social Survey) - Datensatz
• Europaweite Erhebung (mehr als 30 Länder)
• Seit 2002, alle zwei Jahre
• Personen im Alter von +15, die in Privathaushalten wohnen
• Zufallsstichprobe (über Register der Einwohnermeldeämter)
• Computergestützte persönliche Befragung (CAPI) mit vollstrukturiertem Fragebogen
• Wir nutzen die gekürzte Fassung der 10.Runde des ESS
Stata Befehle
Working Directory erstellen und nutzen (Datenpfad auswählen)
global wdir “Mypath”
Mypath: Datenpfad
• Globals sagen Stata für das gesamte Do-File, wo sie etwas speichern oder laden sollen
• In Stata kann man Pfade zu Unterordner “global“ speichern • Sparen Zeit
•global daten "$wdir/0_daten"
•global do-files "$wdir/1_do-files"
Speicherstruktur verwenden
•use "$daten/ESS10SC_short.dta", clear
•save “$daten/my_data.dta”, replace
•save “$DoFile/my_dofile.do”, replace
Do File Allgemein Strukturierung
• Drei Farben helfen bei der Orientierung:
• Blau: Befehle (lassen das Programm rechnen, Grafiken erstellen...)
• Rot: Titel/Benennung (in "..." eingefasst, beschriften Variablen, Grafiken...)
• Grün: Kommentare (für Titel und Erklärung eigener Arbeitsschritte)
• Es gibt mehrere Möglichkeiten eure Arbeit zu kommentieren
• EinzeiligeKommentare:*Text
• MehrzeiligeKommentare:/*Text*/
• Hinter einem Befehl: // Text
Datensatz kennenlernen / Befehle Stata
• browse
= öffnet den Datenbrowser und zeigt alle Beobachtungen und Variablen
• describe
= beschreibt den gesamten Datensatz, inkl. aller Variablen (unübersichtlich)
•describe, short
= beschreibt den Datensatz in Kurzform
•lookfor variable
= zeigt Variablen mit dem jeweiligen Suchstichwort im Namen an
Tabulate Befehl (kurz tab)
• tab variable zeigt Häufigkeitstabelle der Variable
• tab variable, m zeigt Häufigkeitstabelle der Variable mit Missings
Missings
Abbildung
Summrarize Variable (kurz “sum”)
hist variable, percent
erstellt Histogramm mit Angabe von Prozentwerten der Variable
Ganz genaue Beschreibung:
sum var, detail
Weitere Angaben!
Variable erschaffen - “generate”
• Generate variable = 0 erschafft “leere“ neue Variable
• Bsp: generate Hallo = 0 variable “Hallo“ die für alle Befragten den Wert 0 hat
• Generate kann mit “gen“ abgekürzt werden
Recode Befehl
• recode variable (Regel 1)(Regel 2), gen (variable_new)
• 1. Beispiel: Alle Befragten unter 60 sollen den Wert 0 haben und alle ab 60 sollen den Wert 1 haben
recode age (min/59=0) (60/max=1) (.=.), gen (age_new)
• 2. Beispiel: Ausprägungen von metrop soll nur noch anzeigen ob eine Person in einer Großstadt lebt oder nicht
recode metrop (0/1=0) (2/3=1) (.=.), gen (bigcity)
• (.=.) bedeutet Missings bleiben Missings
• Falls ein Fehler passiert ist, Möglichkeit über drop variable_new neue Variable zu löschen
Label hinzufügen
• label variable Variablenname "..." • BenenntdieVariable
• label define Variablenname_lbl 0"..." 1"..." • Erstellt Label für die Ausprägungen der Variable
• label value Variablenname Variablenname_lbl • VerbindetLabelmitVariable
• numlabel Variablenname_lbl, add • Fügt zusätzlich ein numerisches Label hinzu
Bivariate Deskription
tav var1 var2
• Erstellt Kreuztabelle von zwei Variablen (unabhängige Variable in der Regel in den Spalten)
• tab var1 var2 , chi2 col row
• Optionen zeigen chi2-Wert (inkl. Signifikanz), Spalten- und Zeilenprozente an
Corr var1 var2
Scatter var1 var2
zeigt Pearsons Korrelationskoeffizient von beiden gewünschten Variablen
zeigt einen Scatterplot der beiden Variablen
Zuletzt geändertvor 5 Monaten