Einführung in die Statistik für Sozialwissenschaft

by Tim S.

Mit welchen Befehlen lerne ich eine Variable kennen/kann mir grundlegende Informationen geben lassen?

-describe

o beschreibt den gesamten Datensatz, inkl. aller Variablen (unübersichtlich)

-describe, short

o beschreibt den Datensatz in Kurzform

-lookfor variable

o zeigt Variablen mit dem jeweiligen Suchstichwort im Namen an

Wie kann ich mir die Häufigkeit einer Variable anzeigen lassen? Wie ihre Ausfälle?

tabulate/tab variable zeigt Häufigkeitstabelle der Variable
tabulate/tab variable, m zeigt Häufigkeitstabelle der Variable mit Missings

o m = missing value – Person hat aus welchen Gründen auch immer nicht auf Frage geantwortet, bzw. Antwort ist nicht verfügbar

Wie kann ich Variablen labeln?

-Label hinzufügen

o label variable Variablenname "…"

§ Benennt die Variable

o label define Variablenname_lbl 0"…" 1"…"

§ Erstellt Label für die Ausprägungen der Variable

o label value Variablenname Variablenname_lbl

§ Verbindet Label mit Variable

o numlabel Variablenname_lbl, add

§ Fügt zusätzlich ein numerisches Label hinzu

Wie kann ich zwei Variablen gleichzeitig beschreiben?

-Bivariate Deskription (d.h. Gegenüberstellung)

o tab var1 var2

§ Erstellt Kreuztabelle von zwei Variablen (unabhängige Variable in der Regel in den Spalten)

Wie kann ich mir den Modus anzeigen lassen?

o Möglichkeit: Werte der Tabelle nach Häufigkeit sortieren lassen:

tab variable, sort

Wie kann ich mir den Median anzeigen lassen?

o Durch den sum-Befehl das 50%-Perzentil anzeigen lassen

sum variable, detail

Was sind die drei Optionen um bei Stata Variablen zu recodieren?

o 1. Option

§ recode variable (Regel 1)(Regel 2), gen (variable_new)

§ 1. Beispiel: Alle Befragten unter 60 sollen den Wert 0 haben und alle ab 60 sollen den Wert 1 haben

recode agea (min/59=0) (60/max=1) (.=.), gen (agea_new) (==> Variable mit zwei neuen Regeln und neuem Namen rekodiert)

§ 2. Beispiel: Ausprägungen von wrclmch (Sorge vor dem Klimawandel) auf zwei Ausprägungen reduzieren (besorgt und nicht besorgt)

recode wrclmch(1 2 = 0) (3 4 5 = 1) (.=.), gen (sorgeklimaw)

§ (.=.) bedeutet Missings bleiben Missings

o 2. Option

§ Zunächst neue Variable generieren:

gen variable_new = variable_old

§ Hier (1. Beispiel):

gen agea_new = age

replace agea_new = 0 if age <= 59

replace agea_new = 1 if age >= 60 & agea_new <= (Missings sind größer als 60, sollen aber nicht miteinbezogen werden)

o 3. Option

§ Leere Variable erschaffen : gen age_new = 0

§ Variable mit Werten füllen via replace

replace age_new = 0 if age <= 59

replace age_new = 1 if age 60 & agea_new <=.

Was sind Rechenoperationen bei Stata?

Wie lautet der Stata-Befehl um Varianz und Standardabweichung herauszufinden?

==> Varianz und Standardabweichung bei Stata – tabstat variable, s (mean, var, sd)

Wie finde ich bei Stata die p-Quantile heraus - und dann auch die Spannweite (rot umkreist) und die Range?

tabstat variable, s (mean, median, min, max, range)

Wie finde ich bei Stata den Variationskoeffizienten heraus?

Wie lasse ich mir eine Kreuztabelle mit Spaltenprozenten anzeigen? Wie mit Zeilenprozenten? Wie mit beidem und wie übersichtlich?

-Tab var1 var2, col nokey

-Tab var1 var2, row nokey

==> bei Stata: Y in Zeilen und X in Spalten – tab Y X

==>Spalten- und Zeilenprozent anzeigen lassen: tab var1 var 2, row col

==> Beides übersichtlicher ohne Häufigkeiten: tab var1 var2, nofreq row col

Wie kann ich mir Cramers V und Chi2 bei Stata anzeigen lassen?

tab var1 var2, freq col chi V nokey

Wie lasse ich mir in Stata die Korrelation zweier Variablen anzeigen? Wie eine Liste der Zusammenhänge mehrerer Variablen?

-Korrelation in Stata: correlate/cor var1 var 2

-Pwcorr varlist

Wie lasse ich mir einen Regressionskoeffizienten erstellen?

-Reg Y X

-Reg Y X, beta (für den standardisierten Regressionskoeffizienten - Wenn das Alter um eine Standardabweichung steigt sinkt die Zeit im Internet im Mittel um 0.45 Standardabweichungen von internet_time)

Was kann ich aus folgenden STATA-Ergebnissen ablesen? Wie ist R-squared zu interpretieren?

-Wenn X = 0, dann sind es 545 Internetminuten (unrealistisch)

-Alter macht 20,5% der Standardvarianz der Internetzeit aus

-Mit jeder hinzukommenden Alterseinheit steigt (sinkt) die Internetzeit um -5.686

-R-squared wäre 1 = 100% / 0,105 = 10,5% / 0,1125 = 11,25%

Wofür nutze ich den Befehl keep?

Manchmal brauchen wir für Analysen nur ganz bestimmte Teilnehmer oder einzelne Informationen der Befragten. Dann können wir mittels keep Stata erklären, welche Werte alles behalten werden sollen (VORSICHT Änderung niemals im Datensatz speichern!)

o keep Varlist (Behalte nur diese Liste von Variablen)

o keep if X (Beispiel: keep if cntry == “DE“ behält nur deutsche Befragte)

o keep if voted == 1 (behält nur diejenigen die Gewählt haben)

==> verändert Werte – darum auch hier nie speichern

Wie kann ich mir bei Stata ein Konfidenzintervall eines Kennwertes einer Variable anzeigen lassen? Wie kann ich dies bspw. bei der Variable female auf Männer oder Frauen beschränken?

Wie lasse ich mir Regressionskoeffizienten für Gruppen anzeigen?

Wie kann ich Stata einen Hypothesentest ausführen lassen? Wie lasse ich dies für Prozentanteile machen?

ttest (und dann Bedingungen eingeben)

prtest (und dann Bedingungen eingeben)

Beispiel für Stata-Output: Arbeitszeit von Männern.

Beispiel für Stata-Output Internetzeit

-H0: Frauen sind pro Tag durchschnittlich 240 Minuten oder weniger im Internet

-H1: Frauen sind pro Tag durchschnittlich mehr als 240 Minuten im Internet

Beispiel für Stata-Output: Frauen sind 45 Jahre oder jünger.

Interpretieren Sie den Ausschnitt dieses Regressionsanalyse zwischen der Regierungszufriedenheit und dem Alter.

Wie kann ich bivariate bis multiple Regressionen bei Stata erfassen? Was erkenne ich anhand dieser Outputs?

-Regression bei Stata

o Bivariate Regression:

reg Y X

reg Y X, beta

o für den standardisierten Regressionskoeffizienten

o Multiple Regression:

reg Y X1 X2 ... Xk

==> Mit Null Bildungsjahren arbeitet man 35.75h in der Woche – mit jedem Bildungsjahr werden es 0.13 Stunden mehr

==> Die Variable Bildungsjahre macht 0.14% der Varianz der Arbeitszeit aus

==> Mit einer Wahrscheinlichkeit von 95% liegt der wahre Wert der Arbeitszeit zwischen 34.95 und 36.55 Arbeitsstunden pro Woche

==> Mit einer Wahrscheinlichkeit von 95% liegt der wahre Wert des Regressionskoeffizienten zwischen 0.08 und 0.19

==> Nur 4.83% aller Stichproben würden Wert außerhalb dieses Schemas aufweisen

==> 20.88% der Varianz kann mit den vier Variablen erklärt werden

==> 2.92 ist die Konstante wenn alle anderen Variablen den Wert Null aufweisen

Join Course

Preview

Author

Tim S.

Information

Last changed
2 years ago

Report course

STATA-Befehle