-describe
o beschreibt den gesamten Datensatz, inkl. aller Variablen (unübersichtlich)
-describe, short
o beschreibt den Datensatz in Kurzform
-lookfor variable
o zeigt Variablen mit dem jeweiligen Suchstichwort im Namen an
tabulate/tab variable zeigt Häufigkeitstabelle der Variable
tabulate/tab variable, m zeigt Häufigkeitstabelle der Variable mit Missings
o m = missing value – Person hat aus welchen Gründen auch immer nicht auf Frage geantwortet, bzw. Antwort ist nicht verfügbar
-Label hinzufügen
o label variable Variablenname "…"
§ Benennt die Variable
o label define Variablenname_lbl 0"…" 1"…"
§ Erstellt Label für die Ausprägungen der Variable
o label value Variablenname Variablenname_lbl
§ Verbindet Label mit Variable
o numlabel Variablenname_lbl, add
§ Fügt zusätzlich ein numerisches Label hinzu
-Bivariate Deskription (d.h. Gegenüberstellung)
o tab var1 var2
§ Erstellt Kreuztabelle von zwei Variablen (unabhängige Variable in der Regel in den Spalten)
o Möglichkeit: Werte der Tabelle nach Häufigkeit sortieren lassen:
tab variable, sort
o Durch den sum-Befehl das 50%-Perzentil anzeigen lassen
sum variable, detail
o 1. Option
§ recode variable (Regel 1)(Regel 2), gen (variable_new)
§ 1. Beispiel: Alle Befragten unter 60 sollen den Wert 0 haben und alle ab 60 sollen den Wert 1 haben
recode agea (min/59=0) (60/max=1) (.=.), gen (agea_new) (==> Variable mit zwei neuen Regeln und neuem Namen rekodiert)
§ 2. Beispiel: Ausprägungen von wrclmch (Sorge vor dem Klimawandel) auf zwei Ausprägungen reduzieren (besorgt und nicht besorgt)
recode wrclmch(1 2 = 0) (3 4 5 = 1) (.=.), gen (sorgeklimaw)
§ (.=.) bedeutet Missings bleiben Missings
o 2. Option
§ Zunächst neue Variable generieren:
gen variable_new = variable_old
§ Hier (1. Beispiel):
gen agea_new = age
replace agea_new = 0 if age <= 59
replace agea_new = 1 if age >= 60 & agea_new <= (Missings sind größer als 60, sollen aber nicht miteinbezogen werden)
o 3. Option
§ Leere Variable erschaffen : gen age_new = 0
§ Variable mit Werten füllen via replace
replace age_new = 0 if age <= 59
replace age_new = 1 if age 60 & agea_new <=.
==> Varianz und Standardabweichung bei Stata – tabstat variable, s (mean, var, sd)
tabstat variable, s (mean, median, min, max, range)
-Tab var1 var2, col nokey
-Tab var1 var2, row nokey
==> bei Stata: Y in Zeilen und X in Spalten – tab Y X
==>Spalten- und Zeilenprozent anzeigen lassen: tab var1 var 2, row col
==> Beides übersichtlicher ohne Häufigkeiten: tab var1 var2, nofreq row col
tab var1 var2, freq col chi V nokey
-Korrelation in Stata: correlate/cor var1 var 2
-Pwcorr varlist
-Reg Y X
-Reg Y X, beta (für den standardisierten Regressionskoeffizienten - Wenn das Alter um eine Standardabweichung steigt sinkt die Zeit im Internet im Mittel um 0.45 Standardabweichungen von internet_time)
-Wenn X = 0, dann sind es 545 Internetminuten (unrealistisch)
-Alter macht 20,5% der Standardvarianz der Internetzeit aus
-Mit jeder hinzukommenden Alterseinheit steigt (sinkt) die Internetzeit um -5.686
-R-squared wäre 1 = 100% / 0,105 = 10,5% / 0,1125 = 11,25%
Manchmal brauchen wir für Analysen nur ganz bestimmte Teilnehmer oder einzelne Informationen der Befragten. Dann können wir mittels keep Stata erklären, welche Werte alles behalten werden sollen (VORSICHT Änderung niemals im Datensatz speichern!)
o keep Varlist (Behalte nur diese Liste von Variablen)
o keep if X (Beispiel: keep if cntry == “DE“ behält nur deutsche Befragte)
o keep if voted == 1 (behält nur diejenigen die Gewählt haben)
==> verändert Werte – darum auch hier nie speichern
ttest (und dann Bedingungen eingeben)
prtest (und dann Bedingungen eingeben)
-H0: Frauen sind pro Tag durchschnittlich 240 Minuten oder weniger im Internet
-H1: Frauen sind pro Tag durchschnittlich mehr als 240 Minuten im Internet
-Regression bei Stata
o Bivariate Regression:
reg Y X
reg Y X, beta
o für den standardisierten Regressionskoeffizienten
o Multiple Regression:
reg Y X1 X2 ... Xk
==> Mit Null Bildungsjahren arbeitet man 35.75h in der Woche – mit jedem Bildungsjahr werden es 0.13 Stunden mehr
==> Die Variable Bildungsjahre macht 0.14% der Varianz der Arbeitszeit aus
==> Mit einer Wahrscheinlichkeit von 95% liegt der wahre Wert der Arbeitszeit zwischen 34.95 und 36.55 Arbeitsstunden pro Woche
==> Mit einer Wahrscheinlichkeit von 95% liegt der wahre Wert des Regressionskoeffizienten zwischen 0.08 und 0.19
==> Nur 4.83% aller Stichproben würden Wert außerhalb dieses Schemas aufweisen
==> 20.88% der Varianz kann mit den vier Variablen erklärt werden
==> 2.92 ist die Konstante wenn alle anderen Variablen den Wert Null aufweisen
Last changed5 months ago