Zwei Mögliche Befehle
-Command-Feld = kann nicht "zurückgeholt" und nachgeprüft werden
-Do-files = ermöglicht es besser Fehler zu finden, Befehle anzupassen und die Analyse zu replizieren (Speichern: nur den Do-file!!)
Do-file
Datensatz
-”browse” =öffnet den Datenbrowser und zeigt alle Beobachtungen und Variablen
-”describe”= beschreibt den gesamten Datensatz inkl. aller Variablen (unübersichtlich)
-”describe, short” = beschreibt den Datensatzt in Kurzform
-”lookfor variable” = zeigt Variablen mit dem jeweiligen Suchstichwort im Namen an
-”codebook variable”
Tabulate- Befehle (“tab”)
-”tab variable”= zeigt Häufigkeitstabellen der Variable
-”tab variable, m” = zeigt Häufigkeitstabelle der Variable mit Missings
-Missings= gegenteil von “valide Prozente” bzw fehlende Werte (siehe Bild)
Zusammenfassende Befehle
-”summarize” / “sum”
-”hist internet_time, percent” = erstellt Histogramm mit Angabe von Prozentwerten der Variable
Weitere Stata-Befehle
Variable erschaffen- “generate”
-”gen” = 0 erschafft leere neue Variable
Recode-Befehl
-”recode variable”
Label
-”label variable Variablenname” = benennt die Variable
-”label define Variablenname_lbl” 0”..” 1”..” = erstellt label für die Ausprägungen der Variable
-”label value Variablenname variablenname_lbl” = verbindet Label mit Variable
-”numlabel Variablenname_lbl, add” = fügt zusätzlich ein numerisches Label hinzu
Bivariate Description
-”tab var1 var2” = erstellt Kreuztabellen von zwei Variablen (unabhängige Variable in der Regel in den Spalten)
-”tab var1 var2, chi2 col row” = Optionen zeigen chi2-Wert (inkl. Signifikanz), Spalten- und Zeilenprozente an
-”corr var1 var2” =zeigt Pearsons Korrelationskoeffizient von beiden gewünschten Variablen
-”scatter var1 var2” =zeigt einen Scatterplot der beiden Variablen (Siehe Grafik)
Konzeption einer empirischen Studie /Datenauswertung
-Grundgesamtheit (Population): Menge aller Untersuchungseinheiten, über die Aussagen getroffen werden sollen. Die Grundgesamtheit (GG) ist vor einer Untersuchung festzulegen.
-Untersuchungseinheiten/statistische Einheiten: Objekte, über die Daten erhoben werdn (bsp: Individuen, Nationen, Organisationen, Städte)
-Merkmale: interessiernde Eigenschaften der Untersuchungseinheiten (bsp: Geschlecht, Alter, Einkommen)
-Stichprobe: Teilmenge der Grundgesamtheit
Mit welchen Begriffen beschreibt man eine Datenmatrix?
• Wer: Fall i
Oder auch: Untersuchungseinheit, Beobachtung
Das, worüber wir Aussagen machen wollen: z.B. Menschen, Länder, Tweets . . .
• Anzahl der Fälle: n
• Was: Variable X
Eigenschaft der Fälle, die sich über die Fälle unterscheidet: z.B. Bildungsabschluss, Einkommen, Alter, links/rechts, Bevölkerungsdichte . . .
• In welcher Einheit: a
z.B. Jahre, Euro, 0 - .. Jahre, Zustimmung von 0 bis 10, Menschen pro km2
• Welche Ausprägung: xi
Ausprägung der Variablen X für Person i.
Das Skalenniveau einer Variable
• Kodierung = Zuordnen von Zahlen zu verschiedenen Ergebnissen von Variablen, z.B.
• Geschlecht: 1 = männlich, 2 = weiblich, 3 = divers, 4 = keine Antwort
-Skalenniveau= Art der Information, die durch die Kodierung in Zahlen geliefert wird
-Skalenniveau ist entscheidend für Frage: welche Aussage möglich sein/welche Rechenoperationen zulässig sind. Wir brauchen diese zb wenn wir Merkmale von Individuen od Gruppen vergleichen; einen Durchschnitt berechnen; Zusammenhänge bestimmen
Womit beginnt die Auswertung einer Variablen?
-Beschreibung/ Deskription
-Beschreibung mittels Häufigkeitstabelle (Siehe Bild)
-Häufigkeitstabelle: Listet alle Kategorien einer Variable und die Anzahl der Fälle pro Kategorie auf (absolute Häufigkeit, relative Häufigkeit/Prozent, ggf. valide Prozent, kumulierte Prozent)
-Verteilung:Die Verteilung einer Variable besteht aus deren Werten und (relativen)Häufigkeiten
-absolute Häufigkeiten: nur für einzelne Variablen sinnvoll; für den Vergleich von Verteilungen oftmals sinnvoller -> relative Häufigkeit bzw Prozente
Variablen mit vielen Ausprägungen
• Variablen mit vielen Ausprägungen können nicht ohne Weiteres als Häufigkeitstabelle dargestellt werden à Zusammenfassung in Klassen
ABER:
• Klassierung von Variablen bedeutet Informationsverlust
• Wahl der Klassengrenzen kann Ergebnisse beeinflussen und sollte begründet sein • Entscheidung:nachÄhnlichkeitderAusprägungen
z.B. Soziologie/Sozialpsy., Politikwiss. --> Sozialwissenschaften; was ist mit MES?
•Entscheidung:gleicheKlassenbreiteoderAbgrenzungnachbenötigterGenauigkeit? • Entscheidung:beobachteteodertheoretischeMinimal-undMaximalwerte?
Häufigkeitstabellen zur Auswertung einer Variablen
absolute Häufigkeit (freq)
Anteil (Percent)
Kumulierter Anteil (Cum)
Missings = fehlende Werte bsp nicht-Stimmen “weiß nicht” die mit einberechnet werden!
Last changed6 months ago