Beobachtung
Observation
entries
Sind die Zahlen der Zeilen in einer Datenmatix
Variablen
columns
Anzahl der Spalten
attach()
Der Befehl attach(wage1) bewirkt, dass der Datensatz wage1 in den Suchpfad von R aufgenommen wird.
attach(wage1)
wage1
Dies bedeutet, dass du direkt auf die Spalten von wage1 zugreifen kannst, ohne den Datensatznamen explizit angeben zu müssen.
hist()
Histogramm
Mit einem Histogramm kannst du erkennen, wie die Daten verteilt sind, z. B. ob sie normalverteilt sind, Schiefe haben oder multimodal sind (mehrere Peaks)
boxplot()
Box:
Die Box repräsentiert die Interquartilsspanne (IQR), also den Bereich, der die mittleren 50 % der Daten abdeckt.
Der untere Rand der Box zeigt das erste Quartil (Q1) (25. Perzentil) an.
Der obere Rand der Box zeigt das dritte Quartil (Q3) (75. Perzentil) an.
Median:
Die mittlere Linie in der Box ist der Median, der 50. Perzentilwert, also der Wert, bei dem 50 % der Daten kleiner und 50 % der Daten größer sind.
Whiskers (Antennen):
Die Linien, die von der Box nach oben und unten führen, sind die Whiskers. Sie erstrecken sich normalerweise bis zu 1,5-mal der Länge des IQR (Interquartilsabstand).
Sie zeigen den Bereich, in dem die meisten der restlichen Datenpunkte (außer Ausreißern) liegen.
Ausreißer:
Punkte außerhalb der Whiskers sind potenzielle Ausreißer, also Datenpunkte, die ungewöhnlich weit von den übrigen Werten entfernt sind. Diese werden im Diagramm als einzelne Kreise dargestellt.
Aufbau einer Boxplot Beschreibung
1-6 Schritte
Oberservationen in der Box (50%)
Median = fetter Strich in der Mitte der Box
Spannweite = Maximum - Minimum
Antennen: Besonderheiten z.B. Abgeschnitten. Berechnung: IQA=Q3-Q1
Unterer Wisker: Q1-(1,5*IQR)
Oberer Wisker: Q3+(1,5*IQR)
Interquatilsabstand (IQA)
Ausreißer (oben, unten)
gf_bar()
Erstellt ein Balkendiagramm, das die Verteilung einer Variablen zeigt, wobei die Höhe jedes Balkens die Anzahl der Beobachtungen in jeder Kategorie von der gewählten Variable darstellt.
Beispiel: gf_bar(~educ)
plot()
x-Achse und y-Achse
Streudiagramm
Erstellt ein Streudiagramm, die Beziehung zwischen zwei numerischen Variablen zeigt. Es hilft zu visualisieren, ob es einen Zusammenhang oder eine Korrelation zwischen diesen beiden Variablen gibt.
Beispiel plot(wage,educ)
Merken an welcher Position welche Variable steht
x-Achse: Unabhängige Variable (manipulierte oder vorgegebene Größe).
y-Achse: Abhängige Variable (Größe, die als Reaktion auf die unabhängige Variable gemessen wird). Reaktion auf x-Achse
Du kannst dir merken, dass die x-Achse in einem Diagramm immer den Ursprung (0) darstellt und der Auslöser für Veränderungen ist. Die y-Achse zeigt dann das Ergebnis oder die Reaktion auf diese Veränderung
cor()
Dies ist die Funktion in R, die die Korrelationskoeffizienten zwischen zwei Variablen berechnet
Beipsiel: cor(educ,wage)
Die Korrelation misst den linearen Zusammenhang zwischen zwei Variablen und ergibt einen Wert zwischen -1 und +1:
0-0,4: schwach posiziver Zusammenhang
+1: starke positive Korrelation – Wenn educ zunimmt, nimmt auch wage proportional zu.
educ
wage
0-(-0,4):schwacher negativer Zusammenhang
-1: starke negative Korrelation – Wenn educ zunimmt, nimmt wage proportional ab.
0: Keine lineare Korrelation – Es gibt keinen linearen Zusammenhang zwischen den beiden Variablen.
Hypothesen
Sind Vorhersagen (typischerweise durch ein Modell erzeugt), die mit Daten getestet werden können.
Eine Hypothese ist eine vermutete Erklärung oder eine Vorhersage über einen Zusammenhang zwischen Variablen, die getestet werden kann. Sie dient als Ausgangspunkt für wissenschaftliche Untersuchungen und Experimente. Hypothesen sind grundlegende Bestandteile der wissenschaftlichen Methode und ermöglichen es Forschern, Annahmen systematisch zu überprüfen.
Testbarkeit: Eine Hypothese muss so formuliert sein, dass sie empirisch überprüft werden kann. Sie muss messbare oder beobachtbare Größen enthalten.
Falsifizierbarkeit: Eine Hypothese muss widerlegbar sein. Es muss möglich sein, durch Experimente oder Beobachtungen zu zeigen, dass die Hypothese falsch ist, falls sie es ist.
Spezifität: Eine Hypothese sollte präzise formuliert sein, sodass klar ist, welche Beziehung zwischen den Variablen erwartet wird.
Nullhypothese (H₀):
Die Nullhypothese ist eine Aussage, die besagt, dass es keinen Effekt oder keinen Unterschied zwischen den untersuchten Variablen gibt. Sie stellt den Standard dar, der widerlegt werden muss.
Beispiel: „Es gibt keinen Zusammenhang zwischen der Anzahl der Bildungsjahre und dem Lohn.“
Alternativhypothese (H₁):
Die Alternativhypothese ist die Gegenaussage zur Nullhypothese und behauptet, dass es einen Effekt oder einen Zusammenhang gibt.
Beispiel: „Es gibt einen positiven Zusammenhang zwischen der Anzahl der Bildungsjahre und dem Lohn.“
Für die Klausur:
H_0: beta_1 =0:
H_A: beta_1 ungleich 0
H_A: beta_2 ungleich 0
tally(~)
Der Befehl tally(~) in R wird hauptsächlich verwendet, um die Häufigkeit von Werten in einer Variablen oder den Anzahl der Zeilen in einem Datensatz zu zählen.
Objektivität
Gütekriterien
Forscher:in muss unabhängig sein
Keine subjekiven Analysen
Ein Messinstrument ist objektiv, wenn die Ergebnisse unabhängig vom Forscher oder Anwender sind. Das bedeutet, dass verschiedene Personen zum selben Ergebnis kommen sollten, wenn sie dasselbe Instrument benutzen. Ein Beispiel für Objektivität ist ein standardisierter Test, der unabhängig davon, wer ihn durchführt, zu denselben Ergebnissen führt.
Reliabilität (Zuverlässigkeit):
Geeignetes Messinstrument
Replikation muss möglich sein
Reliabilität bedeutet, dass ein Messinstrument bei wiederholter Anwendung unter gleichen Bedingungen konsistente Ergebnisse liefert. Ein reliables Instrument misst verlässlich und genau. Ein Beispiel wäre eine Waage, die jedes Mal dasselbe Gewicht anzeigt, wenn dieselbe Person sie benutzt.
Interne Validität
Kontrollierte Rahmenbedingungen (z.B. Laborexperiment)
Externe Validität:
Gelten die Ergebnisse auch in einem anderen Land bzw. außerhalb des Labors
Skalenniveaus
Nominalskala: Niedriges Skalenniveau, Dummy-Variable
Ordinalskala: Rangfolge, Schulnote
Intervalskala: Größe der Unterschiede einer Rangfolge ist messbar, IQ
Nominalskala
Beipiele
Niedriges Skalenniveau
Dummy-Variable
Beispiel:
Nominalskala (keine Reihenfolge, nur Kategorisierung):
Geschlecht: männlich, weiblich, divers
Augenfarbe: blau, grün, braun
Wohnort: Berlin, Hamburg, München
Blutgruppe: A, B, AB, 0
Wichtig: Die Werte haben keine Rangfolge, sie sind lediglich verschiedene Kategorien.
Ordinalskala
Rangfolge
Schulnoten
Ordinalskala (Reihenfolge vorhanden, aber Abstände nicht gleichmäßig):
Schulnoten: 1, 2, 3, 4, 5, 6
Rangordnung in einem Wettbewerb: 1. Platz, 2. Platz, 3. Platz
Kundenzufriedenheit: sehr unzufrieden, unzufrieden, neutral, zufrieden, sehr zufrieden
Schmerzskala: kein Schmerz, leichter Schmerz, mittlerer Schmerz, starker Schmerz
Wichtig: Es gibt eine Rangfolge, aber die Abstände zwischen den Werten sind nicht gleichmäßig.
Intervallskala
Beispiele
Größe der Unterschiede einer Rangfolge ist messbar
IQ
Intervallskala (Gleiche Abstände, kein absoluter Nullpunkt):
Temperatur in Celsius: 0 °C, 10 °C, 20 °C (0 °C ist nicht der absolute Nullpunkt)
Kalenderjahre: 1990, 2000, 2010
IQ-Wert: z.B. 85, 100, 115
Wichtig: Die Abstände zwischen den Werten sind gleich, aber es gibt keinen absoluten Nullpunkt (z.B. ist 0 °C nicht "keine Temperatur").
Mean und Median
Ausreißer
Mean: Durchschnitt aller Werte, empfindlich gegenüber Ausreißern.
Median: Mittlerer Wert in einem geordneten Datensatz, robuster gegenüber Ausreißern.
cov(x, y)
Beipspiel: cov(educ, wage) = 4.150864
Positive Kovarianz: Beide Variablen steigen oder sinken gemeinsam.
Negative Kovarianz: Eine Variable steigt, während die andere sinkt.
Kovarianz nahe 0: Kein linearer Zusammenhang.
Wenn die Kovarianz positiv ist, bedeutet das, dass höhere Werte von educ (Bildung) mit höheren Werten von wage (Lohn) assoziiert sind. Mit anderen Worten, wenn mehr Bildung typischerweise mit einem höheren Lohn einhergeht, ist die Kovarianz positiv.
Wenn die Kovarianz negativ ist, bedeutet das, dass höhere Werte von educ (Bildung) mit niedrigeren Werten von wage (Lohn) assoziiert sind. Das wäre ein ungewöhnliches Ergebnis und würde bedeuten, dass mehr Bildung tendenziell mit einem niedrigeren Lohn verbunden ist.
Wenn die Kovarianz nahe 0 liegt, gibt es keinen linearen Zusammenhang zwischen den beiden Variablen.
Lagemaße
5 Werte
Lagemaße beschreiben die zentrale Tendenz eines Datensatzes:
Min und Max
Arithmetisches Mittel = Mittelwert (Mean):
Durchschnitt aller Werte. (2+4+6+8+100)/5=24
Median: Mittlerer Wert im geordneten Datensatz.
2, 4, 6, 8, 100 = 6
Modus: Am häufigsten vorkommender Wert.
Quantile: Q1 und Q3
Streuungsmaße
4 Werte
Spannweite: Differenz zwischen Maximum und Minimum, einfach, aber anfällig für Ausreißer.
Interquartilsabstand (IQR): Streuung der mittleren 50 % der Daten, robust gegenüber Ausreißern.
Varianz: Mittlere quadratische Abweichung vom Mittelwert, empfindlich gegenüber Ausreißern.
Standardabweichung: Quadratwurzel der Varianz, leicht interpretierbare Streuung.
var(x)
Was ist die Varianz und was sagen die Werte aus?
Wie erfolgt die Berechnung?
Beispiel: var(total_bill) oder var(tip)
Was ist die Varianz
Streuungsmaß ohne Maßeinheit
Ist immer positiv
Streuung um den Mittelwert (Mean)
Berechnung:
Jeder Wert der Observationen wird vom Mittelwert der Observationen abgezogen, dann quadriert, summiert und durch die Zahl der Observationen dividiert
Was sagen die Werte aus?
Hohe Varianz → Große Streuung der Daten (große Unterschiede zwischen den Werten).
Niedrige Varianz → Geringe Streuung der Daten (Werte sind ähnlich).
Varianz von 0 → Alle Werte sind identisch.
var(total_bill) [1] 79.25294
var(tip) [1] 1.91445
sd(x)
Was ist die Standardabweichung?
Was ist die Standardabweichung
Streuungsmaß mit Maßeinheit
Was sagt der Multiple R-squared aus?
Beispiel: Multiple R-squared: 0.4566
Dies ist der Bestimmtheitsmaß (R²-Wert). Es zeigt, dass etwa 45.66% der Varianz im Trinkgeld durch die Gesamtrechnung erklärt wird. Dies deutet auf einen moderaten Zusammenhang hin.
0.7528: Der R²-Wert zeigt an, dass etwa 75.28 % der Varianz des Kraftstoffverbrauchs (mpg) durch das Gewicht des Autos (wt) erklärt werden kann. Das ist ein relativ hoher Wert und deutet darauf hin, dass das Modell den Zusammenhang gut beschreibt.
mpg
wt
Bedeutung: beta_1_dach
Positiv: Direkter, positiver Zusammenhang
Negativ: Inverser, negativer Zusammenhang
Null: Kein Zusammenhang
Was ist der Unterschied zwischen Kovarianz und Korrelationskoeffizient?
Kovarianz: Art des Zusammenhangs (positiv, negativ)
Korrelationskoeffizient: Stärke des Zusammenhangs (cor liegt zwischen -1 und +1)
Korrelationskoeffizient = Standardisierte Kovarianz
Was ist der Unterschied zwischen Kovarianz und Regressionskoeffizient?
Regressionskoeffizent ist Cov(x,y)/Var(x). Damit ist die Kovarianz ein Element des Regressionskoeffizienten
Kovarianz bestimmt das Vorzeichen des Regressionskoeffizienten
Was ist der Unterschied zwischen Korrelationskoeffizient und Regressionskoeffizient?
Regressionskoeffizient ist Cov(x,y)/Var(x) ist die Steigung der Regressionsgerade und quantifiziert damit den Zusammenhang (eine Einheit mehr x führt mehr oder weniger Einheiten y - funktionaler Zusammenhang)
Korrelationskoeffizient = standardisierte Kovarianz = Cov(x,y)/Produkt der Wurzeln aus der Varianz von x und der Varianz von y
Was bedeutet Kausaler Effekt?
Kausaler Effekt bedeutet, dass die Veränderung der unabhängigen Variable (total_bill) direkt eine Veränderung in der abhängigen Variable (tip) verursacht. In diesem Fall würde es bedeuten, dass ein höherer Rechnungsbetrag direkt zu einem höheren Trinkgeld führt.
total_bill
tip
Gütekriterium
Multiple R-Squared
10% der Verianz y wird durch das Schätzmodell erklärt
Beschreibe die 4 Schritte des Bootstrapping
Resample (=ziehen und zurücklegen)
10.000 Bootstrap-Stichproben werden generiert durch pärchenweises ziehen und zurücklegen: Jede Stichprobe hat XX Oberservationen
Histogramm mit den 10.000 geschätzten Bootstrap-Regressionskoeffizienten beta_1_dach_stern
Entscheidungskriterium:Ist der häufigste Wert 0, dann kann die Nullhypothese nicht abgelehnt werden, ist die Null im Histogramm nicht zu sehen, dann kann die Nullhypothese abgelehnt werden
Berechnung
Regressiongerade = Regressionkoeffizient
Korrelationskoeffizient
Regressionkoeffizient: cov(x,y) / var(x)
Korrelationskoeffizient: cov(x,y) / sd(x)*sd(y)
Die Güte einer Schätzung wird gemessen mit Hilfe des p-Werts. Richtig oder falsch?
Falsch, weil Güter der Schätzung durch das R-Quadrat gemessen wird
Der Regressionskoeffizient ist positiv, wenn die Kovarianz positiv ist. Richtig oder falsch?
Richtig, weil der Regressionskoeffizient beta_1_dach=cov(x,y)/var(x) und die Varianz wg. der Quadrierung immer positiv ist.
Der Korrelationskoeffizient misst die Steigung der Regressionsgerade. Richtig oder falsch?
Falsch, weil der Regressionskoeffizient die Steigung misst.
Wenn die Irrtumswahrscheinlichkeit unter 5 % liegt, dann ist ein Regressionskoeffizient signifikant. Richtig oder falsch?
Richtig: Der p-Wert entspricht der Irrtumswahrscheinlichkeit. Wenn der p-Wert kleiner als 5 % ist, dann ist ein Regressionskoeffizient signifikant.
Eine Dummy-Variable als y-Variable erfordert die Interpretation der Regressionskoeffizienten in Prozent. Ok?
Nein, sondern in Wahrscheinlichkeiten und in Prozent (Lineares Wahrscheinlichkeitsmodell)
Beim Datensatz tips wird ein Regressionskoeffizient zwischen total_bill und tip von 0,11 Dollar berechnet (Einfachregression). Der Regressionskoeffizient ist signifikant. Ist das ein kausaler Effekt?
Nein, weil es keine Programm- und Kontrollgruppe gibt
Was heißt Bereinigung beim Gender Pay Gap?
Es wird bereinigt um die Unterschiede zwischen Frauen und Männern (also z.B. Bildungsunterschiede, Arbeitserfahrungsunterschiede, Familienstatus) durch Aufnahme von Kontrollvariablen in die multiple Regressionsanalyse
Wenn bei der Mincer-Gleichung (Lohn wird bestimmt durch Bildung etc.) die y-Variable als log(wage) gemessen wird, muss man dann die Regressionskoeffizienten als Wahrscheinlichkeiten interpretieren?
Nein, weil keine Dummy-Variable als y-Variable geschätzt wird, sondern lwage (das ist keine Dummy-Variable)
Zuletzt geändertvor 2 Monaten