Was sind wichtige Aspekte der Form einer Verteilung?
Bsp. Unterschiedliche Verteilungsformen
Verteilungstypen
Abbildung
biomodol-asymmetrisch: nicht spiegelbar
Mittelwert kann in irre führen
rechtsschied-asymmetrisch “linkssteil”
Bsp. EInkommen (viele haben wenig, wenig haben viel)
oinks viel, rechts wenig (Mittelwert sehr empfindlich für Verzerrungen)
linksschief-asymmetrisch “rechtssteil”
Bsp: Renteneinstigsalter
links wenig, rechts viel
Beispiele
Zeichnen Sie eine Verteilung der Variablen (welche Ausprägungen, welche Form der Verteilung, ...) und beschreiben Sie die Verteilung mit den entsprechenden Begriffen von oben
• X1: Die Haarlänge der Teilnehmer:innen der Veranstaltung
= bimodal (vermutlich)
• X2: Geburtsgewicht der weiblichen Neugeborenen in Köln im Jahr 2019
= unimodal
• X3: Anzahl der Geschwister der Teilnehmer:innen der Veranstaltung
= rechtsschief asymmetrisch
Wie kann ich das “Zentrum einer Verteilung beschreiben?
Verschiedene Lagemaße
Die wichtigsten Lagemaße
• Modus: Der häufigste Wert
• Median: Der Wert „in der Mitte“
• Arithmetisches Mittel: Der „Durchschnitt"
Lagemaße sollen durch einen numerischen Wert charakterisieren, wo das „Zentrum“ oder der „Schwerpunkt“ einer Verteilung von Datenwerten liegt
—> sinnvoll interpretierbar nur dann, wenn die Verteilung ein solches Zentrum/Schwerpunkt besitzt
Arithmetisches Mittel X aka Durchschnitt, mean
Formel des arithmetisches Mittels
Abbildung:
• Beispiel: Bruttoeinkommen von neun Personen
2000, 1900, 2100, 6700, 2500, 2200, 2300, 1900, 2500 (n=9)
(2000+1900+2100+6700+2500+2200+2300+1900+2500)=
Hinweis:
∑ "Summenzeichen"
Eigenschaften und Interpretation des arithmetrischen Mittels
• Sinnvoll für metrische Daten, also mindestens Intervallskalenniveau
• Beachte: Häufig eine Zahl, die nicht in den Daten beobachtet wurde, z.B. durchschnittliche Kinderzahl pro Frau in Deutschland im Jahr 2019: 1,54
• Arithmetisches Mittel nicht sinnvoll interpretierbar bei bi- oder mehrgipfligen Verteilung
Median aka der Wert der Mitte
• Mit den Werten einer ordinalskalierten Variablen kann man nicht 'rechnen', da sie nur eine Rangordnung kennzeichnen!
Lösung:
• Einzeldaten werden der Größe nach geordnet
• Der Wert, der bei den nach Größe geordneten Daten genau in der Mitte liegt, heißt Median
Median x (n ungerade)
Beispiel: Bruttoeinkommen von n = 9 Personen
1. Werte sortieren
2. 'Mitte' berechnen
𝑥- = 𝑥 (5) = 𝑥 (n +1) / 2
—> Median ist der Wert x(5) in der nach Größe geordneten Datenreihe
Also: Median lautet 𝑥- = 2200
ONLINE AUFGABE
Abbildung Übung
Median x (n gerade)
Beispiel_ Bruttoeinkommen von n = 10 Personen
Werte sortieren
“Mitte” berechnen
Median lautet x strich = 2250
Median bei STATA
1. Möglichkeit:
Tabelle anzeigen lassen und Wert suchen, bei dem die kumulierte Häufigkeit von 50% überschritten wird
tab variable
2. Möglichkeit:
Durch den sum-Befehl das 50%-Quantil anzeigen lassen
sum variable, detail
Median x strich, mit Häufigkeitstabelle
Beispiel:
Zustimmung zur Aussage "Sozialleistungen führen zu einer gerechteren Gesellschaft"
Abbilfung:
Bsp: Vermögen in Deutschland
"Das Nettogesamtvermögen der Personen in Privathaushalten in Deutschland summiert sich 2017 auf 10,3 Billionen Euro. Legt man dieses auf alle Personen ab 17 Jahren um, so kommt man auf ein durchschnittliches individuelles Nettovermögen von rund 139.000 Euro. Der Median, also der Wert, der die reichere von der ärmeren Hälfte der Bevölkerung trennt, liegt bei 22.800 Euro. Bei etwa sechs Prozent der Bevölkerung ist das Nettovermögen negativ, dies bedeutet, dass die Verbindlichkeiten – hierbei insbesondere Konsumentenkredite – höher ausfallen als das Bruttovermögen.
Ergänzug Tutorium Glocken
MEdian: gibt Werte, die weiter rechts liegen
Mittelwert: sehr aufällig für Ausreißer
Verallgemeinerung des Medians
Quantile: Verallgemeienrung des Medians
• xp ist das sognannten p-Quantil, also der Wert, der in einer der Größe nach geordneten Reihe des Umfangs n so liegt, dass ein Anteil p kleiner oder gleichen diesem Wert ist
• Spezielle p-Quantile:
Quantile mit Häufigkeitstabelle bestimmen
Bso Alter= p=0.10 (xo.10 oder p10) und p=0.9 (x90 oder p90)
Modus: Häufigster Wert einer Verteilung
• DemModus(=4,disagree)zufolge stimmen die meisten ESS-Befragten der Aussage "Sozialleistungen belasten zu sehr die Wirtschaft" nicht zu.
Verteilungsform und Lagemaße
Bei einer symmetrischen unimodalen Verteilung sind Modus, Median und Mittel identisch.
Bei schiefen (asymmetrischen) Verteilungen unterscheiden sich die drei Lagemaße.
• Die hier abgebildete Verteilung ist rechtsschief/linkssteil.
• Der Modus liegt auf dem Gipfel.
• Der Median teilt die Daten in der Mitte.Da das rechte Ende der Verteilung „ausufernder“ ist, liegt die Mitte rechts vom Gipfel.
• Der Mittelwert wird stärker als der Median von den extremen Werten am rechten Ende der Verteilung beeinflusst.
Abbildunng:
Wie kann ich die Streuung einer Verteilung beschreiben?
Bsp:
Abboldung
Berechnung der VARIANZ aka mittlere Abweichung
Formel Varianz: Abbildungen
Bemerkung: Empirische Varianz der Stichprobe vs. Schätzwert für die Varianz der Grundgesamtheit
Beachte: Zur Deskription einer Stichprobe wird (eigentlich) n im Nenner verwendet (sogenannte "empirische Varianz")
• Die meisten Programme (inkl. Stata) verwenden allerdings standardmäßig die obige Formel mit n-1 (!)
• Denn: In der Inferenzstatistik muss n-1 verwendet werden (sogenannte Schätzwert für die Varianz der Grundgesamtheit, 𝜎2& )
Bsp: STATA Output Varianmz und Standardabweichung
Die mittlere Arbeitszeit (arithm. Mittel) beträgt 38.7 Stunden
• Die Varianz ("durchschnittliche Abweichung vom Durchschnitt") beträgt 209 Stunden hoch 2
• Die Standardabweichung der wöchentlichen Arbeitszeit beträgt rd. 14.5 Stunden
Standardabweichung
= Quadratwurzel der Varianz, damit die Skala wieder der ursprünglichen Variablen entspricht
Dementsprechend auch nur für metrische Variablen geeignet, durschnittliche Abweichung vom Mittelwert
Abbildung Formel:!
Vergleich von zwei Variablen mit unterschiedlichen Größenordnungen (Spannweite)
Variationskoeffizient Vx = Standardabweichung im Verhältnis zum Mittelwert, Streuungen miteinanander vergelichen
• Verschiedene Merkmale können unterschiedliche Größenordnungen aufweisen, so dass die SD nicht sinnvoll verglichen werden können
Der Variationskoeffizient 𝑉𝑥 = 𝑥̅ drückt die
Standardabweichung als Anteil des Mittelwerts aus ("relative Standardabweichung") Bezeichnung in Stata: cv = coefficient of variation
Interqueartilsabstand (Interquartile Range)
Der Interquartilsabstand IQR ist die Distanz zwischen dem 25%-Quantil („unteres Quartil“) und dem 75%-Quantil („oberes Quartil“), d.h. IQR = x0.75-x0.25
Werte_intervall einer Variablen, in dem die mittleren 50% der Fälle liegen
IQR ist geeignet av ordinalskalierten Variablen
Spannweite (Range)
Die Spannweite R einer Verteilung ist der Abstand zwischen dem kleinstem und dem größtem Wert.
R = max - min
Beispiel: Arbeitsstunden pro Woche (wkhtot)
Was ist ein Boxplot und wann ist er nützlich?
Bsp: Vergleich Arbeitsstunden von Mänern & Frauen
Was sind die Vor- und NAchteile der verschiedenen ndekriptiven Statistiken?
Zusammenfassung
Abbildung (Tabelle)
ONLINE AUFGABE: Berechnung Standardabweichung
Tutorium
Varianz und Standardabweichung bei STATA
tabstat variable, s (mean, var, sd)
Variationskoeffizient
• Der Variationskoeffizient drückt die SD als Anteil des Mittelwerts aus ("relative Standardabweichung")
IQR (Interquartilsabstand) STATA
= Abstand zwischen dem kleinsten und dem größten Wert
R = max-min
Tutorium Abbildung Populationsüarameter & Schätzer
Zuletzt geändertvor 5 Monaten