==> wie viele Höcker?
-Die wichtigsten Lagemaße
o Modus: Der häufigste Wert einer Verteilung (für alle Skalenniveaus geeignet)
o Median: Der Wert „in der Mitte“ (muss deswegen nicht zwingend besonders oft vorkommen)
o Arithmetisches Mittel: Der „Durchschnitt"
-Lagemaße sollen durch einen numerischen Wert charakterisieren, wo das „Zentrum“ einer Verteilung von Datenwerten liegt – d.h. wenn eine bimodale Verteilung vorliegt wird dies eher schwer
==> sinnvoll interpretierbar nur dann, wenn die Verteilung ein solches Zentrum/Schwerpunkt besitzt
(Arithmetisches Mittel, Durschnitt, mean)
-Sinnvoll für metrische Daten, also mindestens Intervallskalenniveau (sonst unsinnig)
-Beachte: Häufig eine Zahl, die nicht in den Daten beobachtet wurde, z.B. durchschnittliche Kinderzahl pro Frau in Deutschland im Jahr 2019: 1,54
-Arithmetisches Mittel nicht sinnvoll interpretierbar bei bi- oder mehrgipfligen Verteilung
-Mit den Werten einer ordinalskalierten Variablen kann man nicht 'rechnen', da sie nur eine Rangordnung kennzeichnen!
-Lösung:
o Einzeldaten werden der Größe nach geordnet
o Der Wert, der bei den nach Größe geordneten Daten genau in der Mitte liegt, heißt Median – links und rechts müssen sich genauso viele Werte befinden
-Median (n ungerade)
-Median (n gerade)
-Median mit Häufigkeitstabellen
Verallgemeinerung des Medians für Werte, die andere Einteilung vornehmen
==> z.B. teilt das 10%-Dezil die unteren 10% und die oberen 90% der Verteilung
==> Der häufigst vorkommende Wert einer Verteilung
-Bei einer symmetrischen unimodalen Verteilung sind Modus, Median und Mittel identisch.
-Bei schiefen (asymmetrischen) Verteilungen unterscheiden sich die drei Lagemaße.
o Die hier abgebildete Verteilung ist rechts schief/links steil.
o Der Modus liegt auf dem Gipfel.
o Der Median teilt die Daten in der Mitte. Da das rechte Ende der Verteilung „ausufernder“ ist, liegt die Mitte rechts vom Gipfel.
o Der Mittelwert wird stärker als der Median von den extremen Werten am rechten Ende der Verteilung beeinflusst
==> Um Streuungen zu vergleichen und sie ins Verhältnis zum Mittelwert zu setzen
==> Standardabweichung: Quadratwurzel der Varianz, damit die Skala wieder der ursprünglichen Variablen entspricht Dementsprechend auch nur für metrische Variablen geeignet
==> Interquartilsabstand (IQR): Das Werte-Intervall einer Variable, indem die mittleren 50% der Fälle liegen. Es befindet sich zwischen dem 25%- und dem 75%-Quartil.
-Die Spannweite R einer Verteilung ist der Abstand zwischen dem kleinstem und dem größtem Wert.
-R = max – min
-tabstat variable, s (mean, median, min, max, range)
-Eigenschaften der Spannweite
o Alle Datenwerte außer Min und Max werden vernachlässigt
o Die Spannweite wächst tendenziell mit n
o Er ist empfindlich gegenüber' Ausreißern (jeweils beim Maximum und Minimum)
-Ausreißer = außerhalb des Kerns sind die wirklichen Ausreißer
-Streuung sehr groß
-Median bei Männern und Frauen fast gleich
-Boxplot: Visualisiert die wichtigsten Perzentil-basierten Lage- und Streuungsmaße
Zuletzt geändertvor 5 Monaten