Lagemaße
Wo konzentrieren sich die Daten einer Stichprobe?
Streuungsmaße
Wie stark streuen / variieren die Daten?
absolute Häufigkeit
Anzahl ihres Vorkommens im Datensatz
Summe muss mit Stichprobenumfang n Übereinstimmen
relative Häufigkeit
Häufigkeit ihres Vorkommens im Datensatz bezogen auf den Stichprobenumfang
-> in %
Summe muss 100% übereinstimmen
Chance / Häufigkeitsquote
Häufigkeit ihres Vorkommens bezogen auf die Häufigkeit ihres Nichtvorkommens
empirische Häufigkeitsverteilung
Wie verteilen sich die Stichprobenwerte über der Ausprägungsmenge?
in Säulen-/ Balkendiagramm
Modalwert (Modus)
Xmod
typischer Wert einer Stichprobe für die am häufigsten vorkommende Merkmalsausprägung im Datensatz
-> welches Merkmal am größten ist
Mehrere Modalwerte sind möglich!
exponiert
besonderem Risiko ausgesetzt
z.B. Geimpft, Raucher
nicht exponiert
dem Risiko nicht ausgesetzt
alpha-Quantil (Perzentil)
Xalpha
kennzeichnet die Stelle im aufsteigend geordneten Datensatz unterhalb der mindestens (100 * alpha)% der Daten liegen - teilt somit den Datensatz in etwa ein Verhältnis alpha : (1-alpha)
0,25 Q. - zerlegt Datensatz in 2 Teile (alles darüber sind 75%)
0,5 Q. - Median
0,75 Q.
“empirischer” Median
teilt den geordneten Datensatz in zwei “gleich lange” Teile
-> bei ungeraden Stichprobenumfang 1 Zahl
-> bei geraden Stichprobenumfang 2 Zahlen in der Mitte
(empirisches) alpha-Quantil (Perzentil)
der kleinste Merkmalswert des geordneten Datensatzes
-> mindestens (100*alpha)% der Daten liegen unterhalb des Wertes
-> Quartil - zerlegt den Datensatz in 4 Teile (je 25%)
Boxplot
beschreibt die Verteilung der beobachteten Werte nach mittlerer Lage, Streuung (mittlerer 50%-Bereich)
-> Boxgrenzen sind untere & obere Begrenzung (oberes & unteres Quantil)
Whiskers (Schnurrhaare)
-> Xmin kleinste beobachtete Stichprobenwert
-> Xmax größte beobachtete Stichprobenwert
—> liegen nicht weiter als das 1,5-fache (~25%) von der Box entfernt
Ausreißer
Histogramm
bei metrischen Merkmalen mit vielen verschiedenen Merkmalswerten
-> Daten in Klassen einteilen
-> Klassenhäufigkeiten bestimmen
-> visuelle Darstellung in Histogramm
-> Klassenzahl (k) & Klassenbreite ergibt sich aus Aufgabenstellung
k ~ Wurzel aus n
-> Klassenbreite
größter Wert - kleinster Wert / Klassenzahl
-> Modalklasse - die Klasse, die am höchsten ist
Histogramm - Verteilungstypen
annähernd symmetrisch ohne Ausreißer (z.B. BMI, Cholesterin)
linkssteil (rechtsschief) mit Ausreißer (z.B. Dauer der Genesung, Einkommen)
rechtssteil (linksschief) mit Ausreißer (z.B. Zeiten bei einem 100m-Wettlauf)
Dichtefunktion f(x)
beschreibt die Häufigkeitsverteilung aller Realisierungen von X in der GG
wenn der Stichprobenumfang n immer größer & gleichzeitig die Klassenbreite immer kleiner wird
arithmetisches Mittel / Mittelwert / Durchschnittswert
Summe aller Merkmalswerte eines Datensatzes dividiert durch den Stichprobenumfang n
-> Mittelwert des Merkmals X in der GG wird auch Erwartungswert genannt - E(X)
Spannweite (Range)
eines metrisch skalierten Merkmals
beschreibt den gesamten Variabilitätsbereich & ist der maximale Abstand zweier beobachtbarer Merkmalwerte
R = Xmax - Xmin
Interquartilsabstand
Differenz zwischen dem oberen & unterem Quartil
IQR = X0,75 - X0,25
um wie viel sich die zentralen 50% der Daten unterscheiden
(empirische) Standardabweichung s
wie weit die Werte um das arithmetische Mittel variieren
lässt sich als mittlere Abweichung der Beobachtungswerte vom arithmetischen Mittelwert deuten
Variationskoeffizient
wenn man Stichproben hinsichtlich der Streuung beobachten möchte
Last changed10 months ago