Urliste
beobachtungsreige
Klassierung
Zusammenfassung von Werten in Klassen ermöglicht bei stetigen Merkmalen die Erstellung von Häufigkeitstabellen
Histogramm
im Histogramm werden klassierte Häufigkeiten graphisch dargestellt
Fläche der rechtecke repräsentiert die Häufigkeit
Lageparameter
Lage zentraler Werte der Verteilung, z.B. das Zentrum
Schiefeparameter
Abweichung von der Symmetrie
Streuungsparameter
Streuung der Beobachtungswerte um das Zentrum
Konzentrationsparameter
Konzentration der Merkmalssumme auf bestimmte Merkmalsträger
Modus
Wert in einer Verteilung, der am häufigsten vorkommt
Median
Wert in der Mitte einer aufsteigend sortierten Urliste
ist n gerade: Durchschnitt aus den beiden mittleren Werten
alpha- Quantil
Bsp. 10%-Quantil 20% Quantil
Nicht ganzzahlig:
(1, 4, 5, 7, 8) n = 5
a * n = 0,25 * 5 = 1,25 a nicht ganzzahlig
25%-Quantil ist an der Stelle, die auf 1,25 folgt à Stelle 2
ganzzahlig:
(1, 4, 5, 7) n =4
a * n = 0,25 * 4 = 1 a ganzzahlig
Mittelwert aus x1 und x2
Quartile: Q1 = 25%-Quantil, Q2 = 50%-Quantil Q3 = 75%-Quantil
Dezile: 10%, 20%, 30% […]
Percentile: 1%, 2%, 3% […]
Spannweite
Abstand zwischen kleinstem und größten Wert
SP = xn - x1
manchmal auch Quartilsabstand Q1-Q3
Varianz
beschreibt die Streuung der Beobachtungswerte um den Mittelwert
wichtigstes Streuungsmaß
Standardabweichung
positive Wurzel der Varianz
Variationskoeffizient
normiert die Standardabweichung mit dem Mittelwert
beschreibt die Abweichung einer Verteilung von der Symmetrie
gM = 0 symmetrisch
gM > 0 rechtsschief
gM < 0 linksschief
beschreiben die Konzentration der Merkmalssumme auf bestimmte Merkmalsträger
Lorenzkurve
stellt die relative Konzentration von Merkmalssummen grafisch dar
für jeden Beobachtungswert wird ein Punkt in ein Koordinatensystem gezeichnet
Gini-Koeffizient
Maßzahl für relative Konzentration
je grßer die Konzentration, desto größer die Konzentrationsfläche
liegt immer im Intervall [0;1]
je höher der Gini-Koeffizient, desto höher die Konzentration
Beträgt der Gini-Koeffizient 0 sind alle Beobachtungen gleich
nähert sich der Gini-Koeffizient 1 an, ist die Merkmalssumme auf wenige Einheiten konzentriert
Kreuztabellen
- Zeilensummen ergeben Randverteilungen von X
- Spaltensummen ergeben die Randverteilungen von Y
Streudiagramm
Sinnvoll für stetige Merkmale, bei denen Merkmalskombinationen nur einmal vorkommen
statiostische Unabhängigkeit
- Auftreten von verschiedenen Merkmalsausprägungen bei einem Merkmal ist unabhängig davon, welche Werte das andere Merkmal annimmt
statistische Abhängigkeit
Gemeinsame relative Häufigkeiten = Produkt der jeweiligen relativen Randhäufigkeiten
Kovarianz
- Misst die Linearität statistischer Zusammenhänge zwischen zwei Merkmalen
- Linearer Zusammenhang: der Verlauf der Datenpunkte lässt sich grafisch gut durch eine Gerade beschreiben
- Ist die Kovarianz positiv, dann besitzen X und Y tendenziell einen gleichsinnigen linearen Zusammenhang (hohe X und hohe Y Werte gehen miteinander einher)
- Ist die Kovarianz negativ, dann besitzen X und Y tendenziell einen gegensinnigen linearen Zusammenhang (hohe Werte der einen Variable gehen mit niedrigen Werten der anderen Variable einher)
- Ist die Kovarianz 0, so besteht kein linearer Zusammenhang zwischen X und Y
Korrelationskoeffizient
- Bravais-Pearson-Korrelationskoeffizient
- normierte Kovarianz
- Intervall [-1;1]
- Er macht die Kovarianzen verschiedener Merkmale besser vergleichbar
- Teilt man die Kovarianz durch das Produkt der Standardabweichung von X und Y, erhält man den Korrelationskoeffizienten
Rangkorrelationskoeffizient
Verwendung bei (ordinalen) Merkmalen, für die nur die Rangfolge der Werte bestimmt werden kann
Spearman-Rangkorrelationseffizient
Man ersetzt die Beobachtungswerte durch deren Rang
Werte mit gleichem Rang erhalten zunächst fortlaufende Nummern, danach werden die Nummern durch den Mittelwert der Nummern ersetzt
Datenpaare dürfen nicht getrennt werden
Bravais-Pearson-Korrelationskoeffizient
Intervall: [-1;1]
Kontingenzkoeffizient
- Misst die Abweichung der tatsächlichen Kontingenztabelle von einer Kontingenztabelle im hypothetischen Fall der Unabhängigkeit.
- Bei Unabhängigkeiten kann man die gemeinsamen absoluten Häufigkeiten
-
- Berechnung einer Maßzahl aus den Abweichungen der beiden Kontingenztabellen, je größer die Different zwischen der tatsächlichen Kontingenztabelle und der Kontingenztabelle, die sich bei Unabhängigkeit aus der Randverteilung ergäbe ist, desto größer ist die statistische Abhängigkeit zwischen zwei Merkmalen
- Kann für Merkmale aller Skalierungen berechnet werden
Korrelationsanalyse
- Liefert Maßzahlen für den statistischen Zusammenhang zwischen zwei Merkmalen
- Kovarianz und Korrelationskoeffizient messen die gemeinsame Variation von zwei metrischen Merkmalen
Last changed21 days ago