univariate vs bivariate Analyse
Einführung in die Auswertung eindimensionaler Daten
Einführung
2. AUSWERTUNGSMETHODEN EINDIMENSIONALER DATEN
Univariate Analyse
Die univariate Analyse untersucht genau ein Merkmal.
Bivariate Analyse
Die bivariate Analyse untersucht den Zusammenhang zwischen zwei Merkmalen.
Patient:in
Geschlecht
Zufriedenheit
bisheriger Kontakt
Alter
1
weiblich
gut
16
2
5
3
0
50
4
35
männlich
befriedigend
6
47
7
15
8
20
9
10
48
11
44
12
13
55
14
56
ausreichend
17
18
52
19
sehr gut
49
21
68
22
23
26
24
39
25
Grundlagen der univariaten Analyse
Skalenniveau von entscheidender Bedeutung, denn es entscheidet darüber, welche statistischen Analysen erlaubt sind und welche nicht.
Das Geschlecht ist nominalskaliert (die Ausprägungen sind Kategorien, die sich nicht sinnvoll ordnen lassen),
die Zufriedenheit mit den Pflegerobotern ordinalskaliert (die Ausprägungen sind Kate- gorien, die sich sinnvoll ordnen lassen) und
sowohl die bisherige Kontakthäufigkeit mit solchen Robotern als auch das Alter sind kardinalskaliert (deren Ausprägungen und Abstände sind Zahlen).
Kontakthäufigkeit diskretes
Altersangaben. stetiges —> Alterskategorien bilden
Urliste/Rohdaten
Die Urliste bzw. Rohdaten beinhalten die gesammel- ten Daten eines Merk- mals
Ausgangsdaten, welche man bezüglich eines Merkmals X zur Verfügung hat
x1, x2, …, xn
x1 beschreibt dabei die Merkmalsausprägung der ersten Person, x2 die Merkmalsausprä- gung der zweiten Person und xn die Ausprägung der n-ten Person. n steht dabei für die Gesamtanzahl an Personen bzw. den Stichprobenumfang. Für die einzelnen Personen wird ein Personenindex i = 1, …, n angelegt, welcher alle Personen durchläuft. Die Urliste lässt sich damit auch durch xi für i = 1, …, n notieren. Diese Urliste als Ausgangspunkt einer Datenanalyse liegt für jedes beliebige Skalenniveau vor.
jede einzelne der vier Merkmalsspalten eine Urliste
BSP:
Alle 25 befragten Patient:innen haben eine Angabe zu ihrem Geschlecht gemacht, sodass in diesem Fall n = 25 gilt
Bewertung der Pflegeroboter wurde von einer Person ausgelassen für n = 24 Patient:innen vorliegen
Häufigkeit des bisherigen Kontakts mit solchen Pflegerobotern wurde wiederum von allen Patient:innen (n = 25) beantwortet
wohinge- gen das Alter mit n = 19 Patient:innen von den Wenigsten kommentiert wurde.
Häufigkeitstabelle.
Tabellarische Darstellung
2.1 Tabellarische und grafische Darstellungsmöglichkeiten
welche Merkmalsausprägungen ein Merkmal annehmen kann,
wie häufig diese in einer Stichprobe vorkommen und
welchen Anteil diese an der Gesamtanzahl aller Merkmalsträger in der Stichprobe ausmachen
Häufigkeitstabelle - Nominalskaliertes Merkmal
Nominalskaliertes Merkmal
Ausprägungsindex = die einzelnen Merkmalsausprägungen durch. Im Allgemeinen besitzt ein Merkmal demnach k verschiedene Merkmalsausprägungen.
j = 1, …, k
Merkmalsausprägungen
aj mit j = 1, …, k
absoluten Häufigkeiten =
Zählt man aus der Urliste ab, wie viele Merkmalsträger die einzelnen Merkmalsausprägungen annehmen
nj mit j = 1, …, k .
relativen Häufigkeiten=
Setzt man die einzelnen absoluten Häufigkeiten in Bezug zur Gesamtanzahl an Merkmalsträgern in der Stichprobe,
fj mit j = 1, …, k
-> relativen Häufigkeiten können ausschließ- lich Werte zwischen 0 und 1 annehmen. Die Summe aller relativen Häufigkeiten f1 + f2 + … + fk muss immer 1 ergeben
FORTSETZUNG DES BEISPIELS: BEFRAGUNG ZU PFLEGEROBOTERN
Für das nominalskalierte Merkmal „Geschlecht“ aus dem obigen Beispiel ergibt sich damit auf Basis der Urliste (w: weiblich, m: männlich)
w; w; w; w; m; w; w; w; m; m; w; m; w; w; w; w; w; w; m; w; w; w; w; w; w
Häufigkeitstabelle für das Geschlecht
j
Index
aj
Ausprägungen
nj
abs Häufigkeit
fj
rel. Häufigkeit
0,2
0,8
Σ
Durch Abzählen aus obiger Urliste ergibt sich die Tatsache, dass fünf männliche Patienten befragt wurden. Das Dividieren der 5 männlichen Patienten durch die Gesamtheit aller 25 Patient:innen führt zu einer relativen Häufigkeit von 0,2 bzw. 20 %. Demzufolge verbleiben 20 weibliche Patientinnen mit einem Anteil von 0,8 bzw. 80 %. Die Gesamtheit aller Befragten (hier: 25) steht stets als Summe unter der Spalte der absoluten Häufigkeiten. Die Summe aus allen relativen Häufigkeiten in Höhe von 1 bzw. 100 % wird unterhalb der Spalte der relativen Häufigkeiten notiert.
Häufigkeitstabelle - Ordinalskaliertes Merkmal
Ordinalskaliertes Merkmal
Für mindestens ordinalskalierte (also auch kardinalskalierte) Merkmale wird die Häufig- keitstabelle um eine fünfte Spalte erweitert
kumulierten Häufigkeiten = summieren die relativen Häufigkeiten auf.
Wir könnten bspw. wissen wollen, wie groß der Anteil derjenigen Patient:innen ist, welche die Pflege durch den Roboter mit mindestens gut bewertet haben. Dafür betrachtet man die Anteile derjenigen, die den Pflegeroboter als sehr gut und gut eingeschätzt haben. Summiert man diese beiden Anteile in Form der entsprechenden relativen Häufigkeiten auf, so erhält man eine kumulierte Häufigkeit. Diese Art der Berechnung ist nur möglich, wenn sich in die Merkmalsausprägungen eine sinnvolle Reihenfolge hineinbringen lässt.
Allg.Aufbau
Ausprä-
gungen
absolute
Häufigkeit
relative
Fj
kumulierte Häufigkeit
a1
n1
f1
F1
a2
n2
f2
F2
⋮
k
ak
nk
fk
Fk
n
ordinalskalierte Merkmal „Zufriedenheit“ mit einem Pflegeroboter erhält man auf Basis der Urliste (sg = sehr gut, g = gut, b = befriedigend, a = ausreichend)
g; g; g; g; b; b; b; b; g; b; b; g; g; g; a; g; g; sg; a; g; b; g; b; b
abs. Häufigkeit
kum. Häufigkeit
1/24
12/24
13/24
9/24
22/24
2/24
In der kumulierten Häufigkeit der zweiten Zeile werden diejenigen Patient:innen zusammengefasst, welche eine sehr gute 1/24 bzw. gute 12/24Zufriedenheit mit den Pflegerobotern bescheinigten. So kommt die Summe 13/24 zustande. Ca. 54,2 % der befragten Patient:innen bewerten demnach die Zufriedenheit mit mindestens gut.
Häufigkeitstabelle - Kardinalskaliertes diskretes Merkmal
Kardinalskaliertes diskretes Merkmal
gleiche Gestalt wie bei ordinalskalierten Merkmalen
aufgrund der Beschaffenheit der Ausprägungen in Form von Zahlen eine Sortie- rung von der kleinsten bis zur größten Zahl möglich ist.
Man fängt mit der kleinsten Ausprägung an und hört mit der größten Ausprägung auf.
Im obigen Beispiel wurden die Patient:innen gefragt, wie oft sie vor dem aktuellen Krankenhausaufenthalt bereits Kontakt zu derartigen Pflegerobotern hatten. Die Antworten der 25 Befragten gestalteten sich wie folgt:
1; 5; 0; 0; 1; 1; 2; 1; 1; 1; 1; 1; 2; 1; 0; 3; 1; 1; 0; 3; 0; 1; 1; 2; 1
abs.
0,56
0,76
0,12
0,88
0,08
0,96
0,04
Häufigkeitstabelle - Kardinalskaliertes stetiges Merkmal
Kardinalskaliertes stetiges Merkmal
Die Häufigkeitstabelle bei kardinalskalierten, aber stetigen Merkmalen unterscheidet sich von der für diskrete Merkmale in der zweiten Spalte.
Klassen von Merkmalsausprägun- gen.
Klasse ist durch eine Unter- und Obergrenze charakterisiert.
Obergrenze einer Klasse wird grundsätzlich eine eckige Klammer „]“ gesetzt.
Diese signalisiert, dass diese Obergrenze zu der entsprechenden Klasse dazugehört
Untergrenze einer Klasse wird bis auf die erste Untergrenze mit einer runden Klammer „(“ versehen
Diese bedeutet, dass die Klasse bei der nächstgrößeren Zahl als die Untergrenze selbst beginnt
Jede Zeile einer Häufigkeitstabelle repräsentiert nun eine Klasse von zusammengefassten Merkmalsausprägungen.
absoluten Häufigkeiten jetzt die Anzahl an Personen zusammenfassen, die in dieses Intervall einzuordnen sind.
relative Häufigkeit den Anteil derjenigen an, die diesem Intervall zugehörig sind
kumulierte Häufigkeit fasst den Anteil an Personen zusammen, die im Höchstfall den Wert der Obergrenze annehmen.
Wahl der Klassengrenzen mal mit Rep checken ob das wichtig ist
Wir arbeiten nun als Beispiel mit folgender Klasseneinteilung des Alters: [15; 30]; (30; 45]; (45; 50] und (50; 70]. Wir sehen, dass die Klassen unterschiedlich breit sind. Mit den ersten beiden Klassen wird eine Altersspanne von 15 Jahren berücksichtigt. Die dritte Klasse umfasst lediglich ein Spektrum von 5 Jahren und die letzte Klasse wiederum eine größere Breite von 20 Jahren.
16; 50; 35; 47; 15; 20; 47; 48; 44; 55; 56; 35; 48; 52; 49; 68; 17; 26; 39
x*j - * 1, xj*
Klassen
[15; 30]
5/19
(30; 45]
4/19
9/19
(45; 50]
6/19
15/19
(50; 70]
zweite Klasse durch: Älter als 30 und höchstens 45 Jahre sind die Personen im Alter von 35, 44, 35 und 39. Dadurch entsteht die absolute Häufigkeit in Höhe von 4. Die Tatsache, dass wir insgesamt 19 Patientendaten vorliegen haben, führt uns zu einer relativen Häufigkeit in Höhe von 4/19bzw. 0,211. Und schließlich ergibt sich aus der Summe der ersten kumulierten Häufigkeit 5/19 sowie der soeben genannten relativen Häufigkeit eine kumulierte Häufigkeit von 9/19. Das bedeutet, dass 47,3 % der Befragten höchstens 45 Jahre alt sind.
Allg
Grafische Darstellung
hier ausnahmslos mit der Darstellung relativer Häufigkeiten beschäftigen
Grafische Darstellung - Nominalskaliertes Merkmal
Kreisdiagramm,
erhalten die einzelnen Merkmalsausprägungen entsprechend ihrem Anteil an der Stichprobe eine bestimmte Fläche im Kreis.
die einzelnen Winkel αj (alpha) für die Merkmalsausprägung aj durch
relative Häufigkeit wird demnach mit 360° multipliziert,
Balkendiagramm
zeigt in Form von Balken oder Stäben die Häufig- keitsverteilung eines Merkmals an
Paretodiagramm (= Spezialform des Balkendiagramms)
ordnet die Merkmalsausprä- gungen nach der Größe ihres Vorkommens
Grafische Darstellung - Ordinalskaliertes Merkmal
• Kreisdiagramm
• Balkendiagramm.
identisch nominalskaliertes Merkmal
Grafische Darstellung - Kardinalskaliertes diskretes Merkmal
nur noch das Balkendiagramm
Grafische Darstellung - Kardinalskaliertes stetiges Merkmal
Histogramm
kardinalskalierten und stetigen Merkmale wird mit dem
in der Klassenbildung begründet.
einzelnen Klassen miteinander vergleichen lassen,
Histogramm Ein Histogramm wird nur für stetige Merkmale gezeichne
x-Achse
Klassengrenzen
y-Achse
Dichten
Dichten Dichten setzen die relati- ven Häufigkeiten ins Ver- hältnis zur Breite einer Klasse
Δj(Delta) die Klassenbreite ist. Das Histogramm entsteht schließlich dadurch, dass diese Berechnung der Dichten für alle Klassen erledigt wird:
Zeichnen des Histogramms
zunächst die Dichten berechnet
über jede Klasse ein Rechteck in der Höhe der berechneten Dichten abzutragen. Die Fläche eines jeden Rechtecks zeichnet sich dadurch aus, dass sie die relative Häufigkeit fj der entsprechenden Klasse widerspiegelt. Damit muss die gesamte Flä- che unter dem Histogramm 1 sein.
Wir können erkennen, dass das Alter zwischen 45 und 50 von den meisten der 19 Patient:innen angenommen wird. Auch wenn die absolute Häufigkeit mit 6 in dieser Klasse am größten war, so ist ein solch deutlicher Unterschied zu den anderen Klassen erst hier erkennbar geworden. Aus der im Verhältnis zu den anderen Klassen geringen Breite der betrachteten Klasse resultiert eine relativ hohe Dichte. Bleiben wir bei dieser Klasse und klären noch einmal, warum die Fläche dieses Rechtecks gleich der relativen Häufigkeit ist. Die Fläche eines Rechtecks ergibt sich durch die Multiplikation aus Breite und Höhe. Die Breite ist in diesem Fall 5 und die Höhe laut Dichte 0,063. Mit 5 · 0,063 erhalten wir 0,315 bzw. 6/19.
Allg. - Unterscheidung
2.2 Lagemaße
einzelne Merkmale noch durch verschiedene Maßzahlen beschrieben werden. Man unterscheidet Maßzahlen für die Lage bzw. Lagemaße von den Streuungsma- ßen
Modus - Allg
Modus Der Modus bildet die häu- figste Ausprägung ab
math. Abk
einen Modus = unimodalen Verteilung
zwei Modi = bimodal
mehr als zwei Modi als multimodal.
Modus
Häufigkeitstabelle
die größte absolute bzw. relative Häufigkeit vorherrscht und liest die entsprechende Ausprägung ab
Kreisdiagramm oder das Balkendiagramm
Die Ausprägung mit der größten Fläche im Kreis bzw. dem größten Balken stellt den Modus dar.
BSP: xmod = weiblich.
„gut“ am häufigsten = xmod = gut
einmalige Kontakt
am häufigsten
xmod = 1.
Nur für stetige Merkmale muss der Modus auf eine etwas andere Weise bestimmt werden.
bestimmen den Modus anhand der Dichten.
Klasse, welche die größte Dichte aufweist, wird als Modus bezeichnet
Dichte in der dritten Klasse mit 0,063 am größten
xmod = (45; 50] .
In mancher Literatur wird der Modus für ein stetiges Merkmal ebenfalls in Form einer einzigen Zahl angegeben. In dem Fall wird die Mitte der Klasse als Modus angegeben, in der die Dichte am größten ist. Die Mitte zwischen 45 und 50 wäre 47,5 weil (45 + 50) / 2
Allg - Quantile
Quantile
Quantil Ein Quantil wird durch eine Ausprägung bestimmt, die von p % der Merkmalsträger nicht überschritten wird
drei Quantile,
Median x0.5.
besonders wichtig
liegt genau in der Mitte des geordneten Datensatzes.
Zentrum des geor- dneten Datensatzes.
Quartile x0.25
(unteres Quartil: Ausprägung, die von 25 % der Merkmalsträger nicht überschritten wird
Quartile x0.75
(oberes Quartil: Aus- prägung, die von 75 % der Merkmalsträger nicht überschritten wird)
Quartile sorgen mit dem Median für vier gleich große Bereiche im geordneten Datensatz
auf Basis einer Urliste oder aber einer Häufigkeitstabelle bestimmen.
Bestimmung der Quantile
Die Bestimmung der Quantile aus einer Urliste erfolgt für alle möglichen Skalenniveaus auf die gleiche Weise
Urliste (= die in unsortierter Reihenfolge alle Ausprägungen der nMerkmalsträger einer Stichprobe enthält)
—> x1, x2, …, xn
ersten Schritt von klein nach groß sortiert werden. Man erstellt also den geordneten Datensatz:
-> x (1) , x (2) , …, x (n)
x (1) steht dabei für die kleinste und x (n) dementsprechend für die größte Beobachtung. Die einzelnen Quantile lassen sich nun nach einer allgemeinen Vorgehensweise – unabhängig von p – bestimmen; dabei geht es darum, die Stelle im geordneten Datensatz zu finden, an der sich das gesuchte Quantil befindet:
Bestimmung für unser nominalskaliertes Merkmal nicht möglich.
Für das Merkmal „Zufriedenheit mit Pflegerobotern“ lag uns folgender unsortierter Datensatz für n = 24Patient:innen vor:
Diesen bringen wir zunächst in eine geordnete Form, indem wir mit der besten Bewertung beginnen und mit der schlechtesten aufhören:
sg; g; g; g; g; g; g; g; g; g; g; g; g; b; b; b; b; b; b; b; b; b; a; a
Median
Mittelwert
Mittelwert (auch Durchschnittswert oder arithmetisches Mittel genannt) -x (gelesen als „x quer“).
fasst alle Daten eines Merkmals zu einem Wert zusammen.
Kardinalskaliertes stetiges/diskretes Merkmal aus Urliste
kardinalskaliertes diskretes Merkmal aus Häufigkeitstabelle
Kardinalskaliertes stetiges Merkmal aus Häufigkeitstabelle
Wie auch schon bei den Quantilen weicht der soeben berechnete Mittelwert von dem aus der Urliste ab. Den Grund dafür kennen wir bereits und auch hier gilt die Empfehlung, für die Berechnung des Durchschnittswerts die Urliste zu nutzen, sofern diese zur Verfügung steht.
Regel: Werden alle Werte einer Stichprobe um einen bestimmten Wert erhöht oder verringert, so erhöht oder verringert sich der Mittelwert ebenso um diesen Wert
Vergleich von Mittelwert und Median
welche der beiden Maßzahlen besser geeignet ist, um die Lage eines Merkmals zu beschreiben. Dies hängt entscheidend vom Datensatz ab.
robust
sehr ausreißerempfindlich
immer dann gut geeignet ist, wenn der Datensatz nicht von extremen Ausreißern betroffen ist.
Der Median wird von derartigen Situationen nicht tangiert.
Verteilung
symmetrische und eine asymmetrische Verteilung
symmetrische Verteilung liegt uns immer dann vor, wenn Mittelwert und Median ungefähr gleich groß
schiefe Verteilung
rechtsschie- fen Verteilung Mittelwert größer als der Median, so haben wir es mit einer
Balken nehmen demzufolge nach rechts hin ab
linksschiefe Verteilung wenn der Mittelwert kleiner als der Median ausfällt.
Die Verteilung ist dann im Diagramm nach links hin abnehmend
nur für kardinalskalierte Merkmale Einteilung in Symmetrie und Asymmetrie auch nur für jenes Skalenniveau.
2.3 Streuungsmaße
herauszufinden, ob sich die befragten Merkmalsträger hinsichtlich einer Variablen sehr ähnlich sind oder ob sie sich sehr stark voneinander unterscheiden.
Streuungsmaße nur für kardinalskalierte Merkmale
Spannweite
Spannweite R zeigt den Abstand von der kleinsten zur größten Ausprägung
Nachteil
unter Umständen von extremen Beobachtungen beeinflusst werden könnte und damit den Sachverhalt der Streuung nicht angemessen widerspiegelt.
Interquartilsabstand
Interquartilsabstand IQR
zweite Maßzahl für die Streuung
im Falle von vorhandenen Ausreißern besser geeignet.
konzentriert sich auf die Variation bei den zentralen 50 % an Beobachtungen
Stichprobenvarianz und Standardabweichung
Stichprobenvarianz
ist erforderlich, um die Standardabweichung erhalten zu können.
Standardabweichung
gibt die durchschnittliche Abweichung vom Mittel- wert an
Die zweite Variante ist für das Rechnen per Hand sehr zu empfehlen, da sie als weniger fehleranfällig gilt. Aus diesem Grund beschränken wir uns in den folgenden Ausführungen auf genau diese.
Fall: Urliste mit Zahl b multipli- ziert
Abstände zueinander und damit die Streuung hat eine gänzlich andere Form angenommen
grundlegenden Regel:
Eine Multipli- kation aller Werte mit b führt zu einer Veränderung der Stichprobenvarianz um b2 und der Standardabweichung um exakt b. Insgesamt halten wir fest:
Werden alle ursprünglichen Daten xi um a erhöht oder verringert, so hat dies keinerlei Auswirkungen auf die Stichprobenvarianz sy 2 oder Standardabweichung sy der neuen Daten yi. Werden hingegen alle ursprünglichen Werte xi mit b multipliziert, dann verändert sich die neue Stichprobenvarianz sy 2 im Vergleich zur bisherigen sx 2 um b2. Für die neue Standardabweichung sy resultiert nur eine Veränderung um b.
Merkmalsträger
Rep:
1.2 Grundbegriffe der Statistik
1. EINFÜHRUNG
Ein Merkmalsträger ist eine interessierende Person oder ein Objekt, über welche(s) man Aussagen gewinnen möchte.
Einzelpersonen, Unternehmen oder Gegenstände sein;
Zuletzt geändertvor 4 Tagen