auswertungsmethoden Eindimensionaler Daten
Im Kontext der deskriptiven Statistik werden univariate und bivariate Analyse zu unterscheiden
Univariate Analyse- untersucht genau 1 Merkmal
zb Geschlecht auch eindimensionale Datenanalyse genannt
Bivariate Analyse- untersucht Zusammenhang zwischen zwei Merkmalen
zb. Beziehung zwischen Geschlecht und der Zufriedenheit mit dem Pflegepersonal in Form von Robotern
Beispiel Skript S. 26
Grundlagen Univariate Analyse
Skalenniveau ist wichtig - entscheidet darüber welche statistischen Analysen erlaubt sind und welche nicht
Wichtiges
Merkmal = X
Urliste /Rohdaten = beinhalten die gesammelten Daten eines Merkmals
x unten 1 = ist Merkmalsausprägung der 1 Person
x unten 2 = Merkmalsausprägung der 2 Person usw.
x unten n Ausprägung der n-ten Person
n steht für Gesamtanzahl an Personen bzw Stichprobenumfang
für die einzelnen Personen - Personenindex
i = 1……….n dieser durchläuft alle Personen
Urliste - x unten i = 1….n
Urliste als Ausgangspunkt einer Datenanalyse liegt für jedes beliebige Skalenniveau vor
zb Spalte Geschlecht stellt Urliste Geschlecht dar,
aus dem Beispiel n = 25
Bewertung Pflegeroboter n = 24 weil einer nichts angegeben hat…
2.1 Tabellarische und grafische Darstellungsmöglichkeiten
Häufigkeitstabelle
fasst die gesammelten Daten eines Merkmals komprimiert zusammen
diese fasst zusammen:
welche Merkmalsausrägungen ein Merkmal annehmen kann
wie häufig diese in einer Stichprobe vorkommen
welchen Anteil diese an der Gesamtanzahl aller Merkmalsträger in der Stichprobe ausmachen
Nominalskaliertes Merkmal
Ausprägungsindex j = 1……k
ein Merkmal besitzt k verschiedene Merkmalsausprägungen
einzelnen Merkmalsausprägungen werden durch:
a unten j mit j = 1…..k gekennzeichnet
durch abzählen aus der Urliste wieviel Merkmalsträger die einzelnen Merkmalsausprägungen annehmen ergeben sich die absoluten Häufigkeiten
n unten j mit j = 1 ….k
setzt man einzelnen absoluten H in Bezug zur Gesamtanzahl an Merkmalsträgern in der Stichprobe - erhält man relativen Häufigkeiten
f unten j mit j = 1…..k
Absolute Häufigkeiten klein n
zählen das Vorkommen der einzelnen Merkmalsausprägungen ab
Relative Häufigkeiten klein f
geben Anteil der einzelnen Merkmalsausprägungen wieder
relative H können nur werte zwischen 0 und 1 annehmen
Summe aller r. H. f 1 + f2+f3…..fk muss immer 1 ergeben
mal 100 erhält man entsprechende Prozentzahlen
Zusammengefasst werden die Infos in Häufigkeitstabelle
die besteht bei nominalskalierten Merkmalen grundsätzlich aus 4 Spalten:
Index - j
Ausprägungen - a unten j
absolute Häufigkeiten - n unten j
relative Häufigkeiten - f unten j
jede Zeile der Häufigkeitstabelle fasst wichtigsten Infos einer Merkmalsauspräung zusammen
beispiel skript S. 31
Ordinalskaliertes Merkmal
Häufigkeitstabelle wird um 5te Spalte erweitert
da kommen kumulierte Häufigkeiten rein
diese summieren die relativen H auf
F unten m = f1+f2+…..fm = m Summe von j = 1 fj
kumulierte Häufigkeiten
summieren die relativen H auf
kumulierte Häufigkeiten = groß F
kardinalskaliertes diskretes Merkmal
Häufigkeitstabelle hat gleiche Gestalt wie ordinalskaliere Merkmale
sortierung von kleinster bis zur größten Zahl ist möglich
genau diese Reihenfolge wird hier immer gewählt
man fängt mit kleinsten Ausprägung an , hört mit größter auf
kardinalskaliertes stetiges Merkmal
hier stehen jetzt in der 2 spalte der H. tabelle Klassen
in jeder Klasse werden einzelne Merkmalausprägungen zusammengefasst
1 spalte jetzt einzelnen Klassen 1 bis k
jede Klasse hat eine unter und ober Grenze
Untergrenze x unten j darüber * - 1
Audruck * = steht für eine Klassengrenze
j - 1 steht für die Untergrenze
Obergrenze einer Klasse j wird mit xj oben * bezeichnet
ausserdem klammern als Grenzen
Obergrenze mit eckiger Klammer
Untergrenze mit runder (
Grafische Darstellungen
als Alternative oder zusätzlich zur H Tabelle
nur relative H wenn möglich kumluierte H werden grafisch dargestellt
auf Darstellung von absoluten H wird verzichtet
auch hier unterschiede je nach Skalenniveau
Grafische Darstellung Unterschiede
Kreisdiagramm
Balkendiagramm
Paretodiagramm
zeigt die Häufigkeitsverteilung eines Merkmals
einzelnen Merkmalausprägungen erhalten entsprechend ihrem Anteil an der Stichprobe eine bestimmte Fläche im Kreis
Wichtig: bestimmten welche fläche die einzelnen Merkmalsausprägungen im Kreis einnehmen
Winkel - alpha unten j
Formel alpha unten j = f unten j mal 360grad (kreis hat 360grad) für j=1….k
relative H wird mit 360grad multipliziert um Winkel zu erhalten
beispiel im skript
alpha 1=0,2 mal 360grad =72 grad
alpha 2=0,8 mal 360grad =288
zeigt in Form von Balken oder Stäben die Häufigkeitsverteilung eines Merkmals
auf x Achse die Merkmalsausprägungen
auf y Achse die relativen H
über jede Merkmalsausprägung wird ein Balken in Höhe der relativen H. gezeichnet
Paretodiagramm (spezialform des Balkendiagramms)
ordnet die Merkmalsauspräungen nach der Größe ihres Vorkommens
lso nach der Höhe ihrer relativen H.
Anordnung kann auf oder absteigend sein
dafür können Kreisdiagramm oder Balkendiaramm genützt werden
auf Paretodiagramm wird verzichtet
nur Balkendiagramm
auf Kreisdiagramm wird verzichtet wenn die Ausprägungen Zahlen sind
Histogramm (also nur für stetige Merkmale)
Histogramm sorgt dafür das sich einzelne Klassen vergleichen lassen weil sie oft unterschiedlich breit sind
Histogramm wird ach empirische Dichtefunktion genannt
wird mit f oben dreieck (x)
auf der x Achse die Klassengrenzen
y Achse nicht die relativen H sondern die Dichten berücksichtigt
Dichten- setzen die relativen H ins Verhältnis zur Breite einer Klasse
Formel im Skript
2.2 Lagemaße
Maßzahlen
für Lage (Lagemaße)
Streuungsmaße
Lageparametern
Zentrum eines Datensatzes
wichtige Parameter Mittelwert (Kardinal stetig/ diskret)
Quantile (ordinal, Kardinal stetig/ diskret)
Median
Modus (für nominal, ordinal, Kardinal stetig/diskret)
Modus
bildet die häufigste Ausprägung
auch Modalwert genannt , kommt am häufigsten in der Stichprobe vor
x unten mod mal
ein Merkmal kann einen Modus oder mehrere modi besitzen
ist es nur ein Modus - unimodale Verteilung
zwei Modi - bimodal
mehr als zwei - multimodal
zb xmod = weiblich (sind am häufigsten)
Kardinalskaliertes stetiges Merkmal
hier muss der Modus anders bestimmt werden
wird anhand der Dichten bestimmt
Klasse die größte Dichte aufweist wird Modus bezeichnet
Quantile
weitere Maßzahl
wird durch Ausprägung bestimmt die von p % der Merkmalsträger nicht überschritten wird
Anteil der Merkmalsträgern kann beliebig bestimmt werden
notiert mit x unten p mal
gibt Merkmalsausprägungen an die von p Prozent der Merkmalsträger nicht überschritten werden
restlichen 1-p Prozent liegen bei mind. dem Quantil
3 Quantile
Median:
wichtigste Quantil
bildet Zentrum des geordneten Datensatzes
x unten 0.5 mal
liegt genau in der Mitte des geordneten Datensatzes
50% der Merkmalsausprägungen sind höchstens so groß wie x 0.5 mal
also 50% der Merkmalsausprägungen mindestens so groß wie x 0,5 mal
2 weitere
sog. Quartile x unten 0.25 (unteres Quartil: Ausprägung die von 25% der Merkmalsträger nicht überschritten wird
und x unten 0.75 (oberes Quartil: Ausprägung die von 75% der Merkmalsträger nicht überschritten werden
Quartile sorgen mit Median für 4 gleich große Bereiche im geordneten Datensatz
lassen sich nicht für nominalskalierte Merkmale bestimmen
berechnung würde ein sortieren der Beobachtungen brauchen
Quantile sind gut für kardinalskalierte Merkmale (egal ob diskret oder stetig)
bestimmt werden können sie auf Urliste oder Häufigkteist.
Mittelwert
fasst alle Daten eines Merkmals zu einem Wert zusamen
auch Durschnittswert genannt
x oben strich drüber (x quer gelesen)
gibt an welche Merkmalsausprägung im Durchschnitt von den Merkmalsträgern angenommen wird
nur für Kardinalskala möglich
lässt sich aus Urliste und Häufigkeitst. berechnen
Mittelwert ausrechen: alles summieren und durch n teilen (n zb 25 Patienten)
Vergleich Mittelwert und Median
Mittelwert ist sehr Ausreißerempfindlich
also immer dann gut wenn es keine extremen Ausreißer gibt (zb 19 sind im alter 30- 35 nur einer 65..)
Median berührt diese eine 65 jährige Person nicht, er gilt als robust
weitere Unterscheidung in symmetrische und asymmetrische Verteilung
symmetrische Verteilung wenn Mittelwert und Median ungefähr gleich groß sind
Ist Mittelwert größer als Median dann - rechtsschief
ist er kleiner - dann lienksschief
alles im Balkendiagramm
2.3 Streuungsmaße
sind sich Merkmalsträger sehr ähnlich oder unterscheiden sie sich stark voneinander
nur für kardinalskalierte Merkmale aus Urliste und Häufigkeitst.
Streuungsmaße - Spannweite
einfachste Maßzahl mit groß R beschrieben
zeigt Abstand von der kleinsten zur größten Ausprägung
also von der größten die kleinste Prägung abziehen
R= x (unten n) - x (unten 1)
Nachteil der Maßzahl: von extremen Beobachtungen beeinflusst
spiegelt dadurch den Sachverhalt der Streuung nicht angemessen wieder
Interquartilabstand
IQR (bei Ausreißern besser geeignet)
zeigt Abstand der zentralen 50% an Merkmalsträgern
also wenn von klein nach groß sortiert markiert der IQR den Abstand von unteren zum oberen Quartil
IQR = x unten 0.75 - x unten 0.25
also muss für den IQR erst beiden Quartile berechnet werden
Stichprobenvarianz und Standardabweichung
Stichprobenvarians - s oben 2
Standardabweichung - s wichtigsten Maßzahlen um Streuung zu beschreiben
involiveren jede einzelne Beobachtung
wie weit ist jede Beobachtung vom Mittelwert entfernt
immer erst Stichprobenvarianz berechnen dann erhält man Standardabweichung
Standardabweichung gibt durchschnittliche Abweichung vom Mittelwert an
Wurzel aus Stichprobenvarianz ziehen um Standardabweichung zu erhalten
Last changed10 months ago