Welche Abbildungen werden für einzelne Variablen genutzt?
Balkendiagramme
Abbildungen und Fehlerbalken
Liniendiagramme
Boxplots
-> Auch in Abbildungen sollten Lage- UND Streuungsmaße enthalten sein
die Streuung wird mithilfe sog. Fehlerbalken zusätzlich abgetragen
anstelle der SD kann man auch andere Streuungsmaße für die Fehlerbalken verwenden
Wozu werden Balken- oder Säulendiagramme verwendet?
zur Darstellung von einer Variable
zur Darstellung von Unterschieden zwischen Gruppen
zur Darstellung von mehreren Variablen nebeneinander
Fehlerbalken
hier wird anstatt eines Balkens nur ein Punkt dargestellt (empfohlen!)
zur Darstellungen von Trends oder Messwiederholungen (z. B. Zeitverlauf bei klinischen Studien)
Boxplot
Mittelwert und SD liefern recht idealisierte Darstellungen, da sie symmetrisch- oder normalverteilte Daten voraussetzen
für die Darstellung von Auffälligkeiten (Schiefe, Ausreißer) eignen sich daher andere Maße besser
verwendet man die verzerrungs-resistenten Maße Median und IQA, erhält man ein Boxplot
Apotheke ländlich städtisch
Wo liegen die Whiskers?
1. Bestimmen der Zäune: IQA x 1,5 nach oben und unten an die Box antragen
2. diejenigen echten Werte suchen, die auf der Seite der Box am nächsten dran liegen
IQA = 19-14 = 5
IQA x 1,5 = 7,5
oberer Zaun: 19+7,5 = 26,5
unterer Zaun: 14-7,5 = 6,5
oberer Whisker: 21
unterer Whisker: 12
wichtige Informationen:
Wie lang ist die Box?->Höhe der Streuung (IQA)
Wo liegt der Median innerhalb der Box? ->
Symmetrie/Schiefe der Verteilung
Liegen Werte außerhalb der Whiskers?-> Ausreißer
(werden durch Sterne oder Kreise dargestellt)
Bei schiefen Verteilungen Boxplot oder SD?
bei schiefen Verteilungen liefern Boxplots wesentlich bessere Aussagen über Lage und Streuung als M und SD
Ausreißer bleiben unberücksichtigt
Was sind die Merkmale von Verteilungen?
das Gesetz der großen Zahl
Formen von Verteilungen
die Normalverteilung
Das Gesetz der großen Zahl
Lage- und Streuungsmaße sind nur dann brauchbar, wenn die Stichprobe, aus der sie stammen, die Population gut widerspiegelt
das ist dann der Fall, wenn die Häufigkeitsverteilung die gleiche Form hat wie die Populationsverteilung
Definition: Je größer eine Stichprobe ist, desto stärker nähert sich die Verteilung der enthaltenen Daten (Häufigkeitsverteilung) der wahren Verteilung in der Population an.
-> Große Stichproben verwenden
-> Daten aus großen Stichproben eher verwenden als, aus kleinen
oft verteilen sich Werte etwa symmetrisch um ihre zentrale Tendenz (Glockenform)
Abweichungen können..
zufällig (z.B. durch Ausreißer)
systematisch sein (z.B. durch Decken- oder Bodeneffekte: an einem der beiden Pole treten viele oder sogar die meisten Werte auf)
-> führen zu schiefen (unsymmetrischen) Verteilungen
Beispiel schiefe Verteilung
-> die Berechnung von M und SD ist bei sehr schiefen Verteilungen nicht sinnvoll
Wie kommt es zu uni-, bi- und multimodaler Verteilung
normalerweise konzentrieren sich die Werte einer Verteilung an einer Stelle -> unimodale (eingipflige) Verteilung
oft gibt es aber zwei solche Stellenàbimodale Verteilung
oder noch mehr-> multimodale Verteilung
entsprechend gibt es mehrere Modalwerte
besonders relevant bei polarisierenden
Skalen (z.B. Einstellungen) Beispiel für eine bimodale Verteilung:
Zusammenhang zwischen Symmetrie, Gipfligkeit und Lagemaßen
rechtsschief/linkssteil symmetrisch. linksschief/rechtssteil
Normalverteilung
die meisten Variablen folgen in der Population der Verteilung einer Gauß‘schen Glockenkurve, der Normalverteilung
sie ist symmetrisch und die Wahrscheinlichkeit von Werten sinkt zu beiden Seiten des Mittelwertes immer mehr ab; Modus, Median und Mittelwert sind identisch
-> legt man die Annahme der Normalverteilung zugrunde, haben Mittelwert und Standardabweichung immer eine einheitliche Bedeutung
-> die meisten Analyseverfahren in der Statistik beruhen auf dieser Annahme
Z-Standardisierung
Ausgangspunkt: einzelne Messwerte und Kennwerte lassen sich schwer vergleichen, wenn sie von verschiedenen Messinstrumenten (Skalen) stammen
Beispiel:
Tim hat im Abitur in Bayern 620 Punkte
Mia im Abitur in Sachsen 640 Punkte -> ist Mia wirklich besser, wenn wir wissen, dass das Abitur in Sachsen
etwas leichter war?
Lösung:
Daten auf eine einheitliche Skala transformieren
-> eine Transformation berücksichtigt meist Lage und Streuung von Verteilungen
-> bei der z-Transformation bekommt jede Person einen neuen Wert zugewiesen, der nun vergleichbar (standardisiert) ist:
Standartnormalverteilung
z-Werte bilden eine standardisierte Skala
sie haben immer einen Mittelwert von 0 und eine SD von 1
sind die Ausgangswerte normalverteilt, ergibt die z-Verteilung eine Standardnormalverteilung:
-> jedem z-Wert kann ein bestimmter Flächenanteil der SNV zugeordnet werden
-> Der Flächenanteil entspricht der Auftretenswahrscheinlichkeit für diesen Wert und alle kleineren Werte
->beide sind überdurchschnittlich
-> Tim hat aber – im standardisierten Vergleich – die bessere Leistung erreicht
Zuletzt geändertvor einem Jahr