Vorteile von R
kostenlos
sehr aktuell (täglich neue Pakete)
gutes Datenmanagement
flexible Erstellung von Grafiken
Automatisierung von Abläufen
-> Zeitersparnis u. geringere Fehleranfälligkeit
gleiche Analyseverfahren wie SPSS u. sogar noch mehr
deskriptive Statistik
bezieht sich auf eine konkrete Stichprobe (Objekte die tatsächlich untersucht wurden)
Beschreibung von Daten anhand
statistischer Kennwerte
Grafiken
Diagrammen
Tabellen
Inferenzstatistik
Rückschlüsse auf die Population werden gezogen
wichtige Kennwerte der deskriptiven Statistik
Häufigkeiten
absolute Häufigkeiten
relative Häufigkeiten
Maße der zentralen Tendenz
Modalwert
Median
arithmetisches Mittel
Maße der Dispersion
Streubereich & Spannweite (Variationsbreite, Range)
Interquatilsbereich & Interquartilsabstand
Varianz & Standardabweichung
absolute Häufigkeit= Zählung von Elementarereignissen (Elemente mit dem gleichen interessierenden Merkmal)
relative Häufigkeit= absolute Häufigkeit geteilt durch die Gesamtanzahl
Prozentwerte= relative Häufigkeit x 100
Definition und Maße
Definition: in einer Zahl soll ausgedrückt werden, welcher Wert der typischste/ repräsentativste für die Verteilung ist
Maße
Modalwert (für alle Skalenniveaus)
Median (min. Ordinalskalenniveau)
arithmetisches Mittel (min. Intervallskalenniveau)
Erklärung der unterschiedlichen Maße
Modalwert (Modus, M0)
Wert der Verteilung der am häufigsten vorkommt
kann auch mehrere Modalwerte geben (CAVE: R gibt nut den kleinsten Wert an)
sinnvoll v.a. bei nominalskalierten Daten
Median (Md)
Wert, der die geordnete Reihe der Messwerte in die obere u. unteren 50% einteilt
min. Ordinalskalenniveau
weniger anfällig für Ausreißer
arithemtisches Mittel (Mittelwert, “Durchschnitt”, x mit einem Querstrich drüber)
häufigstes Maß der zentralen Tendenz
min. Intervallskalenniveau
Benennung der Verteilungen mit unterschiedlichen Modalwerten
bi-modale Verteilung: zwei Modi
tri-modale Verteilung: drei Modi
multi-modale Verteilung: mehrere Modi >1
Median-Split
metrische Variable wird auf Nominalskalenniveau runtergebrochen
entweder >Median
oder <Median
dadurch kann man die Stichprobe teilen
gewichtetes arithmetisches Mittel (GAM)
Definition u. Maße
Definition: in einer einzigen Zahl wird ausgedrückt wie unterschiedlich die Merkmalsausprägungen über die Merkmalsträger hinweg sind
Streubereich u. Spannweite
Interquartilsbereich u. -abstand
Ausreißer u. Extremwerte
Varianz u. Standardabweichung
Erklärung der Maße
Streubereich (SB): Wertebereich, indem sich alle beobachteten Werte befinden
Spannweite (Variationsbreite, Range): Abstand zwischen dem größten u. niedrigsten Wert
da nur 2 Werte einfließen
eingeschränkte Aussagekraft
empfindlich gegenüber Ausreißern
IQB: Angabe des 1. und 3. Quartil
IQA: Abstand vom 1. bis zum 3. Quartil
Varianz: mittlere quadrierte Abweichung aller Einzelwerte vom Mittelwert
beschreibt wie weit die Merkmalsausprägungen vom Mittelwert der Verteilung entfernt sind
Standardabweichung: Wurzel aus der Varianz
häufig besser verwendbar, da man die usprünglichen Einheiten u. nicht die quadrierten hat
denn Werte, die stark vom Mittelwert abweichen, werden auch noch quadriert
p-Quantil
p-Wert liegt zwischen 0 u.1
p x 100% der Daten sind kleiner o. gleich dem Wert des p-Quantils
1. Quartil: 0,25 x 100%= 25%
(1-p) x 100% der Daten sind größer o. gleich dem Wert des p-Quantils
(1-0,25) x 100%= 75%
Quartil
Definition
beschreibt einen Wert unterhalb von dem sich ein gewisser Anteil der Verteilung befindet
Bsp: beim 1. Quartil befinden sich 25% drunter u. 75% der Verteilung drüber
Definition u. Umgang
Defintion: Werte, die deutlich von den anderen Werten abweichen (diese Werte werden vor der Analyse entfernt)
ab wann gilt der Wert als Ausreißer/ Extremwert?
feste Werte/ Cut-off-Werte
z.B. Reaktionszieten <200ms und >3s
relative Werte: Identifikation anhand der Verteilung der Reaktionszeiten innerhalb einer Untersuchungseinheit
Ausreißer: Wert liegt mehr als 1,5 IQA unterhalb des 1. bzw oberhalb des 3. Quartils
Extremwerte: Wert liegt mehr als 3 IQA unterhalb des 1. bzw. oberhalb des 3. Quartils
Welches Diagramm für…
Häufigkeiten u. Prozentwerte
Verteilungen
Mittelwerte
Zusammenhänge
Balkendiagramme
Histogramme
Kreisdiagramme
Box-Whisker-Diagramme
Scatterplots
Diagramme für Häufigkeiten u. Prozentwerte
Balkendiagramm
geeignet v.a. für diskrete Variablen mit wenigen Stufen
jeder Wert einer Variablen erhält einen Balken
Höhe der Balken gibt die Anzahl der Untersuchungsobjekte an, die den jeweiligen Variablenwert haben
Histogramm
Darstellung von Häufigkeitsverteilungen
geeignet für kontinuierliche Variablen o. gruppierten Daten
Unterschied zum Balkendiagramm
Daten werden in Gruppen sortiert
Fläche des Balkens stellt die absolute/ relative Häufigkeit dar (beim Balkendiagramm nur über die Höhe)
Höhe des Balkens
bei ungleich breiten Balken: Häufigkeitsdichte
bei gleich breiten Balken: absolute/ relative Häufigkeit
X-Achse: Merkmalsausprägungen
Y-Achse: Häufigkeiten der Merkmalsausprägungen
Kreisdiagramm
Größe des Kreissegments repräsentiert die Anzahl an Untersuchungsobjekten mit dem jeweiligen Variablenwert
unüblich in der Wissenschaft (Verwendung eher in der Wirtschaft)
Bestimmung der Kategorienzahl
Berechnung Häufigkeitsdichte bei ungleich großen Intervallen
Bestimmung Kategorienzahl k nach Sturges (1926)
N= Anzahl der Untersuchungsobjekte
Häufigkeitsdichte auf der y-Achse bei ungleich großen Intervallen
Diagramme für Verteilungen
anderer Name: Boxplots
weil wir Differenzen verwenden (IQA)
u.a. nützlich für Ausreißeranalyse
standardmäßige Darstellung mehrerer Kennwerte
Q1 und Q1, IQA
“Whiskers” (Ausreißer)
oben: max. Q3 + (1,5 x IQA)
unten: min. Q1 - (1,5 x IQA)
Ausreißerwerte (>1,5 IQA von Q1 oder Q3 entfernt)
weitere Kennwerte je nach genutzten Programm
Diagramme für Mittelwerte
sehr häufig
v.a. sinnvoll, beim Vergleich von Bedingungen/ Gruppen
Darstellung
x-Achse: UV
y-Achse: AV
Fehlerbalken: Darstellung der Dispersion (mehrere Möglichkeiten)
Standardfehler
Konfidenzintervalle
Beispiel: Balken endet beim Mittelwert und dann kommt zusätzlich der Fehlerbalken
Diagramme für Zusammenhänge
anderer Name: Streudiagramme
Darstellung des Zusammenhangs zwischen zwei metrischen Variablen
könnte es theoretisch auch bei nominalskalierten Variablen verwenden
jeder “Punkt” steht für ein Untersuchungsobjekt
Steigung der Regressionsgeraden gibt an
ob positiver o. negativer Zusammenhang
Verteilung der Punkte entlang der Geraden gibt an
Stärke des Zusammenhangs
je mehr Punkte dicht an der Geraden, desto stärker der Zusammenhang
wenn Punkte sich großflächig verteilen, dann schwacher Zusammenhang
Hinweise zur Erstellung von Diagrammen
in R hat man viele Freiheitsgerade u. kann dadurch schöne Diagramme erstellen
verschiedene Formen, Linienstriche, Beschriftungen, Größen,Farben….verwenden
Programme
R Basisfunktionen
Grafikpaket ggplot2
Wahl des Wertebereichs der Achsen
Wertebereich sollte so gewählt werden, dass kein falsches Bild von der Größe des Effekts entsteht (z.B. wird ein kleiner Effekt groß, wenn man den Wertebereich der Achse stark einschränkt)
Vergleichbarkeit von Wertebereichen (z.B. bei verschiedenen Skalen des desselben Fragebogens)
Zuletzt geändertvor einem Jahr