Kovarianz und Korrelation
Defintion und Gemeinsamkeiten
Kovarianz
“gemeinsame Varianz” zweier Variablen
Kovarianz hängt stark von den Maßeinheiten der Variablen ab (z.B. ob kg oder g)
empirische Kovarianz (obere Formel) -> wird ähnlich wie die Varianz berechnet
geschätzte Populationskovarianz (unterer Formel)
nicht erwartungsgetreu d.h. bei größerem N nähert sich der Schätzer der Null und nicht dem Populationswert
Produkt-Moment-Korrelation
Kovarianz zweier z-standardisierter Variablen
am häufigsten verwendet
anderer Name: Pearson-Korrelation, Bravais-Pearson-Korrelation, nur Korrelation
empirische Korrelation (obere Formel)
kein Mittelwert in der Formel, denn der ist schon in der z-Standardisierung enthalten
geschätzte Populationskorrelation (untere Formel)
Gemeinsamkeiten
Maß für den linearen Zusammenhang von zwei Variablen
positive Kovarianz/ Korrelation
gleichgerichteter Zusammenhang
ein hoher Wert der einen Variablen geht mit einem hohen Wert der anderen Variablen einher
negative Kovarianz/ Korrelation
gegengerichteter Zusammenhang
ein hoher Wert der einen Variablen geht mit einem geringen Wert der anderen Variablen einher
Scatterplots
Definition
Dataframe in R
anderer Name: Streudiagramm
Darstellung des Zusammenhangs zwischen zwei Variablen
jedes Symbol steht für ein Objekt
pro Objekt eine Zeile
zwei Spalten: enthalten die Variablen zwischen denen der Zusammenhang untersucht werden soll
graphische Darstellung von Zusammenhängen zwischen
zwei metrischen Variablen
dichotomer und metrischer Variable
zwei dichotomen Variablen
für die Interpreation muss man die Kodierung der dichotomen Variablen kennen
für die Interpretation muss man die Kodierung der dichotomen Variablen kennen -> nur dann Aussage möglich ob positiver/ negativer Zusammenhang
Interpretation des Korrelationskoeffizienten
Wertebereich
-1 bis +1
Interpretation
-1 ≤ 𝑟 < 0: negativer Zusammenhang
𝑟 ≈ 0: kein Zusammenhang
0 < 𝑟 ≤ 1: positiver Zusammenhang
Korrelationen sollten nicht kausal interpretiert werden, denn ein Zusammenhang kann bedeuten, dass…
Variable A auf B wirkt
Variable B auf C wirkt
oder eine Variable C auf A und B wirkt und dadurch der Zusammenhang zwischen A und B entsteht
graphische Beispiele für Produkt-Moment-Korrelationen
Selektionsfehler
durch unsere Stichprobenziehung erhalten wir immer nur einen Ausschnitt aus der Population
kann passieren, dass wir genau so gezogen haben, dass ein verfälschtes Bild vom wahren Zusammenhang erhält
der Wertebereich, der einen interessiert, muss in der Studie auch repräsentiert sein
Signifikanztest
t-Test ob die Korrelation signifikant oder nur durch Zufall entstanden ist
Hypothese aufstellen
Berechnung der Prüfgröße
Berechnung Freiheitsgrade
R-Output
Stichprobenumfangsplanung auf Grund der Effektgröße
Mittelwerte von Korrelationen
Fisher-z-Transformation
Korrelationskoeffizienten sind nicht intervallskaliert -> darf nicht einfach das arithmetische Mittel berechnen
Fisher-Z-Transformation: zur Bestimmung des Mittelwerts
Berechnung der Fisher-Z-Transformation für die verschiedenen Korrelationskoeffizienten
Wertebereich von -unendlich bis +unendlich
Berechnung des gewichteten Mittelwert der z-Werte
Retransformation des Mittelwerts in einen Korrelationskoeffizienten
Wertebereich von -1 bis +1 -> besser interpretierbar
Fisher-Z-Transformation
Anwendungsmöglichkeiten
Test der Produkt-Moment-Korrelation gegen einen Wert ungleich 0
Test der Gleichheit von zwei Korrelationskoeffizienten
Voraussetzungen
mind. Intervallskalenniveau beider Variablen
Ausnahme: dichotome Variablen
bivariate Normalverteilung
zwei Merkmale werden gemeinsam erhoben
dabei ist nicht nur die Verteilung jedes Merkmals für sich allein, sondern auch deren gemeinsame Verteilung normalverteilt
in diesem Fall ergibt die grafische Darstellung der gemeinsamen Verteilung eine (dreidimensionale) Glockenform
Linearität des Zusammenhangs
Homoskedastizität
d.h. gleiche Streuung der y-Werte für verschiedene x-Wert
Umgang mit Verletzungen von Voraussetzungen
Ausreißer-Analyse
Prüfung der Robustheit und dann eventuelles Ignorieren
Simulationsstudien: t-Test der Nullhypothese sehr robust wenn Test gegen 0
Erhebung einer größeren Stichprobe
Transformation von Variablen
z.B. Logarithmiere
Verwendung eines alternativen Testverfahrens
z.B. wenn keine metrischen Variablen vorliegen
Korrelationsmaße für ordinale Daten
ordinal singuläre Variablen
ordinal kategoriale Variablen
Rangkorrelation nach Kendall
Korrelation bei min. einer dichotomen Variablen
eine dichotome und eine metrische
punktbiseriale Korrelation
biseriale Korrelation
zwei dichotome Variablen
Verwendung eine alternativen Testverfahrens
Untersuchung von Rangplätzen (z.B. 100m-Lauf)
Rangbindungen: Personen, die sich einen Rang teilen, haben exakt die gleiche Merkmalsausprägung (z.B. gemeinsamer Zieleinlauf)
Korrelationsmaß (wenn keine Rangbindung): Kendalls τ
kategoriale Daten mit geordneten Kategorien (z.B. Schulnoten, Item mit 5-stufiger Skala)
Rangbindung: Personen, die sich einen Rang teilen haben oft leicht unterschiedliche Merkmalsausprägungen. Durch die Kategorisierung bekommen sie den gleichen Wert
Korrelationsmaß: Koeffizient γ
bei naürlicher Dichotomie (z.B. Bedingungen im Experiment: KG vs EG)
kann die Formel zur Produkt-Moment-Korrelation verwenden (sind ineinander überführbar)
bei künstlicher Dichotomie (z.B. eine metrische Variable wie die Anzahl der Besuche der Kieler Woche werden auf eine Dichotomie runtergebrochen)
Formel besprechen wir nicht
Koeffizient 𝜑
gibt eine spezifische Formel, die man nicht braucht, da der Koeffizient der gleich wie der Koeffizient der Produkt-Moment-Korrelation ist
Ergebnisbericht
Korrelationsanalysen
Zusammenfassung
Last changeda year ago