Frage 36
Leicht
Zwischen den Noten in Statistik und den Noten in Sozialpsychologie wurde ein Rangkorrelationskoeffizient von –0.65 ermittelt. Interpretieren Sie diesen Wert sowohl aus statistischer als auch aus inhaltlicher Sicht.
3.2 Rangkorrelationsanalyse
3. AUSWERTUNGSMETHODEN ZWEIDIMENSIONALER DATEN
Kurze Lösung
starker, negativ monotoner Zusammenhang
Ausführliche Lösung
Aus statistischer Sicht steht das Ergebnis für einen starken, monoton fallenden Zusammenhang. Sind die Noten in Statistik besser, sind diese in Sozialpsychologie oftmals schlechter und umgekehrt.
Interpretation
rS kann ausschließlich Werte zwischen −1 und +1 annehmen.
rS positive
monoton wach- sender Zusammenhang bzw. gleichgerichteter Zusammenhang zwischen den beiden betrachteten Merkmalen
rS negativen
monoton fallender bzw. entgegengesetzter Zusammenhang.
rS = 0
kein monotoner Zusammenhang.
muss nicht bedeuten, dass generell kein Zusammenhang zwischen den betrachteten Merkmalen existiert.
sicher, dass dieser nicht monoton ist.
0 ≤ rS ≤ 0,2: kein monotoner Zusammenhang,
0,2 < rS ≤ 0,4: schwacher monoton fallender/wachsender Zusammenhang,
0,4 < rS ≤ 0,6: mittlerer monoton fallender/wachsender Zusammenhang,
0,6 < rS ≤ 0,8: starker monoton fallender/wachsender Zusammenhang
0,8 < rS ≤ 1: sehr starker monoton fallender/wachsender Zusammenhang.
Frage 40
Ist es möglich, dass in einem Streudiagramm alle Punkte im I. und II. Quadranten liegen? Begründen Sie Ihre Antwort.
3.3. Korrelationsanalyse
Dies ist nicht möglich. Es würde bedeuten, dass alle Beobachtungen bzgl. des Merkmals 𝑌 oberhalb des Durchschnitts liegen. Dies kann nicht sein. Es gibt immer Beobachtungen, welche oberhalb des Durchschnitts liegen. Genauso existieren aber auch Beobachtungen, welche sich unterhalb des Durchschnitts befinden. Es muss demnach auch immer Beobachtungen im III. und/oder IV. Quadranten geben.
Kovarianz
Zähler des Korrelationsko- effizient von Bravais-Pearson rx, y bezeichnet man auch als Kovarianz
Kovarianz entscheidet über das Vorzeichen von rx, y.
Befinden sich die meisten Beobachtungen im I. und III. Quadranten, so wird die Kovarianz und damit auch rx, y positiv.
Ist hingegen der größte Teil aller Beobachtungen im II. und IV. Quadranten angesiedelt, so erhält man eine negative Kovari- anz und auch insgesamt einen negativen Korrelationskoeffizienten.
Ist der Korellationskoeffizient 0
so ist die Kovarianz 0
kann zwischen den Merkmalen ein nicht linearer Zusammenhang bestehen
rxy negativ
Kovarianz negativ
haben die Ausprägungen des einen Mewrkmals eine steigende die Ausprägungen den anderen Merkmales eine fallende Tendenz
Frage 48
Mittel
Sie möchten den Einfluss der Ausbildungsdauer in Jahren auf das aktuelle Einkommen in Euro untersuchen. Wie müssen die Punkte im Streudiagramm in etwa angeordnet sein, damit eine lineare Regressionsanalyse sinnvoll erscheint?
4.1. Grundlagen der einfachen linearen Regression
4. LINEARE REGRESSION
Die Punkte im Streudiagramm sollten sich annähernd durch eine lineare Funktion beschreiben lassen, damit eine lineare Regressionsanalyse als sinnvoll erachtet werden kann.
Methode
4.2 Bestimmung der Regressionsgerade
verwendete statistische Methode ist die Methode der kleinsten Quadrate
Residuum
Ein Residuum ist der Abstand zwischen dem tatsächlichen y-Wert und dem auf Basis der Regressionsgeraden geschätzten y-Wert.
Die Methode der kleinsten Quadrate hat zum Ziel, die Summe dieser Fehler zu minimieren.
Highlight : Man nimmt die quadrierten Abwei- chungen, da einige Punkte nach oben und andere nach unten von der Regressionsgeraden abweichen.
Frage 57
Es soll der Einfluss des Alters auf das Einkommen mithilfe einer einfachen linearen Regression geprüft werden. Erläutern Sie – bezogen auf diesen Fall – den Unterschied zwischen erklärter und nicht erklärter Streuung.
4.3. Qualitätsbeurteilung
• erklärte Streuung: Streuungsanteil, welcher auf das Alter zurückzuführen ist;
• nicht erklärte Streuung: Streuungsanteil, welcher auf andere Faktoren oder Fehler zurückzuführen ist
Die erklärte Streuung beschreibt den Teil der Streuung der abhängigen Variable (hier: Einkommen), welcher auf die unabhängige Variable (hier: Alter) zurückzuführen ist. Die Variation im Einkommen zwischen einzelnen Individuen kann demnach zum Teil durch das Alter erklärt werden.
Die nicht erklärte Streuung ist der Teil der Variation der abhängigen Variable (wiederum das Einkommen), welche nicht erklärt werden kann. Es mag noch weitere Faktoren neben dem Alter geben, welche ebenfalls ausschlaggebend für das Einkommen sind. Da diese in dem vorliegenden Kontext nicht berücksichtigt werden, ist der Teil der Variation im Einkommen nicht erklärbar.
3 Kriterien
4.3 Qualitätsbeurteilung
• der Korrelationskoeffizient von Bravais-Pearson,
• das Bestimmtheitsmaß sowie
• der Standardfehler.
drei Kriterien zur Beurteilung der Regressionsge- rade Hand in Hand gehen.
Haben wir eine hohe Korrelation (egal, ob positiv oder negativ), so mündet dies in einem hohen Bestimmtheitsmaß und demzufolge in einem niedrigen Standardfehler und auch relativen Standardfehler.
Korrelation niedrig (egal, ob positiv oder negativ), so resultiert ein niedriges Bestimmtheitsmaß und damit ein großer Fehler in Form des Standardfehlers und relativen Standardfehlers.
Korrelationskoeffizient + Bestimmtheitsmaß
Korrelationskoeffizient rxy
Qualität der Regressionsgerade hinsichtlich der Linearität zu beurteilen:
Wenn die Punkte im Streudiagramm nicht annähernd einen linearen Verlauf annehmen, dann sollte man die berechnete lineare Gerade nicht nutzen, um gar Prognosen auf Basis dieser anzustel- len.
Korrelationskoeffizient Werte zwischen −1 und +1 annehmen kann und dass die Nähe zur +1 bzw. −1 für einen starken linearen Zusammenhang spricht.
Im Kontext dieser linearen Regressionsanalyse sollten wir mindestens auf einen Korrelations- koeffizienten von 0,5 oder −0,5 stoßen, um von einem angemessenen linearen Zusam- menhang sprechen zu können.
Bestimmtheitsmaß (= der Korrelationskoeffizient ^2 bzw quadriert)
gibt den Erklärungsgehalt eines Regressionsmodells wider
wichtigste Beurteilungskriterium, für eine aufgestellte Regressionsgerade
der Anteil der Streuung der abhängigen Variablen, welcher durch die unabhängige Variable erklärt werden kann
Nicht erklärte Streuung entsteht durch nicht berücksichtigte Variablen und Messfehler.
Gesamtstreuung = erklärte Streuung + nicht erklärte Streuung
Würde R^2 = 0 resultieren, so ließe sich die Streuung der abhängigen Variablen in keiner Weise durch die unabhängige Variable erklären.
Für R^2 = 1 spricht man von einem vollständigen Erklärungsgehalt, da sich die Streuung der abhängigen Variablen perfekt durch die unabhängige Variable erklären lässt.
Alle Punkte im Streudiagramm lägen auf einer Geraden, sodass der Korrelationskoeffizient +1 oder −1 beträgt und demzufolge das Bestimmtheitsmaß bei 1 bzw. 100 % liegt.
Im Allgemeinen ist ein R^2 in der Nähe von 1 wünschenswert. In der Praxis gilt, dass man mit einem Bestimmtheitsmaß von mindestens 0,3 bzw. 30 % sehr zufrieden ist.
Standardfehler
Standardfehler beschreibt den absoluten Schätzfehler bei der Nut- zung des Regressionsmo- dells.
Der relative Standardfeh- ler gibt den Standardfeh- ler in prozentualer Form
Frage 74
Erläutern Sie den Unterschied zwischen einer binomialverteilten und einer geometrisch verteilten Zufallsvariable.
6.1. Diskrete Verteilungen
Lektion 6 — Spezielle Wahrscheinlichkeitsverteilungen
• Binomialverteilung: zählt die Erfolge
• geometrische Verteilung: zählt die Misserfolge bis zum ersten Erfolg
Eine binomialverteilte Zufallsvariable zählt die Erfolge innerhalb einer bestimmten Anzahl an Bernoulli-Vorgängen. Eine geometrisch verteilte Zufallsvariable zählt hingegen die Misserfolge bis zum ersten Erfolg.
Normalverteilung
6.2 Stetige Verteilungen
Normalverteilte Zufallsvariablen
zeichnen sich dadurch aus, dass ein bestimmter Wertebereich einer Vari- able mit einer großen Wahrscheinlichkeit auftritt, während andere Wertebereiche mit eher geringerer Wahrscheinlichkeit vorkommen.
verteilt sich symmetrisch um einen Erwartungswert.
gegeben sein muss, ob eine Variable normalverteilt ist oder nicht.
Zusätzlich müssen uns zwei Parameter bekannt sein.
μ = welchen Erwartungswert die normalverteilte Zufallsvariable annimmt
Varianz σ2 oder der Standardabweichung σ = Streuung der betrachteten Variablen gegeben sein
Die Tatsache, dass eine Zufallsvariable X normalverteilt mit dem Erwartungswert μ und der Varianz σ2 ist, schreibt man auch als X N μ, σ2 .
Standardnormalver- teilung
Standardnormalverteilung stellt einen Spezi- alfall der Normalvertei- lung dar —> z = standardnormalverteilte Zufallsvariable
immer einen Erwartungswert von 0 (μ = 0) und eine Varianz und damit Standardabweichung von 1 (σ2 = σ = 1)
t-Verteilung
Mit der t-Verteilung wird eine der Standardnormalverteilung nahverwandte Verteilung für kleine Stichproben beschrieben.
kann – anders als die Standardnormalverteilung – berücksichtigen, wie stark eine Stichprobe besetzt ist. Es gilt, dass mit zunehmendem Stichprobenumfang die t-Verteilung der Standardnormalverteilung sehr ähnlich wird, bis hin zur Deckungsgleichheit. Ab einem gewissen Punkt sind auch die Varianz bzw. Standardabweichung gleich 1, so wie bei der Normalverteilung.
Frage 84
Wann gilt ein Punktschätzer als konsistent?
7.1. Punktschätzung
Lektion 7 — Statistische Schätzverfahren
Annäherung an den wahren Wert mit steigendem Stichprobenumfang
Ein (Punkt-)Schätzer ist konsistent, wenn dieser sich mit steigendem Stichprobenumfang dem (unbekannten) wahren Parameterwert in der Grundgesamtheit annähert.
Frage 85
Welcher Umstand würde dazu führen, dass Punktschätzer präziser werden?
steigender Stichprobenumfang
Besteht eine Stichprobe bspw. aus 150 Beobachtungen anstatt nur 15 Beobachtungen, werden sämtliche Schätzer (Erwartungswert, Varianz, Standardabweichung) präziser. Dies hängt mit der Konsistenz zusammen: Je größer eine Stichprobe, desto stärker nähert sich das auf Basis der Stichprobe erzielte Ergebnis dem der Grundgesamtheit an.
Nachteil von Punktschätzern
Nachteil von Punktschätzern ist, dass man sich auf einen speziellen Wert für den Mittelwert, die Varianz oder die Standardabweichung festlegt. Die Chance, dass unser wahrer Wert der Grundgesamtheit durchaus mal ein wenig abweicht, ist damit nicht so gering. Aus dem Grund greift man nicht selten auf Intervalle zurück,
Konfidenzintervalle mit bekannter und unbekannter Varianz im Vergleich
7.2 Intervallschätzung
• Varianz oder Standardabweichung in der Grundgesamtheit bekannt: Quantil der Standardnormalverteilung (z) nutzen.
• Varianz oder Standardabweichung in der Grundgesamtheit unbekannt: Quantil der tVerteilung nutzen und Stichprobenvarianz und Standardabweichung auf Basis der Stichprobe berechnen.
Probleme bei der Interpretation von Korrelationen
3.4 Zusammenhangsmaßzahlen bei verschiedenen Skalenniveaus
Korrelation muss aber nicht gleichzeitig Kausalität bedeuten.
sog. Scheinkorrelationen, was bedeutet, dass eine dritte Variable für die hohe Korrelation verantwortlich ist.
Nonsensekorrelation verbunden. Man sollte nie einer hohen Korrelation zwischen zwei vollkommen sachfremden Variablen stär- kere Beachtung schenken
beiden Korrelationskoeffizienten nach Spearman und nach Bravais-Pearson beachtet, dass eine Korrelation in Höhe von 0 lediglich dafür steht, dass kein monotoner bzw. linearer Zusammenhang vorliegt. Dass dennoch ein anders gearteter Zusammenhang vorliegt, ist keinesfalls auszuschließen. Man sollte dem- nach nie pauschal behaupten, dass kein Zusammenhang bestünde
Frage 94
Erklären Sie, was man unter dem Fehler 1. Art und unter dem Fehler 2. Art versteht.
8.1. Methodik
Lektion 8 — Hypothesentests
• 𝐻o ablehnen, obwohl 𝐻 richtig ist.
• 𝐻o nicht ablehnen, obwohl 𝐻o falsch ist.
Der Fehler 1. Art beschreibt den Umstand, dass eine Hypothese 𝐻o irrtümlich abgelehnt wird, obwohl diese in der Realität „wahr“ ist. Hingegen beschreibt der Fehler 2. Art den Umstand einer irrtümlichen Nichtablehnung einer Hypothese 𝐻o, obwohl diese in Wirklichkeit „falsch“ ist.
Frage 95
Erläutern Sie anhand eines selbstgewählten Beispiels, was unter Veränderungshypothesen zu verstehen ist.
zwei verschiedene Zeitpunkte; Veränderung einer Variablen von einem zum nächsten Zeitpunkt
Eine Veränderungshypothese geht davon aus, dass sich eine bestimmte Variable von einem Zeitpunkt zu einem weiteren Zeitpunkt verändert. Man könnte bspw. die Hypothese aufstellen, dass sich das Gehalt von Angestellten durch den Besuch einer Fortbildung erhöht. Man würde vermuten, dass das Gehalt nach dem Besuch der Fortbildung höher ist als vorher.
Frage 96
Sie möchten untersuchen, ob Ärzt:innen mehr Stunden arbeiten als Psycholog:innen. Formulieren Sie das Hypothesenpaar in verbaler Form.
• 𝐻o: Ärzt:innen arbeiten höchstens so viele Stunden wie Psycholog:innen.
• 𝐻1: Ärzt:innen arbeiten mehr Stunden als Psycholog:innen.
Das „mehr als“ muss immer in der Alternativhypothese formuliert werden. Demzufolge lautet sie „Ärzt:innen arbeiten mehr Stunden als Psycholog:innen.“. In der Nullhypothese muss das gesamte Gegenteil stehen. Ärzt:innen und Psycholog:innen können demnach entweder gleich viel arbeiten oder aber Ärzt:innen arbeiten weniger Stunden als Psycholog:innen. Insgesamt wird dies durch „höchstens so viel“ zusammengefasst und die Nullhypothese lautet „Ärzt:innen arbeiten höchstens so viele Stunden wie Psycholog:innen.“.
Frage 97
Sie testen die Nullhypothese, dass Männer und Frauen gleich viel verdienen. Nun kommen Sie zu dem Ergebnis, dass die Nullhypothese nicht abgelehnt werden kann. Welchen statistischen Fehler können Sie an der Stelle begehen?
Fehler 2. Art
Wenn die Nullhypothese nicht abgelehnt wird, kann es sein, dass diese Entscheidung nicht korrekt ist. Die Nullhypothese könnte demnach fälschlicherweise beibehalten werden, obwohl diese nicht korrekt ist. Dies entspricht dem Fehler 2. Art.
Frage 98
Schwer
Warum kann die Nullhypothese abgelehnt werden, wenn der p-Wert geringer als das Signifikanzniveau 𝛼 ist?
Die Gefahr eines Fehlers 1. Art ist dann klein genug.
Das Signifikanzniveau 𝛼 gibt die Wahrscheinlichkeit an, dass der Fehler 1. Art auftritt. Diese Wahrscheinlichkeit wird von den Wissenschaftler:innen im Vorfeld des Tests festgelegt.
Der p-Wert gibt ebenfalls die Wahrscheinlichkeit für das Auftreten des Fehlers 1. Art an, wird aber im Rahmen der Testprozedur selbst berechnet. Ist folglich der p-Wert geringer als 𝛼, so liegt die (berechnete) Wahrscheinlichkeit für das Auftreten des Fehlers 1. Art unterhalb des Wertes, den die Wissenschaftler:innen vorgegeben (und damit toleriert) haben. Die Nullhypothese kann sodann verworfen werden.
Frage 100
Erläutern Sie, warum bei einem linksseitigen Test auf einen Erwartungswert sowohl die Prüfgröße als auch der kritische Wert als Betragswert betrachtet werden können.
8.2. Eindimensionaler Erwartungswert-Test bei bekannter Standardabweichung (𝒛-Test)
Die Symmetrie um den Erwartungswert 0 lässt positive und negative Werte gleich weit vom Erwartungswert entfernt sein.
Ein linksseitiger Test sorgt dafür, dass sowohl die Prüfgröße als auch der kritische Wert erwartungsgemäß negativ sind. Da das Standardisieren und die Verwendung der Standardnormalverteilung dazu führen, dass sich die Prüfgröße symmetrisch um den Wert 0 herum verteilt, ist es zu vernachlässigen, ob man sich den negativen oder positiven Wertebereich anschaut.
Frage 103
Nehmen Sie an, dass Sie einen zweiseitigen Test auf einen Erwartungswert durchgeführt haben, welcher dazu geführt hat, dass Sie die Nullhypothese nicht ablehnen können, obwohl der Mittelwert der Stichprobe größer als der hypothetische ist. Nun kommt Ihnen die Idee, den gleichen Test noch einmal rechtsseitig durchzuführen.
Besteht die Chance, die Nullhypothese nun abzulehnen? Begründen Sie Ihre Antwort.
Die Möglichkeit, dass nun die Nullhypothese abgelehnt wird, besteht.
Ein einseitiger Test macht es leichter, die Nullhypothese abzulehnen, da der kritische Wert kleiner als bei einem zweiseitigen Test ist. Demzufolge besteht die Möglichkeit, dass die Nullhypothese bei einem einseitigen Test abgelehnt wird, auch wenn dies bei einem zweiseitigen Test nicht möglich ist.
Frage 104
Wie muss das Testprozedere modifiziert werden, wenn die Standardabweichung in der Grundgesamtheit nicht bekannt ist?
Standardabweichung auf Basis einer Stichprobe bestimmen, 𝑡-Statistik anstatt 𝑧- Statistik, kritischer 𝑡-Wert
Ist die Standardabweichung in der Grundgesamtheit unbekannt, aber alle anderen Annahmen nach wir vor gültig, muss das Testprozedere an zwei Stellen modifiziert werden. Erstens ist die 𝑡-Statistik als Stichprobenfunktion für die Prüfgröße zu verwenden. Dafür muss die Standardabweichung 𝑠 der Stichprobe genutzt werden Zweitens muss beachtet werden, dass die Prüfgröße nun 𝑡-verteilt mit 𝑛 - 1 Freiheitsgraden ist.
Zuletzt geändertvor 16 Tagen