Reliabilität Definition und Messmethoden
- Definition Reliabilität: Messgenauigkeit eines Tests = Anteil der Varianz der wahren Werte an der beobachteten Varianz
- Methoden
Paralleltest-Reliabilität( zwei Tests mit selber Varianz und Mittelwert, die quasi das selbe messen
o Retest-Reliablilität
o Splithalf-Reliabiltiät
o Interne Konsistenz (zusammenhänge/Korrelation aller Items untereinander, theoretisch Split-half aber jedes Item ist ein Test allerdings nicht = Eindimensional)
Paralleltest-Reliabilität
o ( zwei Tests mit selber Varianz und Mittelwert, die quasi das selbe messen)
§ Problem: aufwendig zu machen und praktisch kaum relevant (höchstens in Messwiederholungsdesigns zum Vermeiden von Lerneffekten)
· ggf Wie lang das Intervall zwischen den Tests wenn es eins gibt ?
Retest-Reliablilität Probleme
§ Problem:
· Testungseffekte (Übung, Lern, Ermüdungseffekt)
o Systematische Übungseffekte sind kein problem
§ Unsystematisch unterschätzt die Reliabilität
o Erinnerungseffekte Überschätzung der Reliabilität
· Wenn Merkmal instabil (wahrer Wert ändert sich) dann gar nicht gut
o Wahl des Retest- Intervalls abhängig von Instabilität
· Wie lang das Intervall zwischen den Tests ?
§ Vorteil: beide Hälften können in einem bearbeitet werden und nur für auswertung getrennt allerdings Spearman Brown korrigieren
§ Problem: Gleiche Hälften ( durch Odd-Even(bei aufsteigender schwierigkeit) , Zeitpartionierung(bei Speedtests), Itemzwillinge)
· Wenn Hälften nicht gleich (Items zu Heterogen) Unterschätzung Reliabilität
Interne Konsistenz
Cronbachs Alpha
o (zusammenhänge/Korrelation aller Items untereinander, theoretisch Split-half aber jedes Item ist ein Test allerdings nicht = Eindimensional)
§ Cronbachs-alpha
· Formel/Prinzip(unvollst): 1- (Aufsummierte Varianz der einzelnen Items/ Varianz des Tests (inkludiert Co-Varianzen) )
o Je höher die Co-Varianz desto kleiner der Bruch, desto höher die reliabilität
o Wenn mehr Items tendenziell höher
Voraussetzungen
· Keine gleichen Varianzen und Mittelwerte nötig nur T-Äquivalenz:
o Ungleiche Varianzen möglich
o Wahre Werte unterscheiden sich nur durch additive Konstante
o Wenn nicht gegeben nicht falsch dann nur untere Grenze Reliabilität
· Fehler müssen unkorreliert sein
McDonalds Omega
§ o Interne Konsistenz (zusammenhänge/Korrelation aller Items untereinander, theoretisch Split-half aber jedes Item ist ein Test allerdings nicht = Eindimensional)
McDonalds Omega: wenn nicht essentiell Tau Equivalenz, sondern Tau-kongenerisch
· Formel/Prinzip: Summe der Korrelation der Items mit dem Testscore (Faktorladung auf 1 Faktor) / ebd. Plus Summe der Fehlervarianzen der Items
o Also Anteil der durch den Gesamtscore erklärbaren/vorhersagbaren Varianz and der Gesamtvarianz?
o Zusätzliche allgemeine Einflüsse auf Reliabilität:
§ Varianzeinschränkung Unterschätzung der Reliabilität (wenn alle gleich antworten kann ich auch nicht zuverlässig unterteilen ??)
§ Große Stichprobe = genauere Reliabilitätschätzung
Validität
Definition und Arten
- Definition: Übereinstimmung Testergebnisse mit dem was Test messen soll (Wie angemessen ist dh ein Schluss auf Merkmal/Verhalten auf Basis des Testergebnisse
o Wenn Validität nicht stimmt dann direkt in die Tonne Sonst bei anderen Kriterien kann man noch abwägen
- Arten (So viele wie Schlussfolgerungen gezogen werden sollen)
o Inhaltsvalidität (Repräsentativität/Vollständigkeit)
o Kriteriumsvalidität (Prädiktionskraft)
o Konstruktvalidität (Wird auf das gezielte Merkmal geschlossen?)
Kriteriumsvalidität teil der Konstruktvalidität
Inhaltsvalidität
o (Repräsentativität/Vollständigkeit)
§ Sind alle Inhalte abgedeckt und auch in realistischem Verhältnis (Wichtiges Stärker gewichtet/häufiger)
§ Nix irrelevantes
§ Wichtig bei Repräsentationsschluss
§ Ermittlung durch quantitative Inhaltsanalyse:
· Expert*innen beurteilen ob Items zu dem intendierten Konstrukt(zb Sorge) oder einem ähnlichen Konstrukt gehören(zb. Angst)
o Idealerweise werden alle Items aus dem Sorge Fragebogen auch Sorge zugeordnet (definitional correspondence)
o Und und kein Item Aus dem Sorge Fragebogen zu Angst zugeordnet (definitional distinctiveness)
Kriteriumsvalidität
o (Prädiktionskraft)
§ Übereinstimmungs-(Kriterium und Prädiktor gleichzeitig erhoben) vs Vorhersagevalidität(Kriterium erst und dann Prädiktor)
§ Inkrementelle Validität (Test muss zusätzlich zu anderen Prädiktoren auch noch Varianz Aufklären/ muss irgenwas neues an den Tisch bringen zusätzliche Validität einer Vorhersage)
§ Kriterium muss direkt messbar sein/konkret
§ Wichtig bei Diagnostischen Entscheidungen
Konstruktvalidität
Grundidee und Messungsmethoden
o (Wird auf das gezielte Merkmal geschlossen?)
§ Grundgedanke (Cronbach und Meel): Das Verhältnis des interessierenden Konstrukts zu anderen Konstrukten sollte sich in den beobachteten Werten der Konstrukte wiederspiegeln (nomologisches Netzwerk)
· Problem: Man weiß nicht ob falsch gemessen oder die Theorie falsch
§ Kriteriumsvalidität auch als teil der Konstruktvalidität
§ Messung:
· Korrelation mit anderen Tests
· Korrelation mit Gruppenzugehörigkeit oder anderen Kriterien ( Kriteriumsvalidität)
· Interne Struktur/faktorielle Validität (Kommen auch so viele Faktoren wie prognostizierte Teilstrukturen des Konstruktes raus ?)
· Zeitliche Entwicklung wie sie sein sollte? (zb. Stabilität, Verläufe )
· Veränderbarkeit durch entsprechende Interventionen
· Untersuchung Antwortprozess (checken ob zb noch Test/Aufgabenverständnis benötigt wird)
Multi-trait-Multi-method Analyse
· Ähnliche Traits (zb Aggressivität und Durchsetzung) mit verschiedenen Methoden messen
o Konvergente Validität(Verschiedene Methoden die dasselbe messen korrelieren stark)
o Divergente Validität (nur schwache Korrelation mit abzugrenzenden ähnlichen Konstrukten bei selber Messmethode)
§ Wenn Minderungskorrektur (wenn die Tests perfekt messen würden) gerechnet sollten die Korrelationsunterschiede nochmal stärker werden (Konvergent Korrelation steigt stärker als Divergent Korrelation )
- Wann Welche Validierungsmethode am ehesten benötigt
o Repräsentationsschluss (Möglichst vollständig) Inhaltsvalidität
o Diagnostische Entscheidungen Kriteriumsvalidität
o Theoriebasierte Interpretation (möglichst klar umrissen und definiert) Konstruktvalidität
Einflussfaktoren auf Validität
o Reliabilität (wenn nicht hoch auch Validität gering)
o Stichprobenumfang (Kleine Stichprobe stark zufallsbeeinflusst über und unterschätzung Korrelationen möglich)
o Repräsentativität der Stichprobe -> kann die Varianz der Antworten (und dh auch Korrelationen) künstlich erhöhen oder senken
o Konfundierung:
Gemeinsame Methodenvarianz erhöht die Korrelation künstlich
o Konfundierung mit gemeinsamen Merkmalen erhöht Korrelation ?
o Symmetrie zwischen Prädiktor und Kriterium wenn nicht vorhanden dann zu niedrige Korrelationen
§ Totale Asymmetrie (unterschiedliche Konstrukte)
§ Partielle Asymmetrie ( Kriterium oder Prädiktor nur ein Teilbereich des anderen/zu eng gefasst)
§ Hybride Asymmetrie (sowohl Prädiktor als auch Kriterium erfassen teilweise etwas irrelevantes
Subkomponenten/Aufbau sollten sowohl in Prädiktor und auch Kriterium vorkommen
- Kritik an Psychologischem Validitätsbegriff:
o Korrelationen≠ Validität
o Es braucht für Validität wissen über Zustandekommen der Messergebnisse durch das Merkmal (Ist aber oft nicht möglich)
Zuletzt geändertvor 19 Tagen