Lehrziele der gesamten Vorlesung
was wollen wir messen? und was muss bei Messung beachtet werden?
wie ein bestimmtes Merkmal ausgeprägt ist
Gütekriterien beschreiben und testbar machen, die sicherstellen, dass die Messung die durchgeführt wird gängigen Kriterien entspricht
– Am wichtigsten: Misst ein Verfahren objektiv? Misst es genau (reliabel)?
Und misst es das, was es zu messen beansprucht? (valide)
Messung = Vorgabe eines Intelligenztests, eines Fragebogens, Durchführung einer Verhaltensbeobachtung, eines Interviews, etc.
2 Arten von Messung
schematische Einbettung von Testpsychologie, Psychologischer Diagnostik und Persönlichkeitspsychologie
Vergleich zu physikalischer Messung
—> gröbere Messung in Psychologie
verschiedene Kriterien, anhand denen Entscheidungen getroffen werden
Der diagnostische Prozess nach Jäger
Wie finde ich heraus, ob ein Verfahren gut ist?
Gütekriterien
• Haupt- und Nebengütekriterien
Welche Gütekriterien gibt es? und Erklärung
Objektivität: 2 Expert:innen: Test gleich durchführen, auswerten und interpretieren
Retestreliabilität: kommt bei 2mal Messung das gleiche raus? (nur bei trait oder leistung, nicht bei state)
Paralleltestreliabilität: ähnlich wie anderer Test
interne Konsistenz: Interkorrelationen von Teilen des Tests
Validität: misst der Test das, was er zu messen vorgibt
Konstruktvalidität: Maß dafür, wie gut ein Test oder ein Instrument die theoretischen Konstrukte, die er messen soll, tatsächlich erfasst
Kriteriumsvalidität: Zusammenhang zwischen Testergebnis und konkreten Leistungen oder Verhaltensweisen außerhalb der Testsituation
Welche Gütekriterien gibt es nohc?
Nebengütekriterien:
Skalierung
Vergleichbarkeit
Ökonomie
Skalierbarkeit
Unterschiede in der Merkmalsausprägung zwischen zwei Personen soll sich in den Unterschieden der Testwerte widerspiegeln
Ein Test ist dann vergleichbar, wenn ein oder mehrere Parallelformen oder Tests mit demselben Gültigkeitsbereich vorhanden sind
Ökonomie:
Ein Test ist dann ökonomisch, wenn er (1) eine kurze bzw. angemessene Durchführungszeit beansprucht und (2) wenig Material verbraucht, wenn er (3) einfach zu handhaben ist, wenn er (4) als Gruppentest durchführbar ist und wenn er (5) schnell und bequem auszuwerten ist
Achtung: Ein Test ist nicht per se ökonomisch, weil er kurz ist und nicht per unökonomisch, weil er lang ist! (z.B. NEO) -> in Relation sehen
Nützlichkeit
Zumutbarkeit
Fairness
Nicht-Verfälschbarkeit
Nützlichkeit:
Ein Test gilt dann als nützlich, wenn er ein Persönlichkeitsmerkmal oder eine Verhaltensweise misst oder vorhersagt, für das oder deren Untersuchung ein praktisches Bedürfnis besteht
Es gibt kein alternatives Verfahren
Ein bestehendes Verfahren wird (z.B. aufgrund von Erweiterungen in einer Theorie oder neuer Theorien) abgelöst (oder ergänzt)
Ein Test Erfüllt das Gütekriterium Zumutbarkeit, wenn er die Testperson absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen in zeitlicher, psychischer (insbesondere energetisch-motivationaler und emotionaler) sowie körperlicher Hinsicht schont
(Un-)Verfälschbarkeit
Tests sollen durch die getestete Person nicht willentlich oder unwillentlich in eine gewünschte Richtung verfälscht werden können
Fairness ist gegeben, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung relevante Gruppen nicht diskriminieren
Normierung
= Eichung
Bezugssystem zur Relativierung des individuellen Testergebnisses = Normtabelle
Normtablle sollte: gültig (nicht veraltet), definierte Population, repräsentative Stichprobe
Welche Bezugssysteme für den Vergleich von
Testwerten gibt es?
1. Testergebnisse anderer Personen einer Bezugsgruppe (Normstichprobe)
2. Testergebnisse derselben Person in anderen psychologisch-diagnostischen Verfahren
3. Testergebnisse derselben Person in demselben Test zu einer anderen Messgelegenheit
4. Vergleich mit einem externen Standard (Kriterium)
Norm- vs. Kriterienorientiertes Testen
• Normorientiertes Testen
– Vergleich mit anderen Personen
– „Relativieren“
• [Kriterienorientiertes Testen
– Vergleich mit einem bestimmten Kriterium (Erreichen vs. Nicht-Erreichen)
– Vorliegen eines cut-off Wertes]
Graph Normwerte
zu beachten bei Interpretation Norm
Altersnormen
Gesamtstichprobe vs. altersspezifische Stichprobe —> Beispiel: bei Gesamt unterdurchschnittlich, bei Alter durchschnittlich —> je nach Fragestellung entscheiden, welche
Bedeutsamkeit eines Monats; jüngere vs. ältere Personen innerhalb einer (Alters-)Kategorie
Charakteristika der Bezugsgruppe
Für wen ist ein Verfahren gemacht? —> immer Vergleichsstichprobe und Testverfahren benennen
Praxisbeispiel zu Norm
Verzerrungen bei Alter: Monate
Was bedeutet ein IQ = 100?
Bezugsgruppe und Testverfahren benennen bei Angabe von IQ
Zustandekommen Normstichprobe
Möglichst repräsentativ —> zukünftiger Einsatzbereich
Idealfall: Man kann per Zufall aus einer (bekannten) Grundgesamtheit Personen auswählen (Ziehen), die dann den Test bearbeiten
in der Praxis typischerweise nicht möglich (pragmatische Überlegungen)
man sucht eine Stichprobe, die hinsichtlich zentraler Merkmale der angestrebten Grundgesamtheit möglichst ähnlich ist
wenn auch das nicht möglich ist, dann ist die Frage nach der Nützlichkeit der Stichprobe zu stellen
hat die Normstichprobe sehr verschiedene Eigenschaften, dann können sich daraus Konsequenzen für die Interpretation der Ergebnisse ergeben (i.S. einer Über- bzw. Unterschätzung der getesteten Personen)
Im Manual müssen die Eigenschaften der Normstichprobe genau beschrieben sein
Ein großes N alleine macht die Qualität dabei aber noch nicht aus!
Vorgehensweise bei Normierung eines Tests
Ausgangspunkt = Skalenrohwerte
Prüfung, ob Normalverteilung der Daten vorliegt
Histogramm
wenn nicht normalverteilt: Normalisierung über Flächentransformation (z.B. Angabe von Prozenträngen)
Skalenrohwerte werden in z-Werte transformiert
Die z-Werte können in verschiedene Normwerte transformiert werden
Umrechnung: Rohwerte in z-Werte
Normwerte
IQ-Werte nur bei Leistungstests
Stanine- und Sten-Werte häufig bei Persönlichkeitsfragebogen (mitunter auch T-Werte)
T-Werte, Standardwerte (mitunter auch Stanine- oder Sten-Werte) häufig bei Leistungstests
Liegt keine Normalverteilung vor, dann empfiehlt sich die Arbeit mit Prozenträngen
Bei manchen Testverfahren aus der Schulpsychologie wird die Umrechnung der Testwerte in Schulnoten vorgeschlagen
Prozentränge
Werden in der Praxis (Gutachtenerstellung) in der Ergebnisdarstellung immer mitberichtet
sie werden in der Regel immer gemeinsam mit einem Normwert berichtet (typischerweise ein Normwert und der Prozentrang)
Möglichkeit, um Ergebnisse anschaulich(er) darzustellen
Beispiel: Eine Testperson erzielt in einem Leistungstest einen PR = 90 —> 90% der in der Population getesteten Probanden haben einen gleich großen oder niedrigeren und 10% einen höheren Wert erzielt
(Anmerkung: In einem Psychologischen Gutachten verzichtet man wiederum auf wertende Begriffe wie „besser“ oder „schlechter“; Werte sind „niedriger“ oder „höher“!)
Vorteil: Man kann auch nicht-normalverteilte Messwerte anhand der PR beschreiben (kann aus jeder beliebigen Verteilung berechnet werden)
Wir vergleichen 2 Probanden, die einen PR von 45 bzw. 55 erreichen und 2 Probanden, von denen einer einen PR von 98 und einer einen PR von 99 erreicht—was kann über den Vergleich der Unterschiede gesagt werden?
PR (Prozentrang) bedeutet, wie viel Prozent der Vergleichsgruppe niedriger abgeschnitten haben.
PR 45 = besser als 45 % der Normgruppe
PR 55 = besser als 55 % der Normgruppe → Unterschied: 10 Prozentrang-Einheiten
PR 98 = besser als 98 % der Normgruppe
PR 99 = besser als 99 % der Normgruppe → Unterschied: ebenfalls 1 Prozentrang-Einheit
Prozentränge sind nicht linear in Bezug auf die zugrunde liegenden Rohwerte oder die zugrunde liegende Normalverteilung:
Im mittleren Bereich (z. B. PR 45 vs. PR 55) führt ein Unterschied von 10 PR-Punkten zu einem relativ kleinen Unterschied in den z-standardisierten Werten (z-Werten).
Im oberen Extrembereich (PR 98 vs. PR 99) kann ein Unterschied von nur 1 PR-Punkt viel größer sein, weil dort die Verteilung sehr dicht am Maximum liegt (extreme Rohwertunterschiede führen nur noch zu sehr kleinen PR-Änderungen).
PR 45 ≈ z = -0,13
PR 55 ≈ z = +0,13 → Unterschied: 0,26 z
PR 98 ≈ z = 2,05
PR 99 ≈ z = 2,33 → Unterschied: 0,28 z
Ergebnis: Obwohl der Prozentrangunterschied im mittleren Bereich viel größer aussieht (10 Punkte vs. 1 Punkt), ist der zugrunde liegende Unterschied in der Leistung im oberen Bereich (98 vs. 99) vergleichbar oder sogar größer, da Prozentränge am Rand stark gestaucht sind.
PR als nicht-lineare Transformation
Die Gesamtfläche der Häufigkeitsverteilung wird in 100 gleiche Teile geteilt = Es wird eine Rangordnung von 100 Personen gebildet
Dabei wird der PR für einen Rohwert X wie folgt bestimmt:
cum fx = Anzahl der Personen, die einen Rohwert X oder kleiner haben
fx = Anzahl der Personen, die genau diesen Rohwert X erreicht haben
Beispiel PR verglichen mit z werten
graphischer Vergleich PR und andere Werte
Praxis
in Manualen oft mehrere Normstichproben angegeben (Männer, Frauen, Bildungsgrad, Gesamt, …)
Auswahl primär inhaltlich zu treffen
Zweck der Testung
pragmatische Entscheidungen sind dennoch in der Praxis bedeutsam
Frage nach der inhaltlichen Bedeutsamkeit (z.B. Diagnostik beruflicher Interessen; Anwendungen in der Klinischen Psychologie, wo kriteriumsorientierte Diagnostik manchmal relevanter ist)
Abweichungen bestimmen
Bei manchen Fragestellungen macht es Sinn zu prüfen, ob die Merkmalsausprägung einer Person bedeutsam von der Normpopulation abweicht.
z.B. Fragen der Hochbegabung oder von Leistungsdefiziten
Geprüft wird dabei die Nullhypothese, dass eine Person (m) mit dem Mittelwert µx und der Standardabweichung sx aus der Normpoulation stammt (und nicht aus einer anderen)
die Populationsparameter sind typischerweise unbekannt und werden durch den (Norm-)Stichprobenmittelwert (x) und die geschätzte Populationsstandardabweichung (sx) ersetzt
Zur Prüfung wird eine t-verteilte Prüfgrösse herangezogen (df = n– 1)
Zu beachten bei Normierung (1)
Hypothesentesten
Sind getrennte Normen zu entwickeln für Untergruppen? (z.B. Männer und Frauen, nach Bildungsgrad etc.).
Anhand von Mittelwertsvergleichen in der Stichprobe wird versucht, auf Unterschiede in der Grundgesamtheit zu schließen (H0: Es gibt keine Mittelwertsunterschiede in der Grundgesamtheit; H1: Es gibt Mittelwertsunterschiede in der Grundgesamtheit)
Fehlerarten
Fehler 1. Art (α-Fehler; Irrtumswahrscheinlichkeit); die Nullhypothese wird zu Unrecht abgelehnt (man nimmt Mittelwertsunterschiede an, die in der Grundgesamtheit tatsächlich aber nicht vorliegen); —> 1 oder 5%
Fehler 2. Art (β-Fehler); die Alternativhypothese wird zu Unrecht abgelehnt (man nimmt keine Mittelwertsunterschiede an, obwohl in der Grundgesamtheit tatsächlich Unterschiede vorliegen)
Zu beachten bei Normierung (2)
Nullhypothese als Wunschhypothese
β-Fehler sollte möglichst klein gehalten werden; das bedeutet, dass man den α-Fehler grösser wählt (z.B. 25% anstelle von 1% oder 5%), da dadurch der β-Fehler automatisch sinkt
Effektstärke
Ob ein Unterschied signifikant ist oder nicht sagt noch nichts über seine Größe aus (Rolle der Stichprobengröße!). Unterschiedliche Operationalisierungen; z.B.
Standardisierter Mittelwertsunterschied; wie viele Standardabweichungen liegen zwei Mittelwerte auseinander? (Hedges g)
quadrierte Zusammenhänge; wie viel Prozent der Unterschiede des Messwerts kann durch Unterschiede der Abhängigen Variable erklärt werden? (eta2)
Maße für die Effektstärken helfen bei der Entscheidung, ob für Gruppen getrennte Normen berechnet werden sollten
in der Regel trifft man eher konservative Entscheidungen und bildet auch bei vergleichsweise kleinen Effekten Normen für getrennte Gruppen
Dadurch soll die Gefahr minimiert werden, dass Personen in ihren Leistungen oder der Zuschreibung bestimmter Persönlichkeitseigenschaften unter- oder überschätzt werden
Standards
In den „Standards for Educational and Psychological Testing“ der APA wird festgelegt, dass folgende Informationen zur Normierung vorliegen müssen:
Aktualität der Normen
Geltungsbereich der Normen
Grad der Repräsentativität der Normierungsstichprobe
Umfang der Normierungsstichprobe
Messgenauigkeit zur Bestimmung des Messfehlers
In der DIN33430 (Berufsbezogene Eignungsbeurteilungen) ist festgelegt, dass die Gültigkeit der Normen alle 8 Jahre (empirisch) belegt werden muss
wird das Testmaterial oder der Vorgabemodus geändert, muss die Gültigkeit der Normen ebenfalls (empirisch) belegt werden
Darstellung in einem Manual (allgemein)
Zuletzt geändertvor 9 Tagen