Rahmenbestimmungen: juristsiches und ethisches
Rahmenbedingungen: Normenpyramide
Ein Recht, das über einem anderen Steht, schlägt ein untergeordnetes Recht
1. Europäischen Gemeinschaft
2. Deutsches Grundgesetz
3. Strafgesetzbuch, Bürgerliches Gesetzbuch
4. Rechtsverordnungen
5. Satzungen von Organisationen und Richtlinien
EU Recht:
Europäische Menschenrechtskonvention, Artikel 8 (1):
Jede Person hat das Recht auf Achtung ihres Privat‐ und Familienlebens, ihrer Wohnung und ihrer Korrespondenz.
Grundrecht
Art. 1 (1): „Die Würde des Menschen ist unantastbar. Sie zu achten und zu schützen ist Verpflichtung aller staatlichen Gewalt“.
Art. 2 (1) und (2): „Jeder hat das Recht auf die freie Entfaltung seiner Persönlichkeit, soweit er nicht die Rechte anderer verletzt [...]
Jeder hat das Recht auf Leben und körperliche Unversehrtheit. Die Freiheit der Person ist unverletzlich [...]“
Strafgesetztbuch
§203: Verletzung von Privatgeheimnissen
Umgang mit personenbezogenen Daten
-> 10 Jahre AUfbewahrungspflicht der Daten
-> Dilemme bei Begutachtung: Braucht Schweigepflichtentbindung
Weitere Rahmenbedingungen
Datenschutzgrundverordnung (DSGVO)
Personenbezogenen (!!) Daten
dürfen nur in einem Maß erhoben werden, wie es der Zweck der Erhebung erfordert.
müssen vor unrechtmäßiger Verarbeitung oder Nutzung geschützt werden.
dürfen nur mit Einwilligung der betreffenden Person erhoben und gespeichert werden, es sei denn andere wichtige Gründe erfordern die Datenerhebung und ‐speicherung (z. B. zum Schutz lebenswichtiger Interessen Dritter).
dürfen nur nach ausführlicher Information der betreffenden Personen erhoben und gespeichert werden (Details regelt Artikel 13 der DSGVO).
Betroffene Personen haben ein
Auskunftsrecht (z. B. über Verarbeitungszweck und Dauer der Speicherung der Daten),
Recht auf Berichtigung,
Recht auf Löschung,
Recht auf Einschränkung der Verarbeitung (unter bestimmten Randbedingungen)
Widerspruchsrecht.
Verwahrung und vertrauliche Behandlung von Testmaterial
Fachkompetente Testanwendende…
Gewährleisten die sichere Verwahrung von Testmaterial
Gewährleisten die vertrauliche Behandlung von Testergebnissen
Spezifizieren, wer Zugang zu Testergebnissen hat (Definition: Abstufungen Datensicherung)
Erläutern den Proband:innen die Abstufungen der Datensicherung vor Testung
nur berechtigten Personen Zugang zu Testergebnissen.
Einverständniserklärungen einholen, bevor sie Ergebnisse an andere weitergeben.
Schützen Daten in Akten, so dass sie nur für befugte Personen zugänglich sind.
Stellen klare Richtlinien auf, wie lange Testdaten in Akten aufbewahrt werden sollen.
Entfernen Namen und andere identifizierende Daten aus Datensammlungen von Testergebnissen (Archiv, Forschungszwecke, Normierung etc.)
Offenbarungspflicht §138 StGB
Klinisch Personalauswahl
Ethische Fragen
Ethische Richtlinien
Sorgfaltspflicht
Transparenz für Adressaten
Einsichtnahme gewahren
Keine Gefälligkeitsgutachten
Standards zur Qualitätssicherung
Teststandards der APA
DIN 33430: Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen
DIN‐Norm 33430 für berufsbezogene Eignungsdiagnostik
fordert Kenntnisse der anwendenden Personen in diesem Feld über:
Verfahren der Eignungsbeurteilung (6. Semester)
Statistisch‐methodische Grundlagen
Test‐ und Messtheorien (VL + Seminar)
Evaluationsmethodik einschließlich Kosten‐ und Nutzenaspekten (VL Master)
Konstruktionsgrundlagen (Seminar)
Einsatzmöglichkeiten (VL)
Durchführungsbedingungen (Seminar + 6. Sem.)
Gütekriterien (VL + Seminar)
Gutachtenerstellung (Master)
Voraussetzung für den Einsatz diagnostischer Verfahren
Warum brauchen wir Methodenkenntnisse für Testverfahren?
Professioneller Einsatz diagnostischer Verfahren erfordert Entsprechung der relevanten Gütemerkmale!
Zur Beurteilung der diagnostischen Verfahren ist ein theoretischer Rahmen zur Festlegung eines Standards erforderlich!
A) Beurteilung bestehender Verfahren
B) Entwicklung neuer Verfahren
Gegenstand der Testtheorie - Begrifflichkeiten & Definition
Test (im engeren Sinne) = Leistungstests (Fähigkeiten)
Tests (im weiteren Sinne) = leistungs- und Persönlichkeitsfragebögen (Eigenschaften allgemeiner Art)
Sprechen auch von psychometrischen Tests
Definition psychologische Tests
Gegenstand:
Gegenstand dieser Testtheorie sind „objektive“ Leistungstests sowie Daten aus Fragebögen, Beobachtungen und Interviews („objektiv“ bedeutet hier, dass Antwort‐Alternativen eindeutig richtig oder falsch sind)
Klare Definition und wissenschaftliche Erkenntnisse über Merkmal/Verhalten sind entscheidend
Gegenstand: Testarten I
Möglicher Nachteil am Computer: z.B. Affinität mit Computer, wie schnell man schreiben kann auf Tastatur usw.
Grundproblem der Psychologischen Diagnostik
Keine direkte Messung möglich:
Es muss aufgrund von beobachtetem Verhalten, also den Reaktionen auf Testaufgaben, auf ein latentes Merkmalen geschlossen werden
-> keine unmittelbare Beschreibung der relevanten Gegebenheiten möglich
Daher:
„Die Testtheorie als Teilgebiet der Psychometrie beschäftigt sich mit der Entwicklung und Formalisierung von psychometrischen Modellen für psychologische Tests und mit ihrer Nutzung für die Konstruktion und Evaluation psychologischer Tests“ (Eid und Schmidt 2014, S. 34).
(Psychometrie bezeichnet ein Forschungsgebiet, das sich mit der Messung psychologischer Merkmale beschäftigt)
Warum TT?
-> Antworten auf Testaufgaben reflektieren das latente Merkmal
Ziel:
aus beobachtetem Verhalten (in Form von Reaktionen auf Testaufgaben) auf ein latentes Merkmal schließen
-> grundsätzliche Anforderung an Testaufgaben
-> Sie sollten so gestaltet sein, dass die Antworten von Personen zu einem möglichst hohen Anteil deren Ausprägung auf dem latenten Merkmal reflektieren
Grundannahmen der klassischen Testtheorie (Gulliksen, H. 1950)
-> Mittelwert besserer Prädiktor des tatsächlichen IQ Wertes
5 Axiome /Grundannahmen
5 Axiome werden a priori angenommen und nicht empirisch durch Untersuchungen begründet
Sie stellen die Grundlage für mathematische Ableitungen dar, die schließlich zu Formeln führen, mit denen wir beispielsweise die Messgenauigkeit eines Tests berechnen.
Was bedeutet Axiom?
Die Axiome der KTT sind die mathematische und logische Voraussetzung für die Gütekriterien (insbesondere Reliabilität) aller psychometrischen Verfahren!
Man kann daraus die Reliabilität mathematisch ableiten!
Axiom = Grundannahme
Axiom 1)
-> Addition: Werte sind unabhängig voneinander (unsystematischer Fehler)
-> Multiplikation: Werte sind abhängig voneinander
-> wahre Wert einer Person im Test unveränderlich
Problem der Annahme:
Schwierig an den „wahren Wert“ ranzukommen (wenn es diesen gibt)
Können wahren Wert niemals messen
Axiom 2)
Axiom 3)
Messfehler = 0: Fehler sollte weggehen wenn man es unendlich häufig durchführt (unsystematischer Fehler) -> zu 0 ausgleichen
Nullkorrelation:
Messfehler unabhängig von dem wahren Wert
Bedeutet: EIn Test im unteren Bereich (niedrige Fähigkeit) misst genauso wir im mittleren oder im oberen Bereich
Bsp.: Intelligente Menschen haben hohe Leistungsmotivation -> wenn Test hohe Leistungsmotivation misst haben wir systematischen Messfehler -> kann nicht einfach differenziert werden von unsystematischen
Axiom 4)
-> Zwischen den Fehlerwerten zweier Tests besteht eine Nullkorelation
Axiom 5)
-> Messfehler sind unabhängig vom wahren Wert in naderen Tests
-> So ist etwa die Messgenauigkeit eines Intelligenztests nicht
davon abhängig, ob die Testpersonen hoch oder niedrig depressiv sind.
-> warum Kovarianzen gleich 0?
-> Erklärung: Korrelation = Standardisierte Kovarianz
Problem an Axiomen (Grundannahmen auf denen Theorien aufbauen):
Nicht beweisbare Sätze
Werden aufgestellt ohne das ich sie beweisen kann
Kernkonzept der KTT: Reliabilität I
„unmathematische“ Sichtweise:
Ziel: Grad der Genauigkeit, mit der ein Test ein Merkmal misst, unabhängig davon, ob er dieses Merkmal auch zu messen beansprucht
Reliabilität (rtt):
Messgenauigkeit, Zuverlässigkeit (Linear vs Gummiband; gut konstruierter Fragebogen vs. Psycho Test in einer Zeitschrift)
Untersch. Methoden, dies zu bestimmen
Reliabilitätsmaß: Korrelation (0-1), es kann nicht negativ werden
Formel: rtt -> Testwiederholung
in der Praxis sind Messwiederholungen nicht immer realisierbar
deshalb werden neben der Testwiederholung noch andere Methoden eingesetzt, um die Reliabilität zu schätzen
Varianz
Reliabilität als Korrelationskoeffizient zweier paralleler Messungen zum Zeitpunkt T1 und T2 (Testwiederholung unter absolut identischer Bedingungen)
basierend auf den Axiomen kommt man zu folgender Definition:
Mathematische Definition
in Worten: Die Reliabilität eines Tests ist der Anteil der Varianz der wahren Werte (T) an der Varianz der beobachteten Werte (X).
Ein Reliabilitätskoeffizient von beispielsweise .80 bedeutet demzufolge, dass die beobachtete Varianz der Testwerte zu 80 % auf Unterschiede zwischen den wahren Werten der Testpersonen zurückzuführen ist und zu 20 % auf Fehlervarianz beruht.
Wert kann niemals kleiner 0 sein
Standardmessfehler:
-> Messfehler kann ich schätzen wenn ich Reliabilitätsmaße berücksichtige (miteinschließe)
Buch (zu Standardmessfehler)
Die beobachteten Testwerte weichen mehr oder weniger stark vom wahren Wert ab. Wie stark sie abweichen, hängt vom Messfehler ab.
es lässt sich schätzen, wie stark die Messfehler bei sehr vielen wiederholten Messungen um den wahren Wert streuen würden. (siehe Formel abgeliette aus Axiom der KTT)
Der Standardmessfehler gibt also an, wie stark die Messfehler um die wahren Werte der Person(en) streuen.
Weist der Test eine Reliabilität von null auf, ergibt sich für den Standardmessfehler ein Wert von 10.
-> Die beobachtete Streuung ist nur auf Messfehler
zurückzuführen.
-> Der Standardmessfehler ist umso kleiner, je reliabler der Test ist.
Messen und Fehler
e = Fehler
Fehler bei der Testkonstruktion
Fehler bei der Durchführung
Fehler bei der Auswertung
Reliabilität: Standardmessfehler (Konfidenzintervalle/Vertrauensbereiche)
Beispiel: (wichtig für Individualdiagnostik)
Frau Müller hat einen IQ Wert von 89 im Intelligenztest XYZ
Was bedeutet das, wenn man die Unzuverlässigkeit des Tests berücksichtigt?
angenommen, der Intelligenztest hätte eine Reliabilität von rtt = .90
Schritt 1: geschätze wahren Wert berechnen
Schritt 2: Konfidenzintervall um den geschätzen wahren Wert berechnen
Das Konfidenzintervall reicht in diesem Fall von 80 (untere Konfidenzintervallgrenze) bis 98 (obere Konfidenzintervallgrenze)
Der wahre IQ Wert von Frau Müller liegt mit 5% Irrtumswahrscheinlichkeit bzw. 95% WSK in einem Bereich zwischen 80 und 98
wenn Frau Müller das gleiche Ergbenis in einem weniger reliablen Test erzielt hätte, würde das KI größer werden
-> je unreliabler die Messung, desto unpräziser die Aussage
Vertrauensbereiche (z-Werte zur Berechnung von KI):
Kritische Differenzen (Vgl. von Personen oder von Kompetenzen)
Bsp. bezogen auf wiederholte Testung nach Intervention (unterscheidet sich der erste Wert vom zweiten bedeutsam?)
Die Reliabilität von Messungen ist auch dann zentral, wenn man 2 Testwerte eines Probanden vergleichen möchte – beispielsweise um zu beurteilen, ob eine Verbesserung infolge einer Behandlung eingetreten ist
Kritische Differenz: aufgrund der Messfehler können sich die beiden Werte zufällig voneinander unterscheiden (auch wenn keine Verbesserung des Merkmals eingetreten ist)
Deshalb will man wissen, wie groß eine Differenz sein muss, um nicht mehr alleine mit Messfehlern erklärt werden zu können
Je geringer die Reliabilität, desto größer die Differenz, ab der tatsächlich ein Unterschied vorliegt
Bsp. bezogen auf unterschiedliche Werte in mehrdiemsionalen Verfahren (erhebung von 2 Subtests):
IQ im sprachlichen Bereich: 105
IQ im rechnerichen Bereich: 110
-> können wir Annehmen, dass die Person eher rechnerisch begabt ist?
-> beobachteter Unterschied kann auch auf Messfehler zurückzuführen sein!
-> Deshalb will man wissen, wie groß eine Differenz sein muss, um nicht mehr alleine mit Messfehlern erklärt werden zu können
Reliabilität und Testlänge
Intuitiv:
je länger ein Test ist, desto reliabler
Warum?
mehr Items
Skala differenziert besser
inter-individuelle Varianz kommt besser heraus (Wieso?)
intraindividuelle Varianz?)
—> Linera als Bsp.: unterindividuell: kann bei mehr Items besser zwischen Personen unterscheiden; Unterschied zwischen 2 und 3 besser erklärbar weil größere Abstufung (Bsp. Weitsprung —> 3 Weitsprung kann ich auch meine intraindividuelle Varianz besser erklären)
Additivität der Varianzen
Mathematische Betrachtung: Auswirkungen einer Testverlängerung
angenommen wir verlängern einen Test T (mit 20 Items) mit einem Test U (mit 20 Items)
angenommen beide Tests messen das gleiche Konstrukt (Mittelwerte addieren sich)
Für die Varianz der wahren Werte wt und wu würde dies bedeuten:
in Worten: Verdopplung der Testlänge führt zur Vervierfachung der Varianz der wahren Werte, weil sie das gleiche (also den gleichen wahren Wert) messen
Korrelation r(wu, wt) = 1
Fehlerwerte:
Verdopplung der Testlänge führt zur Verdopplung der Fehlervarianz
bei Testverdopplung wächst die Varianz wahrer Werte stärker an als die Fehlervarianz.
Welche Folgen hat das…??? Je länger der Test, desto reliabler
Folie sagt: bei geringen Reliabilitätskoeffizient profitoert mehr von Verdopplung als Tests die schon gute Reliabiltät haben
Zusammenhang definiert über Spearman-Brown-Formel
Spearman-Brown-Formel:
Mit der Spearman-Brown-Formel lässt sich allgemein die Höhe der Reliabilität bei Verlängerung oder Verkürzung des Tests bestimmen
schätzt mit Hilfe der Spearman Brown Formel wie hoch die Reliabilität des Tests mit der doppleten Itemanzahl wäre
Reliabilität bleibt immer Schätzer, wieso? Weil wir nie den wahren Wert genau wissen (nur Schätzer)
Reliabilität & Testlänge: Probleme
Homogene Items finden (d.h. Items, die das gleiche Konstrukt messen)
Testlänge, Müdigkeit, Konzentration, Ökonomie,..
Methoden der Realiabilitätsbestimmung
Testhalbierungsmethode
Testwiederholungsmethode
Paralleltestmethode
Konsistenzanalyse
-> bei der Reliabilitätsbestimmung (i.d.R. Korrelationen) werden mehrere Methoden unterschieden
-> wichtig: alle Methoden sind letztendlich nur Schätzungen der Reliabilität
A Testhalbierungsmethode = Split Half Reliabilität
Durchführung:
einmalige Durchführung eines Tests an einer Stichprobe (mit denselben Probanden)
Testergebnis wird auf Basis von 2 äquivalenten Testhälften berechnet -> für jeden Probanden erhält man 2 Testwerte
Berechnung:
Korrelation der Rohwertpaare beider Testhälften
Problem: Wenn man Test halbiert, reduziert man den Reliabilitätskoeffizienten
Lösung: Korreltion wird mit Hilfe einer Korrekturformel aufgewertet
Vorgehen bei Testhalbierung:
Testzeit Problem: in ersten Hälfte fitter als andere oder: Lerneffekte bei zweiten Hälfte, habe nach erster bereits Übung
Auswirkungen der Reduktion der Items (durch Testhalbierung):
je länger ein Test, desto reliabler wird er (wenn homogene Items verwendet werden)
je kürzer ein Test, desto weniger reliabel wird ein test
Korrelation der beiden Testhälften unterschätzt die Reliabilität des Gesamttests -> deshalb Spearman Brown Formel zur Korrektur
Wenn in beiden Testhälften die Itemzahl gleich ist und es sich um homogene Items handelt, verwendet man die Spearmen Browm Formel zur Berechnung der (Testhalbierungs-) Reliabilität
Weitere Methoden: je nach Bedingungen, z.B. unterschiedliche Streuungen der Testhälften, kleine Stichprobengröße, unterschiedliche Itemanzahl (Guttman, Flanagan, Raju, Kristof,…)
Fragen
1. Welche juristischen/ethischen Aspekte sind wichtig in der Diagnostik?!
2. Was ist das Ziel der Konzeption einer Testtheorie?
3. Unterscheiden Sie Speed und Power‐Tests in Durchführung, Konzeption und Interpretation!
4. Erläutern Sie die Voraussetzungen der KTT!
5. Was bedeuten die Axiome der KTT inhaltlich?
1. Was bedeutet Reliabilität?
2. Wieso ist die mathematische Definition der Reliabilität sinnvoll?
3. Wie hängen Standardmessfehler und Reliabilität zusammen?
4. Erläutern Sie den Zusammenhang zwischen Testlänge und Messgenauigkeit:
(a) intuitiv (b) an einem Beispiel und (c) mathematisch
Zuletzt geändertvor 10 Monaten