Buffl

Grundlagen der Diagnostik 2 & 3 (Reliabilität)

HM
von Hanna M.

Weitere Rahmenbedingungen

Datenschutzgrundverordnung (DSGVO)


Personenbezogenen (!!) Daten

  • dürfen nur in einem Maß erhoben werden, wie es der Zweck der Erhebung erfordert.

  • müssen vor unrechtmäßiger Verarbeitung oder Nutzung geschützt werden.

  • dürfen nur mit Einwilligung der betreffenden Person erhoben und gespeichert werden, es sei denn andere wichtige Gründe erfordern die Datenerhebung und ‐speicherung (z. B. zum Schutz lebenswichtiger Interessen Dritter).

  • dürfen nur nach ausführlicher Information der betreffenden Personen erhoben und gespeichert werden (Details regelt Artikel 13 der DSGVO).

 

Betroffene Personen haben ein

  • Auskunftsrecht (z. B. über Verarbeitungszweck und Dauer der Speicherung der Daten),

  • Recht auf Berichtigung,

  • Recht auf Löschung,

  • Recht auf Einschränkung der Verarbeitung (unter bestimmten Randbedingungen)

  • Widerspruchsrecht.


Verwahrung und vertrauliche Behandlung von Testmaterial


Fachkompetente Testanwendende…

Gewährleisten die sichere Verwahrung von Testmaterial

 

Gewährleisten die vertrauliche Behandlung von Testergebnissen

  • Spezifizieren, wer Zugang zu Testergebnissen hat (Definition: Abstufungen Datensicherung)

  • Erläutern den Proband:innen die Abstufungen der Datensicherung vor Testung

  • nur berechtigten Personen Zugang zu Testergebnissen.

  • Einverständniserklärungen einholen, bevor sie Ergebnisse an andere weitergeben.

  • Schützen Daten in Akten, so dass sie nur für befugte Personen zugänglich sind.

  • Stellen klare Richtlinien auf, wie lange Testdaten in Akten aufbewahrt werden sollen.

  • Entfernen Namen und andere identifizierende Daten aus Datensammlungen von Testergebnissen (Archiv, Forschungszwecke, Normierung etc.)


Offenbarungspflicht §138 StGB



Klinisch Personalauswahl



Ethische Fragen


Ethische Richtlinien

  • Sorgfaltspflicht

  • Transparenz für Adressaten

  • Einsichtnahme gewahren

  • Keine Gefälligkeitsgutachten


Standards zur Qualitätssicherung


  • Teststandards der APA

  • DIN 33430: Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen


5 Axiome /Grundannahmen

  • 5 Axiome werden a priori angenommen und nicht empirisch durch Untersuchungen begründet

  • Sie stellen die Grundlage für mathematische Ableitungen dar, die schließlich zu Formeln führen, mit denen wir beispielsweise die Messgenauigkeit eines Tests berechnen.

  • Was bedeutet Axiom?

    • Die Axiome der KTT sind die mathematische und logische Voraussetzung für die Gütekriterien (insbesondere Reliabilität) aller psychometrischen Verfahren!

    • Man kann daraus die Reliabilität mathematisch ableiten!


  • Axiom = Grundannahme


Axiom 1)


-> Addition: Werte sind unabhängig voneinander (unsystematischer Fehler)

-> Multiplikation: Werte sind abhängig voneinander

-> wahre Wert einer Person im Test unveränderlich


Problem der Annahme:

  • Schwierig an den „wahren Wert“ ranzukommen (wenn es diesen gibt)

  • Können wahren Wert niemals messen


Axiom 2)



Axiom 3)



  • Messfehler = 0: Fehler sollte weggehen wenn man es unendlich häufig durchführt (unsystematischer Fehler) -> zu 0 ausgleichen


Nullkorrelation:

  • Messfehler unabhängig von dem wahren Wert

  • Bedeutet: EIn Test im unteren Bereich (niedrige Fähigkeit) misst genauso wir im mittleren oder im oberen Bereich


Problem der Annahme:

  • Bsp.: Intelligente Menschen haben hohe Leistungsmotivation -> wenn Test hohe Leistungsmotivation misst haben wir systematischen Messfehler -> kann nicht einfach differenziert werden von unsystematischen


Axiom 4)


-> Zwischen den Fehlerwerten zweier Tests besteht eine Nullkorelation


Axiom 5)


-> Messfehler sind unabhängig vom wahren Wert in naderen Tests

-> So ist etwa die Messgenauigkeit eines Intelligenztests nicht

davon abhängig, ob die Testpersonen hoch oder niedrig depressiv sind.

-> warum Kovarianzen gleich 0?

-> Erklärung: Korrelation = Standardisierte Kovarianz


 

Problem an Axiomen (Grundannahmen auf denen Theorien aufbauen):

  • Nicht beweisbare Sätze

  • Werden aufgestellt ohne das ich sie beweisen kann



Kernkonzept der KTT: Reliabilität I

„unmathematische“ Sichtweise:


  • Ziel: Grad der Genauigkeit, mit der ein Test ein Merkmal misst, unabhängig davon, ob er dieses Merkmal auch zu messen beansprucht

 

Reliabilität (rtt):

  • Messgenauigkeit, Zuverlässigkeit (Linear vs Gummiband; gut konstruierter Fragebogen vs. Psycho Test in einer Zeitschrift)

  • Untersch. Methoden, dies zu bestimmen

  • Reliabilitätsmaß: Korrelation (0-1), es kann nicht negativ werden


Formel: rtt -> Testwiederholung

  • in der Praxis sind Messwiederholungen nicht immer realisierbar

  • deshalb werden neben der Testwiederholung noch andere Methoden eingesetzt, um die Reliabilität zu schätzen


Varianz

  • Reliabilität als Korrelationskoeffizient zweier paralleler Messungen zum Zeitpunkt T1 und T2 (Testwiederholung unter absolut identischer Bedingungen)


basierend auf den Axiomen kommt man zu folgender Definition:


Mathematische Definition

  • in Worten: Die Reliabilität eines Tests ist der Anteil der Varianz der wahren Werte (T) an der Varianz der beobachteten Werte (X).

  • Ein Reliabilitätskoeffizient von beispielsweise .80 bedeutet demzufolge, dass die beobachtete Varianz der Testwerte zu 80 % auf Unterschiede zwischen den wahren Werten der Testpersonen zurückzuführen ist und zu 20 % auf Fehlervarianz beruht.

  • Wert kann niemals kleiner 0 sein


Standardmessfehler:


-> Messfehler kann ich schätzen wenn ich Reliabilitätsmaße berücksichtige (miteinschließe)


Buch (zu Standardmessfehler)

  • Die beobachteten Testwerte weichen mehr oder weniger stark vom wahren Wert ab. Wie stark sie abweichen, hängt vom Messfehler ab.

  • es lässt sich schätzen, wie stark die Messfehler bei sehr vielen wiederholten Messungen um den wahren Wert streuen würden. (siehe Formel abgeliette aus Axiom der KTT)

  • Der Standardmessfehler gibt also an, wie stark die Messfehler um die wahren Werte der Person(en) streuen.

  • Weist der Test eine Reliabilität von null auf, ergibt sich für den Standardmessfehler ein Wert von 10.

    -> Die beobachtete Streuung ist nur auf Messfehler

    zurückzuführen.

    -> Der Standardmessfehler ist umso kleiner, je reliabler der Test ist.


Messen und Fehler

e = Fehler

  • Fehler bei der Testkonstruktion

  • Fehler bei der Durchführung

  • Fehler bei der Auswertung


Reliabilität: Standardmessfehler (Konfidenzintervalle/Vertrauensbereiche)

Beispiel: (wichtig für Individualdiagnostik)


  • Frau Müller hat einen IQ Wert von 89 im Intelligenztest XYZ

  • Was bedeutet das, wenn man die Unzuverlässigkeit des Tests berücksichtigt?


angenommen, der Intelligenztest hätte eine Reliabilität von rtt = .90


Schritt 1: geschätze wahren Wert berechnen

Schritt 2: Konfidenzintervall um den geschätzen wahren Wert berechnen


  • Das Konfidenzintervall reicht in diesem Fall von 80 (untere Konfidenzintervallgrenze) bis 98 (obere Konfidenzintervallgrenze)

  • Der wahre IQ Wert von Frau Müller liegt mit 5% Irrtumswahrscheinlichkeit bzw. 95% WSK in einem Bereich zwischen 80 und 98

  • wenn Frau Müller das gleiche Ergbenis in einem weniger reliablen Test erzielt hätte, würde das KI größer werden

    -> je unreliabler die Messung, desto unpräziser die Aussage



Vertrauensbereiche (z-Werte zur Berechnung von KI):


Kritische Differenzen (Vgl. von Personen oder von Kompetenzen)


Bsp. bezogen auf wiederholte Testung nach Intervention (unterscheidet sich der erste Wert vom zweiten bedeutsam?)

  • Die Reliabilität von Messungen ist auch dann zentral, wenn man 2 Testwerte eines Probanden vergleichen möchte – beispielsweise um zu beurteilen, ob eine Verbesserung infolge einer Behandlung eingetreten ist

  • Kritische Differenz: aufgrund der Messfehler können sich die beiden Werte zufällig voneinander unterscheiden (auch wenn keine Verbesserung des Merkmals eingetreten ist)

  • Deshalb will man wissen, wie groß eine Differenz sein muss, um nicht mehr alleine mit Messfehlern erklärt werden zu können

  • Je geringer die Reliabilität, desto größer die Differenz, ab der tatsächlich ein Unterschied vorliegt


Bsp. bezogen auf unterschiedliche Werte in mehrdiemsionalen Verfahren (erhebung von 2 Subtests):

  • IQ im sprachlichen Bereich: 105

  • IQ im rechnerichen Bereich: 110

-> können wir Annehmen, dass die Person eher rechnerisch begabt ist?

-> beobachteter Unterschied kann auch auf Messfehler zurückzuführen sein!

-> Deshalb will man wissen, wie groß eine Differenz sein muss, um nicht mehr alleine mit Messfehlern erklärt werden zu können



Methoden der Realiabilitätsbestimmung

  • Testhalbierungsmethode

  • Testwiederholungsmethode

  • Paralleltestmethode

  • Konsistenzanalyse

-> bei der Reliabilitätsbestimmung (i.d.R. Korrelationen) werden mehrere Methoden unterschieden

-> wichtig: alle Methoden sind letztendlich nur Schätzungen der Reliabilität


A Testhalbierungsmethode = Split Half Reliabilität


Durchführung:

  • einmalige Durchführung eines Tests an einer Stichprobe (mit denselben Probanden)

  • Testergebnis wird auf Basis von 2 äquivalenten Testhälften berechnet -> für jeden Probanden erhält man 2 Testwerte


Berechnung:

  1. Korrelation der Rohwertpaare beider Testhälften

  2. Problem: Wenn man Test halbiert, reduziert man den Reliabilitätskoeffizienten

  3. Lösung: Korreltion wird mit Hilfe einer Korrekturformel aufgewertet


Vorgehen bei Testhalbierung:

  • Testzeit Problem: in ersten Hälfte fitter als andere oder: Lerneffekte bei zweiten Hälfte, habe nach erster bereits Übung


Auswirkungen der Reduktion der Items (durch Testhalbierung):

  • je länger ein Test, desto reliabler wird er (wenn homogene Items verwendet werden)

  • je kürzer ein Test, desto weniger reliabel wird ein test

  • Korrelation der beiden Testhälften unterschätzt die Reliabilität des Gesamttests -> deshalb Spearman Brown Formel zur Korrektur

  • Wenn in beiden Testhälften die Itemzahl gleich ist und es sich um homogene Items handelt, verwendet man die Spearmen Browm Formel zur Berechnung der (Testhalbierungs-) Reliabilität

  • Weitere Methoden: je nach Bedingungen, z.B. unterschiedliche Streuungen der Testhälften, kleine Stichprobengröße, unterschiedliche Itemanzahl (Guttman, Flanagan, Raju, Kristof,…)






Author

Hanna M.

Informationen

Zuletzt geändert