Vertiefung Diagnostik

by Marie R.

Komplexität

Anzahl und Vielfalt von Elementen die Testperson für Antwort berücksichtigen muss (Zusammenhang mit Wiedergabetreue und Interaktivität)

Höhere Komplexität = höhere Schwierigkeit

Wiedergabetreue

Wie realistisch und genau werden Items durch konstruktrelevante Objekte, Aufgaben und Umgebungen reproduziert

Höhere Wiedergabetreue = höherer Aufwand in Itementwicklung

Interaktionsgrad

Ausmaß in dem Item auf Aktionen der Testpersonen reagiert

Höherer Interaktionsgrad = höherer Aufwand bei Itementwicklung

Ambulantes Assessment

Erhebung Verhalten unter natürlichen Bedingungen (Selbstbericht, Beobachtung, Physiologie, Biologie)

—> Meist mit Messwiederholungen

Vorteile Selbstbericht

Automatische Alarm- und Erinnerungsfunktionen, flexible Gestaltung Layout, maßgeschneiderte Antwortmodi, zufällige Ablaufsteuerung, vorausgegangene Antworten können nicht geändert werden, zuverlässiges zeitliches Protokoll, automatische Datensicherung, direkter Datentransfer

—> ABER: Reaktivität, weil VP weiß, dass abgefragt

Item-Response Theorie (IRT)

Modelliert Zusammenhang zwischen Antworten einer Person auf die Items und der zugrundeliegenden Variablen

Latente Modellierung: Beobachtungen nicht mit latenten Konstrukten gleichgesetzt, systematische Messfehlereinflüsse können explizit modelliert werden
Sind falsifizierbar, Abhängigkeit der Messpräzision vom Traitlevel wird berücksichtigt, Voraussetzungen für Verwendung von Summenscores oft nicht erfüllt

Anwendungsbereiche: Konstruktion neuer Tests, Überprüfung etablierter Tests, Large Scale Assessments, Erstellung paralleler Testformen, adaptives Testen

Arten an Modellen (IRT)

Modelle mit quantitativer Personenvariable: Rasch Modell, Partial Credit Modell, 2PL – 3PL – 4PL Modelle
Modelle mit qualitativer Personenvariable: latente Klassenanalyse
Modelle mit beidem: Mixed Rasch Modell
Modelle mit mehr als einer quantitativen Personenvariable: mehrdimensionale Modelle

Rasch-Modell

Geht von kontinuierlicher latenter Variable aus, die das Konstrukt beschreibt

Diese wird mit dichotomen Items erfasst

Personenscore: mit Datenmatrix erstellt, Fähigkeit der Person

Alle Personen mit selber Anzahl von Items werden als gleich fähig betrachtet
Lässt Verteilungsform der Stichprobe erkennen (gleichmäßig, Deckeneffekt, Bodeneffekt)

Gleichung Rasch-Modell

Ergebnis der Person im Test hängt nicht deterministisch von Fähigkeit ab, sondern Zufall spielt immer mit = deshalb nicht Lösungswahrscheinlichkeit betrachtet

Wahrscheinlichkeit (P) dass Person i bei der Bearbeitung von Item j das Ergebnis uij erzielt wird wie folgt bezeichnet: P(Uij = uij)
Abhängig von Fähigkeit der Person i und der Schwierigkeit des Items j

θ = latente Variable (Trait oder Fähigkeit)

β = Itemschwierigkeit

Personenfähigkeit und Itemschwierigkeit werden auf einer gemeinsamen Skala geschätzt, weshalb sie direkt in Beziehung zueinander gesetzt werden können
Je größer θ im Vergleich zu β, umso wahrscheinlicher korrekte Antwort
Je kleiner θ im Vergleich zu β, umso wahrscheinlicher falsche Antwort

Rasch-Modell 1PL

Wahrscheinlichkeit einer richtigen Antwort ist logistische Verteilung, bei der sich die Elemente nur hinsichtlich ihrer Schwierigkeit unterscheiden

Lösungswahrscheinlichkeit hängt von Fähigkeit der Person θ ab —> Funktion steigt mit Personenfähigkeit an
Lösungswahrscheinlichkeit hängt von Schwierigkeit des Items β ab —> Ergebnis ist Wahrscheinlichkeit, die zwischen 0 und 1 liegt

Beispiel θ = 2, β = 3

Item Characteristics Curve (1PL)

Stellt Verlauf der Lösungswahrscheinlichkeit für ein Item in Abhängigkeit der Personenfähigkeit dar

Ist θ – β größer als 0, dann Lösungswahrscheinlichkeit größer als 0.5
Ist θ – β kleiner als 0, dann Lösungswahrscheinlichkeit kleiner als 0.5
Ist θ – β gleich 0, dann Lösungswahrscheinlichkeit gleich als 0.5

Itemschwierigkeit definiert als Punkt auf Kontinuum der Fähigkeit an dem Lösungswahrscheinlichkeit genau 0.5

Annahmen (1PL)

Suffiziente Statistiken

Eindimensionalität

Lokale stochastische Unabhängigkeit

Spezifische Objektivität

Suffiziente Statistiken (1PL)

Erschöpfen die ganzen in Originaldaten enthaltenen Infos, Datenaggregation ist legitim und nicht mit Verlust an diagnostischen Infos verbunden

Zeilensumme ri suffiziente Statistik für Personenparameter θi und die Spaltensumme sj eine suffiziente Statistik für den Itemparameter βj

Eindimensionalität (1PL)

Item erfasst 1 latentes Konstrukt, Antworten der Person auf Items nur durch 1 Konstrukt bestimmt, meist schwer zu erreichen, deshalb spricht man von essenzieller Eindimensionalität (ist stark verletzt dann mehrdimensionale IRT-Modelle)

Lokale stochastische Unabhängigkeit (1PL)

Wahrscheinlichkeit mit der Person Item richtig löst muss unabhängig von Lösungswahrscheinlichkeiten der Person für die anderen Items sein und unabhängig von Lösungswahrscheinlichkeiten anderer Personen für das Item

Lösungswahrscheinlichkeit für 1 Item darf sich nicht durch Lösen/Nicht-Lösen eines anderen Items verändern

Spezifische Objektivität (1PL)

Vergleiche zwischen Personen sollten nicht von spezifischen vorgegebenen Items abhängen und Vergleiche zwischen Items sollten nicht von den spezifischen getesteten Personen abhängen

Iteminvariante Personenparameter: Unabhängig von den betrachteten Items sind die Personen nach ihren Fähigkeiten immer gleich geordnet
Stichprobeninvariante Itemparameter: Unabhängig von den betrachteten Personen sind die Items nach ihren Schwierigkeiten immer gleich geordnet

Wenn Rasch-Modell gilt:

Summenscore = suffiziente Statistik zur Beschreibung der Person —> Betrachtung Antwortmuster keine Infos die über Summenscore hinausgehen

Normierung Rasch-Modell

Skala Personenfähigkeiten und Itemschwierigkeiten ist latent, besitzt also keinen natürlichen Ursprung

Häufig wird Summe (also MW) der Itemschwierigkeiten als Nullpunkt der Skala festgelegt (Summennormierung)
Items, die leichter als der MW sind, erhalten einen negativen Itemparameter (vv.)

Maximum Likelihood Schätzung

Parametrisches Schätzverfahren, mit dem Parameter der Grundgesamtheit aus der Stichprobe geschätzt werden

Idee des Verfahrens ist, als Schätzwerte für die wahren Parameter der Grundgesamtheit diejenigen auszuwählen, unter denen die beobachteten Stichprobenrealisationen am wahrscheinlichsten sind
Schätzung der Item- und Personenparameter: Modellparameter so geschätzt, dass Plausibilität der beobachteten Daten maximiert wird

Maximum Likelihood Schätzer

Quasi umgekehrte Fragestellung: Wie plausibel sind verschiedene Parameterwerte bei einem bestimmten, bekannten Ergebnis

Um den ML Schätzer zu bestimmen, muss man die Likelihoodfunktion ableiten und nullsetzen
—> Zur Vereinfachung der Ableitung logarithmiert man die Likelihoodfunktion
Dadurch ändert sich zwar der Wert der Likelihood, aber die Lage des Maximums bleibt unverändert

Gemeinsame Likelihoodfunktion bilden —> Logarithmieren —> Ableiten —> Nullsetzen und Auflösen

ML-Schätzung bei IRT-Modellen

Joint ML: Item- und Personenparameter gleichzeitig geschätzt
Conditional ML: Item- und Personenparameter nacheinander geschätzt
Marginal ML: Item- und Personenparameter nacheinander geschätzt

Alle verwenden als Ausgangspunkt die Likelihoodfunktion des Rasch-Modells

Joint Maximum Likelihood

Mit jeder zusätzlichen Person erhöht sich die Anzahl der zu schätzenden Personenparameter um 1

Sinnvoll Stichprobe zu vergrößern, aber bei JML kann man nie gleichbleibende Anzahl Parameter aus größer werdender Stichprobe schätzen
Führt zu nicht konsistenten Schätzern und wird selten verwendet

Conditional Maximum Likelihood

Likelihood wird bedingt auf die Randsummen r(j)

Personenparameter lassen sich herauskürzen und Itemparameter können unabhängig von Personenparametern geschätzt werden

Iterative Verfahren: konvergieren von Iteration zu Iteration gegen die richtigen Parameterwerte —> benötigen Abbruchkriterium bei dem Schätzung beendet wird

Marginal Maximum Likelihood

In Regel wird als Verteilung die Normalverteilung angenommen

Itemparameter werden bei der Schätzung der Personenparameter als bekannt angenommen

Maximum Likelihood Estimates

Nach Schätzung mit CML oder MML werden Itemparameter in gemeinsame Likelihoodfunktion eingesetzt und ML Schätzer für Personenparameter bestimmt

Weighted Likelihood Estimates

Erweiterung Maximum Likelihood Estimates die auch Schätzer für Personen mit Extremscores liefern

Ableitung der Likelihood mit Korrekturterm der sehr kleine Scores etwas vergrößert und sehr große Scores verkleinert

Expected a posterior

Können im Anschluss and die MML Schätzung gewonnen werden

Erwartungswerte der latenten Variable unter der Bedingung der Daten, der Itemparameter und der Verteilung der latenten Variablen

Dichotomes 2PL Modell

Erweiterung Rasch Modell (1 PL) bei dem Items sich in Schwierigkeit UND Diskriminationsfähigkeit unterscheiden können

Höheres Steigungsparameter = konstanter Fähigkeitsunterschied wirkt sich stärker auf Unterschied in Lösungswahrscheinlichkeit aus als bei kleinerem SP

3PL Modell

Erweitert 2PL durch Einführung eines Schätzparameters:

Items unterscheiden sich hinsichtlich ihrer Diskriminationsfähigkeit, Schwierigkeit und Ratewahrscheinlichkeit (Wahrscheinlichkeit, eine richtige Antwort zu erraten)
Zusätzlich noch Rateparameter für jedes Item geschätzt der dazu führt, dass sich die ICC asymptotisch nicht 0 sondern eben diesem Rateparameter annähern

3PL Modell Einsatzbereiche

Vor allem bei Auswertung Multiple Choice Tests, kann Rateparameter theoretische Ratewahrscheinlichkeit festlegen

Annahme gemacht, dass alle falschen Antwortalternativen dieselbe Wahrscheinlichkeit haben, was total unplausibel ist
Deshalb oft sinnvoller Rateparameter für jedes Item zu schätzen, was aber unheimlich große Stichproben erfordert

Schätzung 2PL und 3PL Modelle

Personen- und Itemparameter sind im 2PL und 3PL Modell nicht mehr trennbar

Randsummen sind keine suffizienten Statistiken und Schätzung mit CML nicht möglich
Deshalb Marginal Maximum Likelihood verwendet

Partial Credit Modell

Direkte Erweiterung des RM für polytome Daten (mehr als 2 Ausprägungen) —> RM auf jedes Paar von benachbarten Antwortkategorien

Eindimensionales Modell zur Analyse von Antworten, die in zwei oder mehr geordneten Kategorien erfasst wurden
Eigenschaften Rasch Modell bleiben erhalten: trennbare Personen- und Itemparameter, ausreichende Statistiken und daher gemeinsame Additivität —> Ermöglichen „spezifisch objektive“ Vergleiche von Personen und Gegenständen

1PL Modelle für polytome Daten = Partical Credit Modell

2PL Modelle für polytome Daten = Generalized Partial Credit Modell und Graded Response Modell

Category Characteristic Curves

Wenn θ (Fähigkeit) kleiner als -2.5 = Kategorie 0 am wahrscheinlichsten
Wenn θ gleich 0 = Kategorien 1 am wahrscheinlichsten, Kategorie 2 am zweitwahrscheinlichsten
Wahrscheinlichkeiten summieren sich für jede θ zu 1 auf
Bei polytomen Items gibt es mehrere Schwellenparameter
—> CCCs von benachbarten Kategorien überschneiden sich in Schwellenparametern

Bedingte Wahrscheinlichkeit für eine Antwort in Kategorie C

Summen über verschiedene Antwortkategorien, um gesuchte Wahrscheinlichkeit zu berechnen
Gammajk = Schwellenparameter für Übergang zu Kategorie c-1 zu c

Generalized Partial Credit Modell

Wie PCM aber lockerer: Lockerung der Annahme einer einheitlichen Unterscheidungskraft der Testaufgaben

Basiert auf Annahme, dass jede Wahrscheinlichkeit der Wahl der k-ten Kategorie gegenüber der k-1-ten Kategorie durch dichotomes Antwortmodell bestimmt wird
2 oder mehr geordnete Kategorien

Graded Response Modell

Wahrscheinlichkeit bewerten oder zumindest abschätzen, mit welcher Wahrscheinlichkeit eine bestimmte Testperson für jedes Item eine bestimmte Note oder Punktzahl erhält.
Ermöglicht, den Grad der Fähigkeiten oder latenten Merkmale der Testperson abzuschätzen.
Abschätzbar wie gut die Testfragen dieses latente Merkmal oder diese Fähigkeit messen.

Kumulative Wahrscheinlichkeiten betrachtet: Wahrscheinlichkeit in einer bestimmten Kategorie oder darüber zu antworten

Eigenschaften Graded Response Modell

Setzt geordnete Antwortkategorien voraus
Anzahl der Antwortkategorien kann zwischen Items unterscheiden
Schwellenparameter immer geordnet
In empirischen Anwendungen sind Ergebnisse des GRM sehr ähnlich

Adaptives Testen

Folgende Items orientieren sich an Beantwortung der vorangegangenen

Korrekte Antwort = schwierigeres Item, falsche Antwort = leichteres Item
Voraussetzung: Pool aus Items, die mit IRT-Modell kalibriert sind (für späteren Einsatz müssen Itemparameter bekannt sein, große Stichprobe für Kalibrierung, vergleichbare Testbedingungen)

Itemauswahl (AT)

Beginn mittleres oder leichtes Item, während Testung obere Regel

Während der Testung jeweils das Item ausgewählt und vorgelegt, das unter der aktuellen Schätzung der Personenfähigkeit optimale Eigenschaften aufweist

Iteminformation (AT)

Beschreibt Beitrag eines Items zur Schätzung des Personenparameters (im Rasch-Modell am informativsten, wenn Traitausprägung der Itemschwierigkeit entspricht)

Testinformation (AT)

Ergibt sich aus Summe Iteminformationen

Exposure Control (AT)

Um zu verhindern, dass einige Items sehr vielen Testpersonen präsentiert werden (z.B. wegen ihrer Diskrimination), kann dem statistischen Itemauswahlkriterium eine stochastische Komponente hinzugefügt werden

Z.B. zufällige Auswahl eines Items aus den 5 informativsten für aktuelle Fähigkeitsschätzung

Computer-Adaptives-Testen (AT)

Flexible Itemauswahl, Steigerung Messeffizienz (Messpräzision / Testlänge), unter optimalen Bedingungen können CATs ca. 50% kürzer sein bei vergleichbarer Präzision oder sind gleich lang, aber präziser

Forced-Choice Daten

Antwortstile können nicht auftreten, Faking wird reduziert

Gesamtscore ist für alle Personen gleich (ipsative Daten), weil in jedem Block eine konstante Anzahl an Punkten gegeben wird
Hohe Scores in einer Skala immer mit niedrigeren Scores auf anderer Skala
Erlauben nur intraindividuelle Vergleiche
Verzerrte Reliabilitätsschätzer, verzerrte Korrelationen

IRT-Auswertung von Forced Choice

Jedem Item liegt latenter psychologischer Wert zugrunde (Utility = kontinuierliche latente Variable, die in Population normalverteilt ist)

Wenn Person zwischen 2 Items entscheiden muss, so wird sie das Item mit größerer Utility wählen

TIRT

Bedingte Wahrscheinlichkeit Item i gegenüber Item k zu bevorzugen

Mit dem TIRT können normative Traitschätzer gewonnen werden, sofern bei der Konstruktion des MFC-Fragebogens einige Aspekte beachtet wurden (v.a. Verwendung von ausreichend paarweisen Vergleichen, die aus unterschiedlich gepolten Items bestehen)

Multi-Trait-Multi-Method

Verwendung mehrerer diagnostischer Verfahren oder Erhebungsmethoden zur Erfassung von Konstrukten

Überprüfung Konstruktvalidität, gleichzeitige Betrachtung mehrerer Traits, Messungen mit mehreren Methoden, systematische Kombination von Traits und Messmethoden
Messung von Traits nicht unabhängig von verwendeten Methoden —> Zusammenhänge zwischen Traits können durch Methodeneffekte auftreten
Messung = systematische Trait-Methoden-Einheit + unsystematischer Fehler
Überschätzung und Unterschätzung von Zusammenhängen möglich
Methodeneffekte können mit MTMM aufgedeckt und berücksichtigt werden

Trimodaler Ansatz (MTMM)

Valide Messung

Messen dasselbe Merkmal über verschiedene Methoden hinweg = konvergente Validität

Messungen verschiedener Merkmale hängen wenig zusammen = diskriminante Validität

Methodeneffekte möglichst gering

Korrelationsbasierte MTMM

Deskriptives Vorgehen, Korrelationen desselben Traits, der mit unterschiedlichen Methoden erfasst wurde (konvergent) sollten deutlich höher ausfallen als Korrelationen zwischen unterschiedlichen Traits, die mit derselben oder unterschiedlichen Methoden erfasst wurden (diskriminant)

Konvergente Validität: Monotrait-Heteromethod-Korrelationen statistisch hoch signifikant
Diskriminante Validität: Heterotrait-Monomethod kleiner als Monotrait-Heteromethod, Heterotrait-Heteromethod kleiner als Monotrait-Heteromethod

Konfirmatorische MTMM-Analyse

+ verschiedene Varianzanteile an Messung können voneinander getrennt werden

+ konvergente und diskriminante Validität können auch statistisch geprüft werden

+ erlaubt Überprüfung weiterer Annahmen

+ erlaubt Schätzung von weiteren Zusammenhängen auf latenter Ebene

Spezifikation verschiedener Arten von Faktoren (Traits und Methoden), dürfen untereinander korrelieren aber nicht miteinander, jeder Indikator lädt auf einem latenten Traitfaktor und einem latenten Methodenfaktor

Arten Konfirmatorische MTMM Analyse

Correlated Trait Uncorrelated Method

Correlated Trait Correlated Method

Uncorrelated Trait Uncorrelated Method

Uncorrelated Trait Correlated Method

Correlated Trait Uncorrelated Method

Correlated Trait Correlated Method

Uncorrelated Trait Uncorrelated Method

Uncorrelated Trait Correlated Method

Beurteilung Konstruktvalidität (MTMM)

Modellfit, konvergente Validität (hohe Faktorladung auf Traitfaktor), diskriminante Validität (geringe Korellation zwischen Traitfaktoren), Einfluss der Methode (Faktorladungen auf Methodenfaktoren)

Correlated-Trait-Correlated-(Method-minus-1)-Modell

Eine Methode wird als Referenzmethode definiert, für diese wird kein eigener Methodenfaktor spezifiziert

+ führt zu weniger Schätzproblemen als CTCM-Modell

+ eindeutige Interpretation der Trait- und Methodenfaktoren

Methodeneffekte (MTMM)

Methoden sollten möglichst unabhängig voneinander sein

Höhere Heterotrait-Monomethod Korrelationen als Monotrait- Heteromethod Korrelationen deuten auf gemeinsame Methodenvarianz hin

Selbstwahrnehmung

Zusammenhänge mit objektiven Verhaltensmessungen, Zusammenhänge mit Berichten von nahestehenden Personen, Zusammenhänge von Selbstberichten

Objektiv: Laborverhalten, Videoaufnahmen, Lebensereignisse
Nahestehende: Berechnung der Zusammenhänge zwischen Selbstbericht und Berichten anderer .44
Selbstberichte: Wahrnehmung einer Person, wie andere Personen ihre Persönlichkeit wahrnehmen

Diagnostischer Prozess

Auftragsklärung (DP)

Vereinbarung globaler Fragestellung mit Auftraggeber (Wer im Fokus, Was ist Konsequenz?)

Selektionsdiagnostik: Individuum = Auswahl geeignetster Person (z. B. Personalauswahl), Umwelt = Auswahl geeignetster Umwelt (z. B. Berufsempfehlung), Erfassung zeitlich relativ stabiler Eigenschaften, Ziel Prognose
Modifikationsdiagnostik: Ziel = Status feststellen und Veränderung zum Sollzustand abbilden, Erfassung konkreten Verhaltens einer Person oder relevanter Bedingungen einer Umwelt, Veränderung auf Ebene der Person (z. B. Verhalten) oder der Umwelt, Statusdiagnostik mit anschließender Prozessdiagnostik (Verlaufskontrolle)

Entscheidungsregeln (DP)

Vor Untersuchung muss festgelegt werden, anhand welcher Entscheidungsregeln die einzelnen Hypothesen und die globale Fragestellung beantwortet werden sollen

Kompensatorische Regel
Oder-Regel
Konjunktive Regel
Mischformen

Kompensatorische Regel

Informationen zu verschiedenen Konstrukten/aus verschiedenen Verfahren werden zu einem Wert zusammengefasst

-> Derselbe Gesamtwert kann durch verschiedene Merkmalskombinationen hervorgerufen werden

Oder-Regel

Werte werden nicht verrechnet, sondern es reicht, in einem der Bereiche die Anforderung (z. B. T-Wert von 50) zu erfüllen

Konjunktive Regel

In jedem Merkmalsbereich müssen bestimmte Mindest- anforderungen erfüllt werden

Mischformen

Schwach konjunktiv (Alle Merkmale müssen in einem Mindestmaß vorhanden sein, Oberhalb dieser Grenze werden die Werte kompensatorisch verrechnet), schwach oder (Überschreiten eines Mindestwerts in einem Bereich führt zu positiver Diagnose, unabhängig von den Werten in anderen Bereichen)

Operationalisierung (DP)

Auswahl geeigneter Verfahren zur Beantwortung der Fragestellungen —> multimethodal

Leistungstests, psychometrische Persönlichkeitstests, Persönlichkeitsentfaltungs-Verfahren, Verhaltensbeobachtung, diagnostisches Interview

Untersuchungsplanung (DP)

In welcher Reihenfolge kommen Verfahren zum Einsatz, einstufige und mehrstufige Untersuchungspläne

Einstufig: erst Entscheidungen gefällt, wenn alle geplanten Verfahren durchgeführt worden sind und alle Informationen vorliegen (single screen, nicht-sequentiell)
Mehrstufig: an verschiedenen Stellen im Laufe der Untersuchung werden bereits Entscheidungen getroffen (ökonomischer)

Normorientierte Interpretation (DP)

Ausprägung Person auf Konstrukt relativ zu Bezugsgruppe

Testwertermittlung: nach bestimmten Regeln aus Itemantworten, Kodierung und Ermittlung Testwert über alle Items hinweg
—>Testwert erstmal Rohwert, deshalb Vergleichsmaßstab (norm- oder Kriteriumsorientiert)
Konfidenzintervall: Bereich um Testwert, in dem andere Test- und Normwerte liegen, die Person ebenso haben könnte (Messfehler berücksichtigt), werden gängig um Normwerte berechnet (setzt sich aus Test-/Normwert, Standardfehler und z-Wert zusammen)
Konfidenzkoeefizient: 1 – Alpha, Wahl von Alpha hängt von Konsequenzen der diagnostischen Entscheidung ab (Alpha oder Beta Fehler wichtiger)
-> geringe Reliabilität und hohe Sicherheitswahrscheinlichkeit = KI breit
->ungerichtete Hypothese = einseitiges KI, gerichtete Hypothese = zweiseitiges

Konfidenzintervalle (DP)

Z-Werte (DP)

Wert, der von Standardnormalverteilung einen bestimmten Anteil abschneidet (hängt von KI und von Seitigkeit des KI ab, findet man in Tabelle)

Kriteriumsorientierte Interpretation (DP)

Bezug Testwert auf externes Kriterium: Entscheidung, ob eine Person geeignet/ungeeignet oder krank/gesund ist, wird in Bezug auf ein spezifisches externes Kriterium getroffen (hierfür Schwellenwerte definiert, ROC Analyse)

Treffer: Fall erfüllt Kriterium
Verpasser: Fall erfüllt Kriterium aber nicht diagnostiziert
Falscher Alarm: Fallt erfüllt Kriterium nicht, aber diagnostiziert
Korrekte Ablehnung: Fall erfüllt Kriterium nicht, und nicht diagnostiziert

ROC-Analyse

Schwellenwert, der ein optimales Gleichgewicht zwischen Sensitivität und Spezifität schafft

Für jeden Testwert Sensitivität und Spezifität berechnen, jeweils zueinander gehörigen Werte für Sensitivität und 1– Spezifität werden grafisch gegeneinander abgetragen —> ROC-Kurve, Tangente parallel zur Diagonalen, Sensitivität ablesen, hier aus Verteilungsfunktion den Schwellenwert ablesen
Aufschluss darüber, wie gut der Test geeignet ist, zwischen
Fällen, die das Kriterium erfüllen, und den übrigen Fällen zu trennen
Je größer der Abstand zwischen der Diagonalen und der Tangente, umso besser eignet sich der Test zur Trennung zwischen Fällen, die das Kriterium erfüllen, und den übrigen Fällen, ROC-Kurve nahe der Diagonalen deutet auf einen Zufallsprozess hin

Youden-Index

Join Course

Preview

Author

Marie R.

Information

Last changed
2 years ago

Report course