Komplexität
Anzahl und Vielfalt von Elementen die Testperson für Antwort berücksichtigen muss (Zusammenhang mit Wiedergabetreue und Interaktivität)
Höhere Komplexität = höhere Schwierigkeit
Wiedergabetreue
Wie realistisch und genau werden Items durch konstruktrelevante Objekte, Aufgaben und Umgebungen reproduziert
Höhere Wiedergabetreue = höherer Aufwand in Itementwicklung
Interaktionsgrad
Ausmaß in dem Item auf Aktionen der Testpersonen reagiert
Höherer Interaktionsgrad = höherer Aufwand bei Itementwicklung
Ambulantes Assessment
Erhebung Verhalten unter natürlichen Bedingungen (Selbstbericht, Beobachtung, Physiologie, Biologie)
—> Meist mit Messwiederholungen
Vorteile Selbstbericht
Automatische Alarm- und Erinnerungsfunktionen, flexible Gestaltung Layout, maßgeschneiderte Antwortmodi, zufällige Ablaufsteuerung, vorausgegangene Antworten können nicht geändert werden, zuverlässiges zeitliches Protokoll, automatische Datensicherung, direkter Datentransfer
—> ABER: Reaktivität, weil VP weiß, dass abgefragt
Item-Response Theorie (IRT)
Modelliert Zusammenhang zwischen Antworten einer Person auf die Items und der zugrundeliegenden Variablen
Latente Modellierung: Beobachtungen nicht mit latenten Konstrukten gleichgesetzt, systematische Messfehlereinflüsse können explizit modelliert werden
Sind falsifizierbar, Abhängigkeit der Messpräzision vom Traitlevel wird berücksichtigt, Voraussetzungen für Verwendung von Summenscores oft nicht erfüllt
Anwendungsbereiche: Konstruktion neuer Tests, Überprüfung etablierter Tests, Large Scale Assessments, Erstellung paralleler Testformen, adaptives Testen
Arten an Modellen (IRT)
Modelle mit quantitativer Personenvariable: Rasch Modell, Partial Credit Modell, 2PL – 3PL – 4PL Modelle
Modelle mit qualitativer Personenvariable: latente Klassenanalyse
Modelle mit beidem: Mixed Rasch Modell
Modelle mit mehr als einer quantitativen Personenvariable: mehrdimensionale Modelle
Rasch-Modell
Geht von kontinuierlicher latenter Variable aus, die das Konstrukt beschreibt
Diese wird mit dichotomen Items erfasst
Personenscore: mit Datenmatrix erstellt, Fähigkeit der Person
Alle Personen mit selber Anzahl von Items werden als gleich fähig betrachtet
Lässt Verteilungsform der Stichprobe erkennen (gleichmäßig, Deckeneffekt, Bodeneffekt)
Gleichung Rasch-Modell
Ergebnis der Person im Test hängt nicht deterministisch von Fähigkeit ab, sondern Zufall spielt immer mit = deshalb nicht Lösungswahrscheinlichkeit betrachtet
Wahrscheinlichkeit (P) dass Person i bei der Bearbeitung von Item j das Ergebnis uij erzielt wird wie folgt bezeichnet: P(Uij = uij)
Abhängig von Fähigkeit der Person i und der Schwierigkeit des Items j
θ = latente Variable (Trait oder Fähigkeit)
β = Itemschwierigkeit
Personenfähigkeit und Itemschwierigkeit werden auf einer gemeinsamen Skala geschätzt, weshalb sie direkt in Beziehung zueinander gesetzt werden können
Je größer θ im Vergleich zu β, umso wahrscheinlicher korrekte Antwort
Je kleiner θ im Vergleich zu β, umso wahrscheinlicher falsche Antwort
Rasch-Modell 1PL
Wahrscheinlichkeit einer richtigen Antwort ist logistische Verteilung, bei der sich die Elemente nur hinsichtlich ihrer Schwierigkeit unterscheiden
Lösungswahrscheinlichkeit hängt von Fähigkeit der Person θ ab —> Funktion steigt mit Personenfähigkeit an
Lösungswahrscheinlichkeit hängt von Schwierigkeit des Items β ab —> Ergebnis ist Wahrscheinlichkeit, die zwischen 0 und 1 liegt
Beispiel θ = 2, β = 3
Item Characteristics Curve (1PL)
Stellt Verlauf der Lösungswahrscheinlichkeit für ein Item in Abhängigkeit der Personenfähigkeit dar
Ist θ – β größer als 0, dann Lösungswahrscheinlichkeit größer als 0.5
Ist θ – β kleiner als 0, dann Lösungswahrscheinlichkeit kleiner als 0.5
Ist θ – β gleich 0, dann Lösungswahrscheinlichkeit gleich als 0.5
Itemschwierigkeit definiert als Punkt auf Kontinuum der Fähigkeit an dem Lösungswahrscheinlichkeit genau 0.5
Annahmen (1PL)
Suffiziente Statistiken
Eindimensionalität
Lokale stochastische Unabhängigkeit
Spezifische Objektivität
Suffiziente Statistiken (1PL)
Erschöpfen die ganzen in Originaldaten enthaltenen Infos, Datenaggregation ist legitim und nicht mit Verlust an diagnostischen Infos verbunden
Zeilensumme ri suffiziente Statistik für Personenparameter θi und die Spaltensumme sj eine suffiziente Statistik für den Itemparameter βj
Eindimensionalität (1PL)
Item erfasst 1 latentes Konstrukt, Antworten der Person auf Items nur durch 1 Konstrukt bestimmt, meist schwer zu erreichen, deshalb spricht man von essenzieller Eindimensionalität (ist stark verletzt dann mehrdimensionale IRT-Modelle)
Lokale stochastische Unabhängigkeit (1PL)
Wahrscheinlichkeit mit der Person Item richtig löst muss unabhängig von Lösungswahrscheinlichkeiten der Person für die anderen Items sein und unabhängig von Lösungswahrscheinlichkeiten anderer Personen für das Item
Lösungswahrscheinlichkeit für 1 Item darf sich nicht durch Lösen/Nicht-Lösen eines anderen Items verändern
Spezifische Objektivität (1PL)
Vergleiche zwischen Personen sollten nicht von spezifischen vorgegebenen Items abhängen und Vergleiche zwischen Items sollten nicht von den spezifischen getesteten Personen abhängen
Iteminvariante Personenparameter: Unabhängig von den betrachteten Items sind die Personen nach ihren Fähigkeiten immer gleich geordnet
Stichprobeninvariante Itemparameter: Unabhängig von den betrachteten Personen sind die Items nach ihren Schwierigkeiten immer gleich geordnet
Wenn Rasch-Modell gilt:
Summenscore = suffiziente Statistik zur Beschreibung der Person —> Betrachtung Antwortmuster keine Infos die über Summenscore hinausgehen
Normierung Rasch-Modell
Skala Personenfähigkeiten und Itemschwierigkeiten ist latent, besitzt also keinen natürlichen Ursprung
Häufig wird Summe (also MW) der Itemschwierigkeiten als Nullpunkt der Skala festgelegt (Summennormierung)
Items, die leichter als der MW sind, erhalten einen negativen Itemparameter (vv.)
Maximum Likelihood Schätzung
Parametrisches Schätzverfahren, mit dem Parameter der Grundgesamtheit aus der Stichprobe geschätzt werden
Idee des Verfahrens ist, als Schätzwerte für die wahren Parameter der Grundgesamtheit diejenigen auszuwählen, unter denen die beobachteten Stichprobenrealisationen am wahrscheinlichsten sind
Schätzung der Item- und Personenparameter: Modellparameter so geschätzt, dass Plausibilität der beobachteten Daten maximiert wird
Maximum Likelihood Schätzer
Quasi umgekehrte Fragestellung: Wie plausibel sind verschiedene Parameterwerte bei einem bestimmten, bekannten Ergebnis
Um den ML Schätzer zu bestimmen, muss man die Likelihoodfunktion ableiten und nullsetzen
—> Zur Vereinfachung der Ableitung logarithmiert man die Likelihoodfunktion
Dadurch ändert sich zwar der Wert der Likelihood, aber die Lage des Maximums bleibt unverändert
Gemeinsame Likelihoodfunktion bilden —> Logarithmieren —> Ableiten —> Nullsetzen und Auflösen
ML-Schätzung bei IRT-Modellen
Joint ML: Item- und Personenparameter gleichzeitig geschätzt
Conditional ML: Item- und Personenparameter nacheinander geschätzt
Marginal ML: Item- und Personenparameter nacheinander geschätzt
Alle verwenden als Ausgangspunkt die Likelihoodfunktion des Rasch-Modells
Joint Maximum Likelihood
Mit jeder zusätzlichen Person erhöht sich die Anzahl der zu schätzenden Personenparameter um 1
Sinnvoll Stichprobe zu vergrößern, aber bei JML kann man nie gleichbleibende Anzahl Parameter aus größer werdender Stichprobe schätzen
Führt zu nicht konsistenten Schätzern und wird selten verwendet
Conditional Maximum Likelihood
Likelihood wird bedingt auf die Randsummen r(j)
Personenparameter lassen sich herauskürzen und Itemparameter können unabhängig von Personenparametern geschätzt werden
Iterative Verfahren: konvergieren von Iteration zu Iteration gegen die richtigen Parameterwerte —> benötigen Abbruchkriterium bei dem Schätzung beendet wird
Marginal Maximum Likelihood
In Regel wird als Verteilung die Normalverteilung angenommen
Itemparameter werden bei der Schätzung der Personenparameter als bekannt angenommen
Maximum Likelihood Estimates
Nach Schätzung mit CML oder MML werden Itemparameter in gemeinsame Likelihoodfunktion eingesetzt und ML Schätzer für Personenparameter bestimmt
Weighted Likelihood Estimates
Erweiterung Maximum Likelihood Estimates die auch Schätzer für Personen mit Extremscores liefern
Ableitung der Likelihood mit Korrekturterm der sehr kleine Scores etwas vergrößert und sehr große Scores verkleinert
Expected a posterior
Können im Anschluss and die MML Schätzung gewonnen werden
Erwartungswerte der latenten Variable unter der Bedingung der Daten, der Itemparameter und der Verteilung der latenten Variablen
Dichotomes 2PL Modell
Erweiterung Rasch Modell (1 PL) bei dem Items sich in Schwierigkeit UND Diskriminationsfähigkeit unterscheiden können
Höheres Steigungsparameter = konstanter Fähigkeitsunterschied wirkt sich stärker auf Unterschied in Lösungswahrscheinlichkeit aus als bei kleinerem SP
3PL Modell
Erweitert 2PL durch Einführung eines Schätzparameters:
Items unterscheiden sich hinsichtlich ihrer Diskriminationsfähigkeit, Schwierigkeit und Ratewahrscheinlichkeit (Wahrscheinlichkeit, eine richtige Antwort zu erraten)
Zusätzlich noch Rateparameter für jedes Item geschätzt der dazu führt, dass sich die ICC asymptotisch nicht 0 sondern eben diesem Rateparameter annähern
3PL Modell Einsatzbereiche
Vor allem bei Auswertung Multiple Choice Tests, kann Rateparameter theoretische Ratewahrscheinlichkeit festlegen
Annahme gemacht, dass alle falschen Antwortalternativen dieselbe Wahrscheinlichkeit haben, was total unplausibel ist
Deshalb oft sinnvoller Rateparameter für jedes Item zu schätzen, was aber unheimlich große Stichproben erfordert
Schätzung 2PL und 3PL Modelle
Personen- und Itemparameter sind im 2PL und 3PL Modell nicht mehr trennbar
Randsummen sind keine suffizienten Statistiken und Schätzung mit CML nicht möglich
Deshalb Marginal Maximum Likelihood verwendet
Partial Credit Modell
Direkte Erweiterung des RM für polytome Daten (mehr als 2 Ausprägungen) —> RM auf jedes Paar von benachbarten Antwortkategorien
Eindimensionales Modell zur Analyse von Antworten, die in zwei oder mehr geordneten Kategorien erfasst wurden
Eigenschaften Rasch Modell bleiben erhalten: trennbare Personen- und Itemparameter, ausreichende Statistiken und daher gemeinsame Additivität —> Ermöglichen „spezifisch objektive“ Vergleiche von Personen und Gegenständen
1PL Modelle für polytome Daten = Partical Credit Modell
2PL Modelle für polytome Daten = Generalized Partial Credit Modell und Graded Response Modell
Category Characteristic Curves
Wenn θ (Fähigkeit) kleiner als -2.5 = Kategorie 0 am wahrscheinlichsten
Wenn θ gleich 0 = Kategorien 1 am wahrscheinlichsten, Kategorie 2 am zweitwahrscheinlichsten
Wahrscheinlichkeiten summieren sich für jede θ zu 1 auf
Bei polytomen Items gibt es mehrere Schwellenparameter
—> CCCs von benachbarten Kategorien überschneiden sich in Schwellenparametern
Bedingte Wahrscheinlichkeit für eine Antwort in Kategorie C
Summen über verschiedene Antwortkategorien, um gesuchte Wahrscheinlichkeit zu berechnen
Gammajk = Schwellenparameter für Übergang zu Kategorie c-1 zu c
Generalized Partial Credit Modell
Wie PCM aber lockerer: Lockerung der Annahme einer einheitlichen Unterscheidungskraft der Testaufgaben
Basiert auf Annahme, dass jede Wahrscheinlichkeit der Wahl der k-ten Kategorie gegenüber der k-1-ten Kategorie durch dichotomes Antwortmodell bestimmt wird
2 oder mehr geordnete Kategorien
Graded Response Modell
Wahrscheinlichkeit bewerten oder zumindest abschätzen, mit welcher Wahrscheinlichkeit eine bestimmte Testperson für jedes Item eine bestimmte Note oder Punktzahl erhält.
Ermöglicht, den Grad der Fähigkeiten oder latenten Merkmale der Testperson abzuschätzen.
Abschätzbar wie gut die Testfragen dieses latente Merkmal oder diese Fähigkeit messen.
Kumulative Wahrscheinlichkeiten betrachtet: Wahrscheinlichkeit in einer bestimmten Kategorie oder darüber zu antworten
Eigenschaften Graded Response Modell
Setzt geordnete Antwortkategorien voraus
Anzahl der Antwortkategorien kann zwischen Items unterscheiden
Schwellenparameter immer geordnet
In empirischen Anwendungen sind Ergebnisse des GRM sehr ähnlich
Adaptives Testen
Folgende Items orientieren sich an Beantwortung der vorangegangenen
Korrekte Antwort = schwierigeres Item, falsche Antwort = leichteres Item
Voraussetzung: Pool aus Items, die mit IRT-Modell kalibriert sind (für späteren Einsatz müssen Itemparameter bekannt sein, große Stichprobe für Kalibrierung, vergleichbare Testbedingungen)
Itemauswahl (AT)
Beginn mittleres oder leichtes Item, während Testung obere Regel
Während der Testung jeweils das Item ausgewählt und vorgelegt, das unter der aktuellen Schätzung der Personenfähigkeit optimale Eigenschaften aufweist
Iteminformation (AT)
Beschreibt Beitrag eines Items zur Schätzung des Personenparameters (im Rasch-Modell am informativsten, wenn Traitausprägung der Itemschwierigkeit entspricht)
Testinformation (AT)
Ergibt sich aus Summe Iteminformationen
Exposure Control (AT)
Um zu verhindern, dass einige Items sehr vielen Testpersonen präsentiert werden (z.B. wegen ihrer Diskrimination), kann dem statistischen Itemauswahlkriterium eine stochastische Komponente hinzugefügt werden
Z.B. zufällige Auswahl eines Items aus den 5 informativsten für aktuelle Fähigkeitsschätzung
Computer-Adaptives-Testen (AT)
Flexible Itemauswahl, Steigerung Messeffizienz (Messpräzision / Testlänge), unter optimalen Bedingungen können CATs ca. 50% kürzer sein bei vergleichbarer Präzision oder sind gleich lang, aber präziser
Forced-Choice Daten
Antwortstile können nicht auftreten, Faking wird reduziert
Gesamtscore ist für alle Personen gleich (ipsative Daten), weil in jedem Block eine konstante Anzahl an Punkten gegeben wird
Hohe Scores in einer Skala immer mit niedrigeren Scores auf anderer Skala
Erlauben nur intraindividuelle Vergleiche
Verzerrte Reliabilitätsschätzer, verzerrte Korrelationen
IRT-Auswertung von Forced Choice
Jedem Item liegt latenter psychologischer Wert zugrunde (Utility = kontinuierliche latente Variable, die in Population normalverteilt ist)
Wenn Person zwischen 2 Items entscheiden muss, so wird sie das Item mit größerer Utility wählen
TIRT
Bedingte Wahrscheinlichkeit Item i gegenüber Item k zu bevorzugen
Mit dem TIRT können normative Traitschätzer gewonnen werden, sofern bei der Konstruktion des MFC-Fragebogens einige Aspekte beachtet wurden (v.a. Verwendung von ausreichend paarweisen Vergleichen, die aus unterschiedlich gepolten Items bestehen)
Multi-Trait-Multi-Method
Verwendung mehrerer diagnostischer Verfahren oder Erhebungsmethoden zur Erfassung von Konstrukten
Überprüfung Konstruktvalidität, gleichzeitige Betrachtung mehrerer Traits, Messungen mit mehreren Methoden, systematische Kombination von Traits und Messmethoden
Messung von Traits nicht unabhängig von verwendeten Methoden —> Zusammenhänge zwischen Traits können durch Methodeneffekte auftreten
Messung = systematische Trait-Methoden-Einheit + unsystematischer Fehler
Überschätzung und Unterschätzung von Zusammenhängen möglich
Methodeneffekte können mit MTMM aufgedeckt und berücksichtigt werden
Trimodaler Ansatz (MTMM)
Valide Messung
Messen dasselbe Merkmal über verschiedene Methoden hinweg = konvergente Validität
Messungen verschiedener Merkmale hängen wenig zusammen = diskriminante Validität
Methodeneffekte möglichst gering
Korrelationsbasierte MTMM
Deskriptives Vorgehen, Korrelationen desselben Traits, der mit unterschiedlichen Methoden erfasst wurde (konvergent) sollten deutlich höher ausfallen als Korrelationen zwischen unterschiedlichen Traits, die mit derselben oder unterschiedlichen Methoden erfasst wurden (diskriminant)
Konvergente Validität: Monotrait-Heteromethod-Korrelationen statistisch hoch signifikant
Diskriminante Validität: Heterotrait-Monomethod kleiner als Monotrait-Heteromethod, Heterotrait-Heteromethod kleiner als Monotrait-Heteromethod
Konfirmatorische MTMM-Analyse
+ verschiedene Varianzanteile an Messung können voneinander getrennt werden
+ konvergente und diskriminante Validität können auch statistisch geprüft werden
+ erlaubt Überprüfung weiterer Annahmen
+ erlaubt Schätzung von weiteren Zusammenhängen auf latenter Ebene
Spezifikation verschiedener Arten von Faktoren (Traits und Methoden), dürfen untereinander korrelieren aber nicht miteinander, jeder Indikator lädt auf einem latenten Traitfaktor und einem latenten Methodenfaktor
Arten Konfirmatorische MTMM Analyse
Correlated Trait Uncorrelated Method
Correlated Trait Correlated Method
Uncorrelated Trait Uncorrelated Method
Uncorrelated Trait Correlated Method
Beurteilung Konstruktvalidität (MTMM)
Modellfit, konvergente Validität (hohe Faktorladung auf Traitfaktor), diskriminante Validität (geringe Korellation zwischen Traitfaktoren), Einfluss der Methode (Faktorladungen auf Methodenfaktoren)
Correlated-Trait-Correlated-(Method-minus-1)-Modell
Eine Methode wird als Referenzmethode definiert, für diese wird kein eigener Methodenfaktor spezifiziert
+ führt zu weniger Schätzproblemen als CTCM-Modell
+ eindeutige Interpretation der Trait- und Methodenfaktoren
Methodeneffekte (MTMM)
Methoden sollten möglichst unabhängig voneinander sein
Höhere Heterotrait-Monomethod Korrelationen als Monotrait- Heteromethod Korrelationen deuten auf gemeinsame Methodenvarianz hin
Selbstwahrnehmung
Zusammenhänge mit objektiven Verhaltensmessungen, Zusammenhänge mit Berichten von nahestehenden Personen, Zusammenhänge von Selbstberichten
Objektiv: Laborverhalten, Videoaufnahmen, Lebensereignisse
Nahestehende: Berechnung der Zusammenhänge zwischen Selbstbericht und Berichten anderer .44
Selbstberichte: Wahrnehmung einer Person, wie andere Personen ihre Persönlichkeit wahrnehmen
Diagnostischer Prozess
Auftragsklärung (DP)
Vereinbarung globaler Fragestellung mit Auftraggeber (Wer im Fokus, Was ist Konsequenz?)
Selektionsdiagnostik: Individuum = Auswahl geeignetster Person (z. B. Personalauswahl), Umwelt = Auswahl geeignetster Umwelt (z. B. Berufsempfehlung), Erfassung zeitlich relativ stabiler Eigenschaften, Ziel Prognose
Modifikationsdiagnostik: Ziel = Status feststellen und Veränderung zum Sollzustand abbilden, Erfassung konkreten Verhaltens einer Person oder relevanter Bedingungen einer Umwelt, Veränderung auf Ebene der Person (z. B. Verhalten) oder der Umwelt, Statusdiagnostik mit anschließender Prozessdiagnostik (Verlaufskontrolle)
Entscheidungsregeln (DP)
Vor Untersuchung muss festgelegt werden, anhand welcher Entscheidungsregeln die einzelnen Hypothesen und die globale Fragestellung beantwortet werden sollen
Kompensatorische Regel
Oder-Regel
Konjunktive Regel
Mischformen
Informationen zu verschiedenen Konstrukten/aus verschiedenen Verfahren werden zu einem Wert zusammengefasst
-> Derselbe Gesamtwert kann durch verschiedene Merkmalskombinationen hervorgerufen werden
Werte werden nicht verrechnet, sondern es reicht, in einem der Bereiche die Anforderung (z. B. T-Wert von 50) zu erfüllen
In jedem Merkmalsbereich müssen bestimmte Mindest- anforderungen erfüllt werden
Schwach konjunktiv (Alle Merkmale müssen in einem Mindestmaß vorhanden sein, Oberhalb dieser Grenze werden die Werte kompensatorisch verrechnet), schwach oder (Überschreiten eines Mindestwerts in einem Bereich führt zu positiver Diagnose, unabhängig von den Werten in anderen Bereichen)
Operationalisierung (DP)
Auswahl geeigneter Verfahren zur Beantwortung der Fragestellungen —> multimethodal
Leistungstests, psychometrische Persönlichkeitstests, Persönlichkeitsentfaltungs-Verfahren, Verhaltensbeobachtung, diagnostisches Interview
Untersuchungsplanung (DP)
In welcher Reihenfolge kommen Verfahren zum Einsatz, einstufige und mehrstufige Untersuchungspläne
Einstufig: erst Entscheidungen gefällt, wenn alle geplanten Verfahren durchgeführt worden sind und alle Informationen vorliegen (single screen, nicht-sequentiell)
Mehrstufig: an verschiedenen Stellen im Laufe der Untersuchung werden bereits Entscheidungen getroffen (ökonomischer)
Normorientierte Interpretation (DP)
Ausprägung Person auf Konstrukt relativ zu Bezugsgruppe
Testwertermittlung: nach bestimmten Regeln aus Itemantworten, Kodierung und Ermittlung Testwert über alle Items hinweg
—>Testwert erstmal Rohwert, deshalb Vergleichsmaßstab (norm- oder Kriteriumsorientiert)
Konfidenzintervall: Bereich um Testwert, in dem andere Test- und Normwerte liegen, die Person ebenso haben könnte (Messfehler berücksichtigt), werden gängig um Normwerte berechnet (setzt sich aus Test-/Normwert, Standardfehler und z-Wert zusammen)
Konfidenzkoeefizient: 1 – Alpha, Wahl von Alpha hängt von Konsequenzen der diagnostischen Entscheidung ab (Alpha oder Beta Fehler wichtiger)
-> geringe Reliabilität und hohe Sicherheitswahrscheinlichkeit = KI breit
->ungerichtete Hypothese = einseitiges KI, gerichtete Hypothese = zweiseitiges
Konfidenzintervalle (DP)
Z-Werte (DP)
Wert, der von Standardnormalverteilung einen bestimmten Anteil abschneidet (hängt von KI und von Seitigkeit des KI ab, findet man in Tabelle)
Kriteriumsorientierte Interpretation (DP)
Bezug Testwert auf externes Kriterium: Entscheidung, ob eine Person geeignet/ungeeignet oder krank/gesund ist, wird in Bezug auf ein spezifisches externes Kriterium getroffen (hierfür Schwellenwerte definiert, ROC Analyse)
Treffer: Fall erfüllt Kriterium
Verpasser: Fall erfüllt Kriterium aber nicht diagnostiziert
Falscher Alarm: Fallt erfüllt Kriterium nicht, aber diagnostiziert
Korrekte Ablehnung: Fall erfüllt Kriterium nicht, und nicht diagnostiziert
ROC-Analyse
Schwellenwert, der ein optimales Gleichgewicht zwischen Sensitivität und Spezifität schafft
Für jeden Testwert Sensitivität und Spezifität berechnen, jeweils zueinander gehörigen Werte für Sensitivität und 1– Spezifität werden grafisch gegeneinander abgetragen —> ROC-Kurve, Tangente parallel zur Diagonalen, Sensitivität ablesen, hier aus Verteilungsfunktion den Schwellenwert ablesen
Aufschluss darüber, wie gut der Test geeignet ist, zwischen
Fällen, die das Kriterium erfüllen, und den übrigen Fällen zu trennen
Je größer der Abstand zwischen der Diagonalen und der Tangente, umso besser eignet sich der Test zur Trennung zwischen Fällen, die das Kriterium erfüllen, und den übrigen Fällen, ROC-Kurve nahe der Diagonalen deutet auf einen Zufallsprozess hin
Youden-Index
Zuletzt geändertvor einem Jahr