Kriteriumsorientierte Testung
Kriteriumsorientierte Tests
Kriteriumsorientierte Tests = inhaltsvalide Testverfahren, mit denen nicht die Position einer Person in Relation zu einer Vergleichsnorm ermittelt werden soll sondern das Erreichen oder Verfehlen eines konkreten Kriteriums
z.B. Fahrprüfung, curricular bezogene Klausuren
-> Das Kriterium ist hier eher als eine Art „Schwellenwert“ zu verstehen, der erreicht werden muss, um „zugelassen“ zu werden.
Probleme
Generierung inhaltsvalider Items
Setzung eines sachgerechten Kriteriums
-> Kriterium = Mindestwerte, die von den zu untersuchenden Personen erreicht werden sollen
-> Lehrplan
-> Therapieziel (Klient und Therapeut)
-> ist zeitlichen/kulturellen Veränderungen unterworfen
zufallskritische Zuordnung in Könner/ Nicht‐Könner
-> Man kann auch als Könner nicht immer alles korrekt machen
-> zufällig begangene Fehler lassen sich nicht auschließen, deshalb ergibt sich die Frage, wie viele Aufgaben eine Person lösen muss, um als Könner eingestuft zu werden
Kenntnistests: ausgewählten Aufgaben müssen eine repräsentative Stichprobe der Grundmenge (alle Unterrichtsinhalte) darstellen (z.B. Rechentests)
Zielorientierte Tests (Therapieziel): Spinnenphobie …
Probabilistsiche TT
KTT und PTT schließen sich nicht aus, sondern können sich sinnvoll ergänzen
Item-Response Theorie (IRT)
Der Zusammenhang zwischen manifester (Reaktion auf ein Item) und latenter (Intelligenzausprägung) Variable wird über Wahrscheinlichkeiten definiert.
Wenn eine Person eine bestimmte Merkmalsausprägung hat, sollte sie mit einer bestimmten Wahrscheinlichkeit ein bestimmtes Item lösen.
Die Annahmen sind empirisch überprüfbar.
Es gibt unterschiedliche probabilitstische Modelle: z.B. Birnbaum, Rasch, … (dichotom oder polynom). -> Dichotomes Raschmodell
Versuch, ein Merkmal empirisch überprüfbar zu machen
-> geht explizit der Frage nach, welche Rückscklüsse auf interessierende Einstellungs-, Fähigkeits,- und Persönluchkeitsmerkmale gezogen werden können, wenn lediglich Antworten von Probanden auf versch. Items vorliegen
-> liefert Antwort auf die Frage, wie man von Testverhalten einer Person auf ihre wahre Merkmalsauspräge schließen kann
IRT
liefert Antwort auf die Frage, wie man von Testverhalten einer Person auf ihre wahre Merkmalsauspräge schließen kann
latente Merkmale = können wir nicht unmittelbar beobachten (Intelligenz)
manifeste variablen = unmittelbar beobachtbar/messbar (Antwortverhalen im Test)
Manifeste Variablen als Indikatoren für latente
wahrer Wert = Personenparameter -> beschreibt wahre Merkmalsausprägung der Person
gibt mehrere Items in einem Test und mögliche Reaktionen darauf
Lösen/nicht lösen einer Aufgabe
Items können untersch. schwierig sein, die Schw. wird als Itemparameter bezeichnet
Grundidee:
WSK für das richtige lösen eines Items: wird in Formel beschreiben
Personen- und Itemparameter sollen sich auf einer eindimesnionalen Skala abbilden lassen, sodass immer entscheidbar ist, welcher der beiden Parameter größer ist
von der Ausprägung beider Parameter soll dann probabilistsich abhängen, ob ein Item gelöst werden kann
X chse: Wert für latente Eigenschaft
Y Achse: WSK Itenm zu lösen
Kurve: Itemcharakteristische Funktion für ein item
Je höher der Wert einer Merkmalsausprägung einer Person, z.B. je höher die Intelligenz, desto höher die WSK, das Item zu lösen -> monoton steigende Funktion
Itemcharakteristische Funktion beschreibt Beziehung zwischne einem latenten Merkma (Personeneparameter) und dem Reaktionsverhalten auf ein Item in Form einer WSK-Aussage
Deterministische & charakteristsiche Itemcharalteristiken
Deterministische Itemcharalteristiken
geht davon aus, das einen bestimmten Cut-Off Wert gibt
erst Personen mit Fähigkeit höher als der Cut Off Wert sind in der Lage das Item zu lösen
alle mit einem niedrigeerem Wert als der CO Wert können das Item nicht lösen
gibt nur eine WSK von 0 oder 100%, das Item zu lösen
Guttman Modell
Probabilistsiche Modelle
gehen von stochastsichen Beziehung zwischen Lösungungswsk und Parametern aus
monoton steigende Funktion
je höher die Fähigkeit einer Person desto höher die WSK das Item zu lösen
gibt keinen Cut Off Wert ab dem Probanden in jeden Fall das Itenm lösen, sondern es gibt für jeden Personenparameter eine bestimmte WSK ein item zu lösem, aber die liegt nicht bei 100%
PTT (IRT)
bekomme Antwort auf Frage wie man von item auf latentes Merkmal schließen kann
Lokale Stochastsiche Unabhängigkeit dafür wichtig
PTT ermöglicht es von mehreren manifesten Variablen auf eine latente zu schließen, wenn folgende Bd. efüllt sind:
manifesten Variablen sollen miteinnder jkorrlieren
Item sollten inhaltliche Indikatoren der latenten Variable sein (z.B. Expertenvalidierung prüfbar)
latente Variable soll als ursachenfaktor verantwortlich sein für die Korrelation der manifesten Variablen
dann sind die Items homogen
Bsp.: Neurotizismus:
lasse mich leuct aus Ruhe bringen, werd eleicht nerös usw.
Diese Items sollten korrleiren weil ihnen eine gemeinsame Persönlichkeitseigenschaft zugrundeliegt
Neurotizismus lokal konstant halten (also die Ursache für die Korrelation entfernen) -> dann sollte man keine Korrelation mehr zwischen den Items beobachten dürfen
Ursache für die Korrealtion ist dann nur die latente Variable
Merkmal auf einer Stufe konstant halten (z.B. nur Personen angucken, die sehr neurotisch sind -> gibt keinen Zshang zwichen den Items die Neurotizismus abbilden sollen (rechteck oben)
Gesamtpopulation betrachten: Personen die nicht/kaum/mittel neurotisch sind
dann gibt es Zusammenhang
bei lokal stochastischer Unabhängigkeit gibt es Itemhomogenität im Sinne der PTT
Zusmmenänge zwischen den Items können wirkich nur auf das zu erfassende Merkmale zurückgeführt werden
heißt auch, das Eindimensionalität wirklich sicher gestellt ist (also nur die gleiche Diemsnion gemessen wird)
geht bei KTT nicht
Itemsch. = Stichprobenabhängig
bei IRT: wenn lokale Stochastsiche Unabhängigkeit besteht (was prüfbar ist), liefert die Anzahl der gelösten Items eine hgute Schätzung für den Personenparameter (wahren Wert)
Itemschw. lässt sich unabhängig von SP schätzen
PTT:
wenn man Itemparameter unabhängig von Personenparameter schätzen kann, muss man sich keine Gedanken machen über verteilungsannahmen
bei KTT: müssen immer von NV der Merkmalswerte ausgehen
unabhängigkeit der Personenvergleiche von den verwendeten Items -> können prinzipiell alle Items verwendne um Merkmalsausprägung einer Person zu schätzen
aber nicht jedes Item liefert gleich viele infos über Merkmalsausprägung einer Person
Logistsiche ICF (unten): zeigt, das Lösungswsk (rote Linie) ihren stärksten Zuwachs an der Stelle aufweist, an der Item- und Personenparameter übereinstimmen (also da, wo die Lösungswsk 50% beträgt)
möchte man mit einem item vergleiche zwiwchen 2 Personen anstellen, funktioniert das am besten, wenn die Lösungswsk zwischen den Personen möglichst untersch. ist -> ist der Fall wenn die Itemschw. in dem Bereich der tatsächlichen Fähigkeiten der tatsächlichen Merkmalsausprägung der Person liegen
Wenn Itemschw. deutlich von tatsächliche Ausprägung/Fähigkeit abweichen, ergibt das keinen wirklichen Untersch. in Lösungswsk
Bsp.: Items mit charakteristischen Funktion: wollen Personen vergleichen, die z.B am Anfang der Linie liegen
gibt keinengroßen Untersch. in der Lösungswsk
je größer die Steigungd er IC Funktion bei einer Person, desto mehr Information durch Anwendung dieses Items
Informationsgehslt kann man abbilden über Itemsinformationsfunktion (blau) = erste Ableitung vond er ICF
Differenzierungsfähigkeit zwischen Personen, also Trennschärfe eines Itens, immer da am größten, wo Funktion ihr Maximum hat (wo logistsiche Funktion stärkste Steigung aufweist -> rote linie)
IRT macht adaptives Testen möglich
Item-Response Theory
Lokale Stochastische Unabhängigkeit zur Prüfung der Itemhomogenität
Vorraussetzungen:
manifesten Variablen sollten miteinander korrelieren
latente Variable soll als Ursachenfaktor verantwortlich sein für die Korrelation der manifesten Variablen
-> dann sind die Items homogen
Bsp. Neurotizismus:
lasse mich leicht aus der Ruhe bringen, werde leicht nervös usw., ängstlich
Diese Items sollten korrelieren weil ihnen eine gemeinsame Persönlichkeitseigenschaft zugrundeliegt
Konstanthaltung auf einem Wert (Ursache für die Korrelation entfernen -> in dem Fall neurotizismus) -> sollte keine Korrelation mehr zwischen den Items beobachten dürfen
Ursache für die Korrelationen ist dann nur die latente Variable
Y Achse: Lösungswsk des Items
X Achse: Merkmalsausprägung
Itemcharakteristsiche Funktion für ein Item
ICF beschreibt Beziehung zwischne einem latenten Merkma (Personeneparameter) und dem Reaktionsverhalten auf ein Item in Form einer WSK-Aussage
Itemparameter: Items können untersch. schwierig sein, die Schw. wird als Itemparameter bezeichnet
Personenparameter: wahrer Wert/ Merkmalsausprägung der Person (Fähigkeit, EInstellung, DispositionI
Itemdiskriminationsparameter ->Trennschärfe
Sigma= Schwierigkeit der Itemparameter
ist definiert an dem Wendepunkt der Funktion
Funktionen:
bestimmte mathematische EIgenschaften der NV sind schwer auf ICF anzuwenden
logistsiche Funktion ist mathematisch leichter zu handhaben als NV
Item Response Theorie (IRT)
Jede Linie ist ein Item
Gestrichelte Linie: Personen mit Merkmalsausprägung 3 —> Y Achse: alle Linien links von der gestrichelten —> Lösunswsk von nahe zu 1; orangene Lösung Item mit WSK von 0,8 = 80%
Blau: geringe Lösungswsk
Zwischen grün und blau testen (adaptives Testen) —> Schi. Des Items sollte im Bereich der Fähigkeit der Person liegen
Skala nutzen um Schwierigkeit und Fähigkeit auf gleichen Skala zu haben
-> zum Vergleich
Grundsätzlich sind alle Items geeignet, um verschiedene Merkmalsausprägungen zu erfassen.
Trotzdem liefert nicht jedes Item viele Informationen über die Merkmalsausprägung einer Person
Wo in der ICF ist der stärkste Zuwachs von Information?
Einzelinformation (eines Items) ist am höchsten, wenn Itemschw. dem Personenparameter etwa entspricht
Informationsgehalt kann man abbilden über Iteminformationsfunktion (erste Ableitung der ICF)
Informationsgehalt ist zwischen -1 und 1 am höchsten, weil man da am besten unterscheiden kann zwischen Personen die das Item lösen können und die die es nicht lösen kann
Vgl von Merkmalsausprägung 4 & 5 liefert kaum Infos, da Personen mit dieser Ausprägung sehr wahrscheinlich immer das Item lösen
Wendepunkt: erhalten die meiste Information
sehen welche Personen die Aufgabe lösen können und welche nicht (Informationsfunktion (blau) sagt mir wo ich die meiste Info aus einem Item erhalte)
Y Achse: Lösungsfähigkeit; X Achse: Fähigkeit und Schwierigkeit auf einer Skala
0 = mittlere Ausprägung
Nachteile:
Unsicherheit kann frustrierend sein
Intelligenztestaufgaben immer an Grenze der eigenen Leistung: anstrengend, frustrierend
Vorteile, Nachteile usw.
KTT und PTT Unterschiede
KTT
macht keine Aussage darüber, wie items beantwortet werden
macht keine Aussage darüber, wie leistung zustande kommt
Reine Messfehlertheorie (Interessiert sich für die Zusammensetzung von Messwerten)
Fokos auf Test als solchen
Axiome/ Annahmen nicht empirisch überprüfbar
Testwerte und wahre Werte werden auf gleichem Kontinuum angesiedelt
Testergebnis entspricht direkt dem Ausprägungsgrad des gemessenen Merkmals
PTT
echte Theorie über Tests
Fokos auf einzelne Items
Adaptives Testen -> Erhöhung der Testökonomie
adaptives Testen erlaubt das weniger Items verwendet werden ohne das die Messgenauigkeit leidet
Explizite Annahmen über das Zustandekommen vom Itemantworten (in Abhängigkeit von itemschwierigkeit und Merkmalsausprägung/ Fähigkeit der Person)
Messwert nur Indikator für wahren Wert, legt nicht von vornerein fest wie Zusammenhang zwischen Testergebnis und Merkmalsausprägung zu sein hat -> Betrachtet zwei versch. Arten von Variablen
Gemeinsamkeit
bei beiden die Annahme, dass den manifesten Reaktionen eine latente Variable zugrundeliegt (von manifesten auf latente Variablen schließen)
Sinnvole Ergänzung:
bei KTT Annahmen schwer prüfbar -> PTT kann dort sinnvoll ergänzen
Die Gütekriterien Reliabiliät, Validität entfallen in der Prob und können nicht angemessen ersetzt werden. -> KTT legt Fokos auf Gütekriterien
Wie unterscheidet sich normorientiertes Testen von kriteriumsorientiertem Testen?
Worin bestehen die Probleme und Grenzen?
Eigenschaftsdiagnostik: Normorientiertes Testen (Vergleichen)
Verhaltensdiagnostik: ermitteln ob Person Kriterium erreicht oder verfehlt (z.b. Fahrprüfung)
Was ist eine Itemcharakteristische Funktion? Und welche Parameter kennen Sie?
Was bedeuten die Parameter?
Was ist der Vorteil der PPT? Worin bestehen die Nachteile der PTT?
Was stellt die ICC dar?
Was bedeutet die Informationsfunktion?
Ergibt sich die Informationsfunktion nicht unmittelbar aus der
Itemcharakteristischen Funktion?
Wieso schließen sich KTT und PTT nicht aus? Inwiefern stellt die PTT eine Ergänzung zur KTT dar?
beiden versuchen von manifesten variablen auf latentes Merkmal zu schließen -> KTT berücksichtigt Gütekriterien/legt Fokus auf diese, PTT sind die Annahmen empirisch überprüfbar
bei KTT Fokus auf gesamten Test
PTT echte Theorie über Tests, KTT: reine Messfehlertheorie
Last changed10 months ago