Wie hoch kann Kommunalität maximal werden und wieso
maximal 1 da die Varianz der z standardisierten Variabeln maximal 1 ist
Sie haben einen Fragebogen für Depressivität entwickelt. Worauf müssen Sie bei der inhaltlichen Prüfung der Items achten und wie müsste das speziell in ihrem Fragebogen aussehen
Items passen inhaltlich zum Konstrukt-> passen also zur Erfassung der Depressivität (sollten zudem auch richtig gepolt sein)
Items decken Facetten von Depressivität ab
Items sind korrekt gewichtet
-> im Fragebogen sollte es also Items geben, die auf den einen Faktor hoch laden und Items, die auf den anderen Faktor hoch laden -> sollte relativ ausgeglichen sein d.h. es solten nicht 10 Items hoch auf den einen Faktor laden und nur 2 auf den anderen
Inwiefern hat ein offenes Antwortformat Einfluss auf die Reliabilität
kann erhöhen da: geringe Ratewahrsch., so dass mehr systematisch wahre Varianz gemessen werden kann
kann verringern: geringere Auswertungsobjektivität, so dass Fehlervarianz steigt
Stellen Sie Gründe dar, wieso ein falsches Konstrukt gemessen wurde
Methodenbias -> z.B. eher Tippgeschwindigkeit, wenn Aufgabenformat digital durchgeführt wird oder soziale Erwünschtheit
falsche Itemauswahl mit zu geringen Faktorladungen und Trennschärfen (Fehler bei Statistischer Itemanalyse und EFA)
geringe Reliabilität -> nur eine Facette wird gemessen und somit kann Konstrukt nicht vollständig abgebildet werden
sehr undeutliche Definition des Konstrukts
Test passt nicht zur Stichprobe -> z.B. Intelligenztest für Erwachsene bei Kindern
Nennen Sie 3 Aspekte die dazu führen, dass Objektivität sinkt
keine Normen wurden zur Verfügung gestellt (geringe Interpretationsobjektivität)
unterschiedl. Zeit für die Testpersonen (geringe Durchführungsobjektivität)
offenes Antwortformat ohne, dass Schablonen zur Verfügung gestellt wurden (geringe Auswertungsobjektivität)
Auf welche Hauptgütekriterien hat der Methodenbias einen EInfluss und welchen
geringere Objektivität-> z.B. wenn Testleiter EInfluss auf die Ergebnisse nimmt, in dem er besonders gemein ist (Interpretationsobjektivität)
geringe Reliabilität-> hohe Fehlervarianz dadurch, dass Items missverständlich formuliert wurden im Fragebogen
geringe Validität-> keine diskriminante Validität (geringe Konstruktvalidität)
Nennen Sie 3 Aspekte, die dazu führen, dass die Validiität eingeschränkt wird
extrem hohe Reliabilität -> Items sind sehr homogen und bilden nur eine Facette ab -> geringe Inhaltsvalidität
extrem niedrige Reliabilität-> Test misst kaum etwas systematisches, Streuung basiert nur auf Fehler, so dass z.B. Kriterium kaum mit Konstrukt korreliert (Kriteriumsvalidität) bzw. Konstrukt kaum mit ähnlichen Konstrukten korreliert (Konstruktvalidität)
Methodenbias (z.b. diskriminante Validität verletzt)
Darf die diskriminante Validität für Konstruktvalidität verletzt sein
Was liegt vor wenn Konstrukte, die eigentlich miteinander korrelierne sollten nicht miteinander korrelieren
Was liegt vor wenn Konstrukte, die eigentlich nicht miteinander korrelierne sollten miteinander korrelieren
Nennen Sie 3 Aspektem die dazu führen, dass die Reliabilität sinkt
Nennen Sie 3 Aspekte, die dazu führen, dass Validität sinkt
Kovarianz mit sich selbst, ist Varianz mit sich selbst
Kov(T,T) = Var(T)
wie heisst in R die korrigierte und wie die normale Trennschärfe
unkorrigierte = r.raw
korrigierte= r.drop
In KTT ist also Steigung über alle Merkmalsausprägungen konstant ! -> lineare Funktion-> gleiche Trennschärfe für alle Merkmalsausprägungen
In IRT ist Steigung abhängig von Teta (maximal wenn theta=b) -> logharithmische Funktion-> untersch. Diskriminationsparameter in Abhängigkeit zu theta
Wie Reliabilität einordnen
0,7= ausreichend (für Gruppenuntersuchungen)
0,8= gut (für Individualdiagnostik geeignet)
ab 0,9= hoch
Wieso ist Test reliabler wenn Items homogen sind
teilen sich viel wahre Varianz
Was ist die punkt biseriale Korrelation
korrigierte Trennschärfe bei dichotomen Items !
Prozentränge -> je niedriger desto besser oder je höher
je höher ein Prozentrang, desto höher die Teta Ausprägung
z.B. 90 Prozent = 90 Prozent der Personen haben diesen oder einen kleineren Wert erreicht !
Wieso Var(T) / Var(X) für die Reliabilitätsschätzung nicht möglich
da wir den Anteil der wahren Varianz nicht kennen
z werte für alpha 0,05, alpha 0,1
0.05= 1,96
-> 95 Prozent der Werte liegen in dem Intervall
0.1= 1,65
-> 90 Prozent der Werte liegen in dem Intervall
Problematische Streuungen -> Statistische Itemanalyse
Wieso so wichtig, dass wir in IRT von unidimensionalen items ausgehen
es sollte nur eine latente Variable Teta gemessen werden
-> ansonsten auch lokale stochastische Unabhängigkeit verletzt
Welche Effekte (Nachteile) können bei Testhalbierungsreliabilität vorkommen?
keine Parallelität-> verringert Reliabilität da T ungleich T´
nach laufener Nummer —> Zeiteffekte (Personen sind am Ende des Tests müder) + keine Sortierung nach Schwierigkeit (EIne Hälfte könnte einfacher/schwerer sein)
wen Fussballspielerinnen signifikant höhere Werte als Bwlerinnen im Test über Fußballwissen haben, ist das ein Hinweis für Kriteriumsvalidität
HIER UNBEDINGT darauf achten, dass man quadrieren muss!
Konkurrent vs konvergent
Konkurrent = Konkurrente Kriteriumsvalidität —> Konstrukt und Kritrium werden gleichzeitig gemessen
Konvergent= Konstrukte korrelieren miteinander
Person hat IQ von 109 -> welchen Prozentrang hat sie am ehesten
0 Prozent
25 Prozent
50 Prozent
75 Prozent
100 Prozent
-> 75 Prozent der Menschen haben diesen oder einen kleineren Wert
Nenne die Grundannahmen der Reliabilitätsbestimmung und nenne jeweils ein Szenario, in dem diese Annahme verletzt ist
T=T´
-> verletzt, wenn es z.B. durch die Retest-Reliabilität zu wahren Veränderungen (Entwicklungs-/Reifungsprozessen) kommt
Kov(E,E´)=0
-> verletzt bei Methodenbias
Var(E)= Var(E´)
-> verletzt, wenn der erste Test durch z.B. Hitze und demnach extremer Ermüdung weniger systematisch wahre Varianz aufklärt
Nenne die Grundannahmen der KTT und nenne jeweils ein Szenario, in dem diese Annahme verletzt wäre
Vernüpfungsaxiom Y = T+E
-> verletzt, wenn es keine wahren Werte geben würde und Y sich demnach nur aus Messfehlern zusammensetzen würde
Unabhängigkeitsaxiom Kov (T,E)= 0
-> verletzt, wenn der Test systematisch im oberen Merkmalsbereich schlechter schätzt d.h. mehr Fehler macht als im unteren
Existenzaxiom Erw(E)=0
-> verletzt, wenn der Test systematisch über oder unterschätzt d.h. z.B. tendenziell eher Werte zu hoch einschätzt und demnach sich die Fehler nicht rausmitteln
Wenn das Verknüpfungsaxiom Y=T+E verletzt ist (z. B. durch nichtlineare Abhängigkeit zwischen Testwert und wahrem Wert), wird typischerweise auch das Unabhängigkeitsaxiom Cov(T,E)=0 erletzt, da die Fehler systematisch vom wahren Wert abhängen
—> KTT impliziert linearen Zusammenhang -> verletzt, wenn Fehler von T abhängen
Was wurde hier gemacht?
principal= PCA
Faktorenrotation
Was wurde hier gemacht
Korrelation der Testhälften-> Testhalbierungsreliabillität
und im zweiten Schritt Aufwertung mit Spearman Brown Formel
Berechnung der Internen Konsistenz/Cronbachs Alpha
Variabilitätsnorm berechnet mit Standardskala T
-> denn erstmal z Werte , dann in Standardnormalverteilun
Statistische Itemanalyse
Berechnung der Korrelationsmatrix
-> an “z” Erkennbar, dass Daten bereits z standardisiert wurden
principal= PCA Methode
Extraktion der Faktoren-> Faktorladungsmatrix
fa= PFA Methode
-> Faktorenextraktion (maximales Modell)
parallel= Parallelanalyse
-> Faktorenreduktion
n row = Anzahl der Zeilen= Anzahl der Personen
Nenne die Schritte der EFA
1) z standardisieren
2) Korrelationsmatrix
3) Faktorenextraktion: Faktorladungsmatrix -> PCA oder PFA
4) Faktorenreduktion -> Parallelanalyse/Kaiser/Scree Plot
6) Faktorenrotation-> Orthogonal oder Oblique
7) Interpretation der Faktoren -> Markiervariabeln u. Facetten nennen!!
8) Testrevision-> item Auswahl
Was sind Markiervariabeln
Nach Faktorenreduktion
items, die sehr hoch auf den Faktor laden
-> markieren, wofür Faktor steht
also pro Faktor eine Markiervariable, also Item, dass am höchsten auf Faktor lädt
Erkläre Schritt: Interpretation der Faktoren
In Schritt Interpretation der Faktoren kann man dann anhand Items, die auf Faktor hoch korrelieren, interpretieren, welche Facetten des Konstrukts abgebildet werden
-> Suche nach Labell, welches Markiervariabeln und alle anderen hochladenden Items gut beschreibt
Für deduktive Methode
-> einfacher, da man vorher schon theoretische Vorstellung des Konstrukts hatte
Für induktive Methode
-> schwieriger, da man per Bottom Up Ansatz nur sehr vague Vorstellung vom KOnstrukt hat = schwieriger Faktoren zu benennen
Inwiefern Facetten erkennbar in EFA
Erkläre Varimax Kriterium
-> Maximiere die Gesamtvarianz der quadrierten Ladungen
(also sollten möglichst große Streuung haben also, dass manche Items hoch, andere nahe 0 auf dem Faktor laden)
-> 90 Grad Winkel der Achsen
Was ist wenn ich trotz hohe Korrelation der Faktoren Varimax Kriterium nutze
Einfachstruktur wird nicht eingehalten und Items laden auf mehrere Faktoren hoch
wieso werden in der IRt keine Testwerte Y verwendet und was stattdessen
Merkmalsausprägungen werden diferenzierter betrachtet -> Item hat je nach Theta unterschiedlichen Informationsgehalt und demnach unterschiedlichen Standardschätzfehler
Items unterscheiden sich zudem auch in Schwierigkeit und Diskriminationsparameter —> Gesamttestwert würde also diese Unterschiede nicht abbilden
—> statt aufsummieren schätzt IRT Lösungswahrscheinlichkeit
wie viel Faktoren können maximal und minimal extrahiert werden?
Maximal so viele Faktoren wie Items
Minimal 1 Faktor
Wie verändert ich durch die Verlängerung eines Tests der Standardmessfehler?
Je mehr Items es gibt (d.h. je länger der Test ist), desto höher die Reliabilität. Je höher die Reliabilität, desto geringer der Standardmessfehler also die Messungenauigkeit
Nenne ein Beispiel für die externale Konstruktion
z.B. unterscheiden sich Schüler signifikant in Ihrer Mathenote (Kriterium) und absolvieren dann einen Intelligenztest, der die numerische Fähigkeit abfragt
-> wenn Test tatsächlich valide ist und numerische Fähigkeit misst, so müssten sich die Schüler stark im Mittelwert unterscheiden
Zeige, dass die Reliabilität immer zwischen 0 und 1 liegt
Reliabilität entspricht der Korrelation also Rel(Y) = Cor (Y,Y´)
-> Korrelation liegt immer zwischen 0 und 1 als standardisiertes Maß
-> Reliabilität ist Anteil der wahren Varianz von Gesamtvarianz. Ist Var(T)= Var(X dann wäre Var(T) : Var(X) = 1
ist Var(T)= 0 dann wäre Var(T) : Var (X)=0
Wie addressiert IRT Kritik an KTT, dass Ergebnisse zu Testwert summiert werden
Testwerte in KTT = Summe der Itemwerte → alle Items gleich gewichtet
Unterschiede in Schwierigkeit oder Informationsgehalt der Items werden nicht berücksichtigt
KTT differenziert nicht zwischen verschiedenen Fähigkeitsniveaus (θ) hinsichtich Lösungswahrscheinlichkeit
IRT löst dies: Items tragen unterschiedlich zur Fähigkeitsschätzung bei, θ wird individuell geschätzt
Darf man Achsen beliebig drehen
jA solange sich Gesamtaufklärung der Varianz nicht ändert
-> denn unterschiedl. Faktorladungsmatricen führen zur identischen Varianzaufklärung<
Wieso gibts bei Testhalbierungsreliabilität keine Reaktivität
nur eine Durchführung -> Testhalbierung geschieht danach
Einfluss Reliabilität wenn die Summe der Varianzen gleich der Testwertvarianz (VArY) entspricht
Reliabilität = 0
-> Die Summe der einzelnen Varianzen (wie viel ein Item für sich selbst aufklärt) ist genauso groß wie die der Testwertvarianz d.h. Items korrelieren nicht untereinander und es gibt demnach keinen gemeinsamen Faktor, der zusätzliche Varianz aufklärt
-> keine Homogenität
Wie KI interpretieren -> z.B. alpha=0.05
Zu 95 Prozent überdeckt das Intervall den wahren Wert T
Wovon ist Höhe der Kriteriumsvalidität abhängig
andere Einflussfaktoren auf Kriterium -> z.B. wenn Noten, nicht nur von Intelligenz abhängig sind, sondern auch von Motivation
konzeptuelle Gemeinsamkeit von Test und Kriterium (Korrelation)
Reliabilität des Tests und des Kriteriums
Varianzeinschränkung -> fehlende Streuung der Werte
-> z.b. Untersuchen suizidale Gedanken in Population und Kriterium: Neurotizismus -> im Test kaum Varianz, Neurotizismus schon= geringe Korrelation
Extremwerte
Bedeutet Fairness, dass es keine Gruppenunterschiede geben darf?
NEIN
Test gilt als fair, wenn er nicht systematisch Personen aufgrund ihrem ethnischen oder soziokulturellen Hintergrund benachteiligt
-> es darf trotzdem Gruppenunterschiede geben
-> es muss allerdings das gleiche gemessen werden
-> Test musst ähnlich prädiktiv für Kriterien sein
Erkläre was die Normalverteilungsannahme ist, was diee mit der standardnormalverteilung zu tun hat
Normalverteilungsannahme: Fehlerwerte sind normalverteilt , 68 Prozent der Werte liegen im Erwartungsbereich (se , - se Grenzen)
Transformation in Standardnormalverteilung, um größeres Intervall zu bekommen
-> Standardnormalerteilung!—> Grenzen auf unsere Skala bringen
Erkäre Zusammenhang Erwartungsbereich und Konfidenzintervall
Erwartungsbereich: Einschätzung des Bereichs um wahren Wert
ABER: kennen wahren Wert nicht
-> Konfidenzintervall-> Schätzung des KIs um beobachteten Wert
Wieso sollte man beim Scree Plot nur die Faktoren vor dem Knick behalten
Faktoren vor Knick haben hohe Eigenwerte d.h. sie klären über alle Items hinweg viel Varianz auf
Faktoren nach dem Knick haben nur geringe Eigenwerte und klären kaum Varianz auf im Vergleich zu den anderen
Was sind Formulierunge für States vs für Traits für Items
States “ Gerade fühle ich mich…”
Traits “ ich neige dazu..”
Erkläre das Problem welches sich bei einem großen c ergibt
c = Rateparameter -> 3 PL Rate-Modell
je größer c, desto größer der Standardschätzfehler im unteren Merkmalsbereich
-> man benötigt größere Teta Ausprägung für hohe Information und demnach muss Teta > b sein !
Informationsfunktion in unteren Merkmalsbereichen sehr flach, bietet kaum Informationen und hoher Standardschätzfehler
Im Extremfall wenn c=0.4
-> Lösungswahrscheinlichkeit selbst für die Personen hoch, für die Item viel zu schwer ist (aufgrund niedriger Teta Ausprägung)
-> Teta lässt sich nicht mehr akkurat schätzen
-> sehr geringe Information und sehr hoher Standardschätzfehler
Folgen von fehlender stochastischer Unabhängigkeit + wieso kein adaptives Testen möglich
kein adaptives Testen möglich
-> würde bedeuten, dass vorheriges Antwortverhalten Einfluss auf die Lösungswahrsch. für das Item hat und die Lösungswahrsch. sich nicht allein auf das latente Merkmal teta zurückführen lässt
z.B. wenn man vorherige Lösung benötigt, um Item zu beantworten
wieso dann kein adaptives Testen möglich?
Wichtige Annahme: lokale stochastische Unabhängigkeit
Beim adaptiven Testen werden Items ausgewählt, die höchsten Informationsgehalt (und demnach geringsten Standardschätzfehler) für geschätztes Teta haben
-> hängt allerdings Lösungswahrsch. nicht nur von Teta ab, so lässt sich Informationsgehalt nicht mehr modellieren
Was konkret bedeutet Informationsgehalt in der IRT
Je höher Informationsgehalt, desto geringer Standardschätzfehler
je größer standarschätzfehler, desto geringer Informationsgehalt
Informationsgehalt gibt an wie zuverlässig das Item diese Merkmalsausprägung misst und demnach einen geringen Standardschätzfehler aufweist
je höher Informationsgehalt, desto besser kann Item bei den Testpersonen einschätzen, ob sie diese Teta Ausprägung aufweisen oder nicht
Erkläre was bei einem großen a entsteht
Minimale Unterschiede in Teta, ergeben große Unterschiede in der Lösungswahrscheinlichkeit
Diskriminiert sehr gut im Bereich teta= b (Lösungswahrsch:0.5)
-> sehr hoher Informationsgehalt
Lösungswahrsch. bei niedrigem Teta nahe null
.-> Informationskurve flacht allerdings sehr schnell ab -> Item differenziert nicht gut im niedrigen oder oberen Merkmalsbereich
-> sehr hoher Standarschätzfehler in den Bereichen
Erkläre was bei einem großen b sich ergibt
sehr hohe Schwierigkeit
-> lässt sich nur mit hoher Ausprägung in Teta beantworten
Lösungswahrsch = 0.5 wenn b = Teta
-> wenn b sehr hoch ist, dann bedeutet das gleichzeitig aber auch, dass die Lösungswahrsch. bei kleinerem b sehr niedrig ist
Item misst also vor allem hohen Merkmalsbereich und hat dort den größten Informationsgehalt
Definiere Kriteriumsvalidität
empirische Belege für Zusammenhang zwischen Testergebnis und den Kriterien, also konkrete Leistungen/Verhaltensweisen, die für den Einsatzbereich des Tests relevant sinf
Definiere Kontruktvalidität
empirische Belege dafür, dass der Test das Konstrukt erfasst, welches er erfassen soll und nicht ein anderes
Definiere Auswertungsobjektivität
Ausmaß der Eindeutigkeit der Quantifizierung des Testverhaltens
Auswertungsobjektivität
Konkurrente Validität
Prädiktive Validität
Wieso bezeichnet man Adaptives testen als ökonomisch
ein Test ist ökonomisch, wenn er gemessen am Erkenntnisgewinn, möglichst wenig Ressourcen (Zeit, Geld etc.) benötigt
-> beim Adaptiven Testen beantworten die Teilnehmer nicht wie beim konventionellen Testen alle Items, sondern es werden ihnen Items vorgelegt, die den höchsten Informationsgehalt für ihr geschätztes Teta aufweisen -> solange bis ein voher festgelegter Standardschätzfehler erreicht wurde
Tabelle gegeben mit MW, SD und Varianz > welche 4 Informationen braucht man noch für eine gute Itemauswahl
welches Konstrukt erfasst wird (inhaltliche Überlegungen)
ob es sich um ein dichotomes Format handelt oder Rating skalen -> ob man TS und Streuung als Kriterium hinzuziehen darf
Zielgruppe -> um zu schauen, ob Wortlaut angemessen ist
Wortlaut der Items -> inhaltliche Überlegungen
korrigierte Trennschärfe
EFA Ergebnisse um zu schauen welche Items redundant sind
Bei der Faktorenrotation bleiben die Eigenwerte gleich
Bei der Faktorenrotation bleibt die Summe der Eigenwerte gleich
Nenne ein Kriterium der Rotation
Einfachstruktur
Kritik an “ Ich bin kein VERSAGER
Versager ist sehr wertend
eher: “Ich habe oft Erfolg”
Welche Kriterien gehören zur Merkmalsart
Quantitativ / Qualitativ
Zeitlich stabil oder veränderbar
Uni oder Multidimensional
Interne Konsistenz (α) sinkt
Items messen nicht dasselbe Konstrukt → Item-Korrelationen niedriger
Split-Half-Reliabilität sinkt
Hälften sind weniger homogen → Korrelation der Hälften kleiner
Test-Retest-Reliabilität sinkt
Ungenaue Items führen zu größerer Zufallsstreuung über Messzeitpunkte
Definiere Inhaltsvalidität
Repräsentativität der Items
Welchen Einfluss hat die Verletzung der Itemkonstruktionsregeln auf Reliabilität
Wieso ist Annahme bei IRT dichotome Items
Denn es gibt Lösungswahrscheinlichkeit
-> Items zwischen 0 = falsch und 1 = richtig
-> es gibt also richtige und falsche Antworten mit Ratewahrscheinlichkeit, die modelliert wird
Wieso ist Test bei vielen Items reliabler
Wie lautet erklärte Gesamtvarianz bei der PCA Methode
m
Wann ist Faktorladung = Korrelation zwischen Item und Faktor
in Strukturmatrix
—> in Mustermatrix nicht, da Einflüsse weiterer Faktoren kontrolliert werden
Orthogonale Rotation
—> hier auch aik = rik
korrigierte Trennschärfe Höhe
Was geschieht wenn Itemkonstruktionsregeln verletzt werden
Personen verstehen Items auf unterschiedliche art und Weise
-> geringere Trennschärfe (Itemanwtorten korellieren geringer mit Gesamttest)
-> geringere Reliabilität (da geringere Homogenität)
-> geringere Validität (Test misst nicht Konstrukt, sondern etwas anderes -> Konstruktvalidität verletzt)
Stellung zu Item “ Ich versuche zu jedem, dem ich begegne, freundlich zu sein”
Universalsatz!!
Sollte man vermeiden, um Irritationen oder Zufallsantworten zu verhindern
umgekehrt u förmige Zusammenhänge
zwischen Schwierigkeit und Streuung
zwischen Schwierigkeit und Trennschärfe
Wieso sollten Mittelwerte über Items bei dichotomen sowie bei Ratingskalen streuuen
Differenzierung auf ganzer Skala
-> um gesamten Merkmalsbereich abzudecken
Wovon ist Höhe der Reliabilität bei Paralleltest abhängig
gelungene Parallelität
Reaktivität
Was sind die Ziele der EFA
Faktorenreduktion
Dimensionalität des Tests
Itemauswahl unterstützen -> Testrevision
Problem wenn zu viele Faktoren extrahiert werden
Einfachstruktur in Gefahr -> Doppelladungen
nur schwere Interpretation und geringere Eindeutigkeit
Was verändert sich durch Faktorenreduktion
Anzahl der Faktoren
Kommunalität
Erklärte Gesamtvarianz
Wie erklärte Gesamtvarianz messen
Summe der Eigenwerte
Wieso Faktorenreduktion nicht interpretierbar
man versucht pro Faktor möglichst viel Varianz aufzuklären
-> es gibt noch immer viele Doppelladungen (Faktorladung)
-> uneindeutige Lösung
Wofür Faktorenrotation
unterschiedliche Faktorladungsmatrixen führen zur identischen Varianzaufklärung -> durch Rotation nutzt man dann aber Matrix, die eindeutiges Ergebnis zeigt
daher: Einfachstruktur !!
Eigenwerte werden verändert, aber Gesamtvarianzaufklärung nicht
Wie Reliabilität erhöhen ohne Validität zu verletzen
Messfehler reduzieren
Objektivität erhöhen
Itemanzahl erhöhen
Was beschreibt inhaltlich die Sensitivität
Der Diskriminationsparameter a -> je sensitiver, desto größer Unterschiede in Lösungswahrsch. bei minimaler Änderung in theta
Der Diskriminationsparameter a -> je sensitiver, desto größer Unterschiede in Lösungswahrsch. bei minimaler Änderung in theta aber nicht bei Grenzbereichen
-> Erkläre das mit Grenzbereichen
IRT ist S förmige Kurve
In Grenzbereichen ist Lösungswahrscheinlichkeit nahe 0 oder nahe 1 —> somit machen kleine Teta Unterschiede keinen Unterschied mehr in Lösungswahrsch.
-> gilt also vor allem dort wo Teta= b ist und a am besten diskriminieren kann
was ist tailored testing
adaptives Testen
Lässt sich im Nomologischen Netzwerk Methodenbias erkennen
ja theoretisch schon
-> wenn die diskriminante Validität verletzt ist
Also: verletzung der diskriminanten Validität kann Methodenbias bedeuten ODER geringe Konstruktvalidität
Schließt Methodenbias die Konstruktvalidität aus?
NEIN!
-> können nebeneinander existieren
Methodenbias besagt, dass Teil der Varianz auf die Methode zurückzuführen ist Verletzung der diskriminanten Validität
-> dennoch kann es sein, dass das richtige Konstrukt gemessen wird Konvergente Validität
Worauf bei verbalen Labels aufpassen
auf Messunsicherheit bzw. KI
-> auch wenn Wert überdurchschnittlich erscheint, kann KI sich im über/durchschnittlichen Bereich sein !
Ein Test hat einen Mittelwert von 30, eine Standardabweichung von 10 und eine Reliabilit¨at von .90. Mit einem externen Kriterium weist dieser Test eine Korrelation von .50 auf. In dem Test werden f¨ur einige Aufgaben ” halbe“ Punkte f¨ur teilweise korrekte L¨osungen vergeben. Um dies zu vermeiden, beschließen die Testkonstrukteure, alle Itemscores mit 2 zu multiplizieren. Welchen Effekt hat dies auf
Den Testmittelwert
Den Standardmessfehler
Die Korrelation mit dem externen Kriterium?
Testmittelwert verdoppelt sich
Se wird größer
Korrelation bleibt gleich
Was wird bei ICC zusätzlich beachtet
Niveauunterschiede
Schwierigkeit bei induktiven Methode
nur vage Vorstellung von Konstrukt
Notwendigkeit der Interpretation der Faktoren
Schwierigkeit bei deduktiver Methode
man muss trotzdem an Validierung denken
Schwierigkeit bei externalen Konstruktion
Notwendigkeit der Kreuzvalidierung
oft heterogene, nicht interpretierbare Items
Wie hoch kann maximal Eigenwert sein
maximal anzahl der Items =m
-> wenn also Items alle sehr hoch auf Faktor laden und der Faktor also gesamte Varianz aufklärt
Wan ist Reliabilität =0
Reliabilität ist 0 wenn se=1
bzw. auch wenn Sd(y)= se !
Die Axiome der KTT implizieren, dass der Mittelwert von unendlich vielen Beobachtungen Y einer Person den Wert t dieser Person annehmen würde
die grundlage aller vier Methoden zur Reliabilitätsschätzung ist Rel(Y)= Cov(Y,Y´)
Machen Sie P. einen Vorschlag wie er alternativ vorgehen kann (statt Retest da T ungleich T´), um die Reliabilit¨at seines Tests unter Einbezug der schon erhobenen Daten zu bestimmen. Welche Art der Reliabilität würde er mit Ihrem Vorschlag bestimmen?
Cronbachs Alpha
Testhalbierungsreliabilität für einen der erhobene Datensätze
In der KTT differenzieren alle Items gleich gut zwischen Personen mit unterschiedlichen Merkmalsausprägungen
Bei hoher Reliabilität ist eine geringe Validität möglich
Bei hoher Validität ist eine geringe Reliabilität möglich
bei hoher objektivität ist eine geringe validität möglich
bei hoher Reliabilit#t ist eine geringe Objektivität möglich
Bei hoher Objektivität ist eine geringe Reliabilität möglich
Ein Test hat nur dann eine hohe Reliabilität wenn cronbachs alpha =1 ist
die testhalbierungsreliabilität kann hoch sein aber cronbachs alpha niedrig
die testhalbierungsreliabilität kann niedrig sein aber cronbachs alpha hoch
Wieso würde Reliabilität in Testentwurf bei schlechten Items geringer ausfallen (also z.B. bei falscher Kodierung usw)
geringere Korrelation zwischne Y , Y´ da Personen Items unterschiedlich verstehen
-> dadurch erhöht sich Fehlervarianz und somit geringere wahre Varianz der Gesamtvarianz
geringe Homogenität der Items d.h. Cronbachs alpha ebenso geringer
Aus den Axiomen der KTT kann man schließen, dass wenn man unendlich viele Testdurchführungen hat, deren Mittelwert den wahren Wert ergibt
Inhaltsvalidität Definition
Methodenbias und Reliabilität
Methodenbias erhöht künstlich Reliabilität
-> Wichtige Annahme dr Reliabilität ist Kov(E,E´)=0 -> korrelieren allerdings Fehler, so wird es als wahre Varianz (fälschlicherweise) gewertet = Erhöhung Reliabilität
Definiere Methodenbias
systematischer Einfluss von Eigenschaften der Erhebung auf die Testwerte, die unabhängig on dem zu messenden Merkmal sind,
Nenne Vor und Nachteile von einem geringen Diskriminationsparameter a
Pro:
Item liefert auch Informationen im niedrigen/oberen Merkmalsbereich
-> bei sehr großem a verläuft Kurve sehr steil und in Informationsfunktion zwar hohes Maximum, flacht schnell ab und bietet keine Informationen mehr
Kontra:
Kurve wird in IRT flacher und kann schlechter Personen mit niedriger und hoher Merkmalsausprägung unterscheiden
-> schlechte Differenzierung
unpräzisere Schätzung von Teta
Welches Gütekriterium spricht man damit an, wenn man sagt, dass bei der Itemauswahl auch inhaltliche Überlegungen eingebracht werden sollten
Validität beachten!
Erkläre wann Faktorladung = Korrelation entspricht und wann nicht
Mustermatrix: aik ungleich rik
-> aik Einfluss der anderen Faktoren wird kontrolliert, rik Einfluss der anderen Faktoren
Strukturmatrix: aik gleich rik
-> Einfluss der anderen Faktoren wird nicht rausgerechnet
Orthogonale Methode: aik gleich rik
-> Es gibt keinen Einfluss der anderen Faktoren
Wieso braucht man beim adaptiven Testen eine richtige und eine falsche antwort
Beantwortet eine Person alles falsch/richtig, so kann man nicht einschätzen welche Items zu schwer oder zu einfach für die Person ist -> Teta Ausprägung nicht sinnvoll schätzbar
es ergibt sich kein Maximum im ML Schätzer, welches Grundlage für Teta Schätzung ist
-> bei nur falschen monoton fallend, bei nur richtigen monoton steigend
Kreuzvalidierung
Bei externalen Kontruktion
Vorhersagegenauigkeit bestimmen und Test in unabhängiger Stichprobe durchführen
Welche Voraussetzungen gibt es für das adaptive Testen?
lokale stochastische Unabhängigkeit
Items sind konform mit dem verwendeten IRT Modell (HOMOGEN)
Last changed8 hours ago