Was sind die Kennzeichen eines psychologischen Tests?
Ein Test ist ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung.
Muss wissenschaftlich sein
Soll ein Routineverfahren sein
Soll psychologische Merkmale messen
Soll eine quantitative Aussage machen (soll eine Messung liefern)
Was kennzeichnet Wissenschaftlichkeit bzw. wann kann man von wissenschaftlich sprechen?Was sind die primären Aufgabengebiete der Testtheorie?
Um von wissenschaftlich sprechen zu können, muss es eine Theorie darüber geben, unter welchen Bedingungen welche Aussagen anhand der Testergebnisse ableitbar sind.Demnach sollte eine möglichst genaue Vorstellung über das zu messende Merkmal vorliegen und der Test testtheoretischen Qualitätsansprüchen entsprechen.Die (primären) Aufgabengebiete der Testtheorie sind
die Formulierung des theoretischen Hintergrunds über die Verbindung von zu messendem Merkmal und im Test gezeigtem Verhalten sowie
die Festlegung und Quantifizierung notweniger Qualitätsansprüche.
Wann spricht man von einem Routineverfahren?
Von einem Routineverfahren spricht man, wenn Durchführung und Auswertung
bereits an einer größeren Stichprobe erprobt sind und
so detailliert beschrieben sind, dass das Verfahren auch von anderen „TestleiterInnen“ bei anderen Personen einsetzbar ist.
(Wird häufiger angewandt: es gibt Erfahrungswerte und ist an größeren Stichproben erprobt und Wissen über Durchführung und Auswertung soll vorhanden sein)
Was versteht man unter einem psychologischen Merkmal?
Bei einem psychologischen Merkmal handelt es sich um einen Oberbegriff für
relativ stabile und konsistente Merkmale (auch „Eigenschaften“ oder „Traits“ genannt),
zeitlich begrenzte biologische, emotionale und kognitive Zustände sowie (auch „States“ genannt) und
Erlebens- und Verhaltensweisen.
Diese meist nicht direkt beobachtbaren (=latenten) Merkmale sollen mit Hilfe von messbaren Sachverhalten „erschlossen“ werden.
(Es werden Items gemessen und auf Merkmale geschlosse
Was versteht man darunter das Tests quantitative Aussagen machen sollen?
Ziel psychologischer Tests ist es die Ausprägung des Merkmalsder gestestete Person zu messen.
Messen bedeutet einem Objekt (empirisches Relativ) einen Zahlenwert (numerisches Relativ) so zuzuordnen, dass zumindest eine Eigenschaft des numerischen Relativs auch für das empirische Relativ gilt.
Dieser Zahlenwert kann in weiterer Folge dazu verwendet werden, die Person mit anderen Personen vergleichen oder einer Personengruppe zuordnen zu können.
Je nach theoretischer Fundierung des Messvorgangs haben die erzielten Zahlenwerte unterschiedliches Skalenniveau.
Was versteht man unter einem Fragebogen?
Der Begriff wird im Deutschen für Unterschiedliches verwendet.
schriftliche Befragungen zur Erhebung von
- demoskopischen Daten- schulischen Daten- medizinischen Daten- usw.
Instrument zur „Selbst- oder Fremdeinschätzung“
- wird meist zur Erfassung von Persönlichkeitseigenschaften und Interessen verwendet- Häufig auch als Persönlichkeits“test“ bezeichnet
Gemeinsam ist beiden, dass das „Erfragen“ im Vordergrund steht.
Welche Testarten können unterschieden werden?
Je nach Merkmal, das erfasst werden soll, werden drei/vier unterschiedliche Testarten unterschieden
Leistungstests
Persönlichkeits- und Interessensfragebögen*
[objektive Persönlichkeitstests]
projektive Verfahren
apperative Tests
Wodurch sind Leistungstests gekennzeichnet? Beispiele?
Sind dadurch gekennzeichnet, dass sie
Konstrukte erfassen, die sich auf kognitive Leistungen beziehen
die unter der jeweiligen Testbedingung maximale Leistung erfassen möchten
Aufgaben verwenden, bei denen es „richtige“ und „falsche“ Antworten gibt
Bsp.: Dreidimensionaler Würfeltest, Wiener Matrizen Test, Zahlen-Verbindungs-Test
Wodurch sind Persönlichkeitsfragebögen gekennzeichnet? Beispiel?
das Ziel verfolgen, das für eine Person typische Verhalten zu erfassen,
mehrere Fragen verwenden, um das Persönlichkeitsmerkmal zu erfassen,
die Antworten nicht in „richtig“ und „falsch“ klassifizierbar sind, sondern „erfragen“, wie stark das interessierende Merkmal ausgeprägt ist und
im Allgemeinen leicht verfälschbar sind (z.B. durch sozial erwünschte Antworten).
Bsp.: Big Five
Was kennzeichnet objektive Persönlichkeitstests?
versuchen, das Ausmaß an „Verfälschbarkeit“ z.B. durch „sozial erwünschte Antworten“ zu reduzieren indem sie
das Persönlichkeitsmerkmal nicht durch subjektive Urteile, sondern über Verhalten in standardisierten Situationen erfassen.
(„Tarnen“ sich als Leistungstests, sind aber Persönlichkeitstests)
Was kennzeichnet projektive Tests?
versuchen, die Persönlichkeit als Ganzes zu erfassen, wobei sie
auf individuelle Erlebnis- und Bedürfnisstrukturen Rücksicht nehmen,
mehrdeutiges Bildmaterial verwenden, um unbewusste oder verdrängte Bewusstseinsinhalte zu erfassen und
oft explorativen Charakter haben. (Man erhält keine konkrete Zahl)
Bsp.: Picture Frustrations Test, Roschach test
Welche 2 Arten von apparative Tests werden unterschieden?
Tests, sie insbesondere sensorische und motorische Merkmale erfassen. z.B.Tests zur
- Erfassung von Muskelkraft- Geschicklichkeit- sensumotorischer Koordination
computerbasierte Tests, die häufig spezielle Varianten von Leistungstests und Persönlichkeitsfragebogen sind.
Welche Testgütekritieren können unterschieden werden (im Überblick)?
Hauptgütekriterien
Objektivität
Reliabilität
Validität
Nebengütekriterien
Skalierung
Normierung
Ökonomie
Nützlichkeit
Zumutbarkeit
Unverfälschbarkeit
Fairness
Was versteht man unter Objektivität und welche 3 Bereiche lassen sich unterscheiden?
Ein Test ist objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von TestleiterIn, TestauswerterIn und von der Ergebnisinterpretation misst.
Bei der Objektivität lassen sich drei Bereiche unterscheiden
Durchführungsobjektivität (~Testleiterunabhängigkeit*)
Auswertungsobjektivität (~Verrechnungssicherheit*)
Interpretationsobjektivität (~Interpretationseindeutigkeit*)
Was versteht man unter Durchführungsobjektivität?
Durchführungsobjektivität ist gegeben, wenn das Ergebnis der Testung nicht davon abhängt, welche TestleiterIn, die Testung durchgeführt.Demnach sollte die Testvorgabe unter möglichst standardisierten Bedingungen stattfinden. Diese werden optimiert indem
Instruktionen, die die TestleiterInnen geben, schriftlich festgehalten sind,
die soziale Interaktion zwischen TestleiterIn und getesteter Person möglichst gering gehalten wird und
die Untersuchungssituationen möglichst ähnlich sind.
Was versteht man unter Auswertungsobjektivität?
Ist gegeben, wenn beim Vorliegen der Antworten der Personen auf die Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben numerischen Testergebnis kommt.Die Auswertungsobjektivität kann erhöht/gesichert werden durch
das Vermeiden freier Antwortformate,
klare Auswertungsregeln und
die Verwendung von Multiple-Choice (Mehrfachauswahl) Antworten.
Die Auswertungsobjektivität kann durch statistische Kennzahlen zur Beurteilerübereinstimmung (z.B. Cohens Kappa, Fleiss Kappa, Konkordanzkoeffizienten nach Kendall) erfasst werden.
Was versteht man unter Interpretationsobjektivität?
Ist gegeben, wenn beim Vorliegen der Testergebnisse unterschiedliche „TestanwenderInnen“ zum selben „Schluss“ kommen.Die Interpretationsobjektivität kann erhöht/gesichert werdendurch
klare Regeln für die Interpretation,
Vorhandensein von Normen und Normwerten
der Verwendung von Prozenträngen*.
* Ein Prozentrang (PR) gibt an wie viel Prozent der „Referenzpopulation“ diesen oder einen schlechteren Testwert erzielen.
Was versteht man unter Reliabilität und welche Arten lassen sich unterscheiden?
Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst
Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst.Allerdings geht es nicht darum, ob der Test auch jenes Merkmal misst, das er zu messen vorgibt.Es lassen sich drei/vier Arten der Reliabilität unterscheiden
Retest - Reliabilität
Paralleltest - Reliabilität
Innere Konsistenz
[Testhalbierungs- (Split Half-) Reliabilität]
Was versteht man unter Validität und welche Arten können unterschieden werden?
Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst.
Die Validität ist im Hinblick auf die Praxis, das wichtigste Gütekriterium. Mit Hilfe der Validität lässt sich klären
wie sehr eine Test wirklich das zu messende Merkmal misst (~„Konstruktvalidität“) und
wie gut der Testkennwert „Verhaltensweisen“ außerhalb der Testsituation vorhersagen kann (~„Kriteriumsvalidität“).
Es lassen sich vier Arten der Validität unterscheiden
Inhaltsvalidität
Augenscheinvalidität
Konstruktvalidität
Kriteriumsvalidität
Was versteht man unter dem Gütekriterium der Skalierung?
Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelation adäquat abbilden.
Was versteht man unter Normierung und wann ist das Gütekriterium erfüllt?
Unter Normierung (Eichung) eines Tests versteht man, das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können
Ziel der Normierung ist es einen Rahmen für die Interpretation der (durch eine Person) erzielten Testergebnisse zu schaffen. Dies erfolgt dadurch, dass die Testergebnisse in Normwerte umgewandelt werden.Weit verbreitete Normwerte sind z.B.
Prozentränge,
z-Werte,
Z-Werte,
IQ-Werte und
T-Werte (nicht zu verwechseln mit den t-Werten des t-Tests).
wann ist das Gütekriterium Normierung erfüllt?
Das Gütekriterium der Normierung (Eichung) kann als erfüllt angesehen werden, wenn
die Eichtabellen gültig (d.h. nicht veraltet) sind,
die Population für die Eichtabellen definiert ist und
die für die Erstellung der Eichtabellen herangezogene Stichprobe repräsentativ ist*.
Was versteht man unter einem Prozentrang?
Der Prozentrang gibt an, wie viel Prozent der Normierungsstichprobe einen Testwert erzielen, der niedriger oder maximal ebenso hoch ist, wie der Testwert xv der Testperson v. Der Prozentrang entspricht somit dem prozentualen Flächenanteil der Häufigkeitsverteilung der Bezugsgruppe, der am unteren Skalenende beginnt und nach oben hin durch den Testwert xv begrenzt wird.
Prozentränge sind als Normwerte insofern besonders hervorzuheben, als sie
keine Intervallskalierung der Testkennwerte voraussetzen,
keine Normalverteilung der Testwerte voraussetzen und
eine inhaltlich einfache Interpretation des Testergebnisses
darstellen.
Was versteht man unter z-Werte? Und wie sind die anderen Normwerte ableitbar?
z-Werte (Standardmesswerte)
sind im Falle intervallskalierter und normalverteilter Testkennwerte
legen die relative Position des Testkennwerts der getesteten Person bezogen auf die Referenzpopulation dar,
sind positiv bei überdurchschnittlichen Leistungen,
sind negativ bei unterdurchschnittlichen Testleistungen und
Null bei durchschnittlichen Leistungen
Jedem z-Wert ist genau ein Prozentrang zugeordnet und umgekehrt. Diese Zuordnungen können anhand der aus der Statistik bekannten z-Tabellen abgelesen werden.Mit Hilfe von z-Werten könnenintervallskalierte, aber nicht normalverteilte Testkennwertein normalverteilte Testkennwertetransformiert werden(=Flächentransformation).
z-Werte Kennwert
Berechne folgende Werte:- z-Wert- IQ-Wert- Z-Wert- T-Wert
X = 45, U = 40, o = 3
In welche 6 Schritte lässt sich die Testkonstruktion unterteilen?
Planung
Itemkonstruktion
Erstellung der vorläufigen Testversion
Erprobung an Stichprobe
Itemanalyse und Überarbeitung
Normierung (Eichung)
Die Konstruktionsschritte können wiederum in mehrere Bereiche eingeteilt werden.
Welche 4 unterschiedliche Strategien gibt es zu Itemkonstruktion? Beschreibe diese.
intuitive Konstruktion
rationale Konstruktion
externale (kriteriumsorientierte) Konstruktion
internale (faktorenanalytische) Konstruktion
Auf eine intuitive Konstruktion der Items sollte nur zurückgegriffen werden, wenn der theoretische Kenntnisstand bezüglich des interessierenden Merkmals gering is. Demnach ist die Konstruktion der Items abhängig von der Intuition der des/der TestkonstrukteurIn.
Rationale Konstruktion
Bei einer rationalen Konstruktion besteht bereits eine elaborierte Theorie über die Differenziertheit von Personen hinsichtlich des interessierenden Merkmals.Es ist wesentlich
das Merkmal zu differenzieren und spezifizieren sowie
Verhaltensindikatoren festzulegen.
Externale (kriteriumsorientierte) Konstruktion
Hierbei wird zunächst ein großer Itempool zusammengestellt und Personen vorgegeben, die sich in dem interessierenden, externalen Merkmal (Kriterium) stark unterscheiden.Im Anschluss werden jene Items ausgewählt, die gut zwischen Gruppen mit unterschiedlichen Ausprägungen im Kriterium diskriminieren.Zur Absicherung der Diskriminationsfähigkeit der Items sollte das Ergebnis der Itemauswahl an einer anderen Stichprobe überprüft werden.
Internale (faktorenanalytische) Konstruktion
Hierbei werden zunächst Items konstruiert, die hypothetischen Verhaltensdimensionen erfassen sollen.Diese werden einer Stichprobe von Personen der interessierenden Zielgruppe vorgegeben.Im Anschluss werden die Items einer Faktorenanalyse unterzogen und aufgrund der faktorenanalytischen Ergebnisse zu „Skalen“ zusammengefasst.
Welche weiteren Aspekte sind bei der Itemkonstruktion und Testentwicklung noch zu beachten?
Weitere Aspekte der Itemkonstruktion und Testentwicklung, wie
Aufgabentypen und Antwortformate
Fehlerquellen bei der Itembeantwortung
Gesichtspunkte der Itemformulierung
Erstellen der vorläufigen Testversion
Erprobung der vorläufigen Testversion
Was sind die Axiome der klassischen Testtheorie?
Im Rahmen der klassischen Testtheorie gelten die folgenden Axiome:
das Existenzaxiom,
das Verknüpfungsaxiom und
das Unabhängigkeitsaxiom.
Was besagt das Existenzaxiom?
Das Existenzaxiom besagt, dass ein „wahrer Wert“ (= true score) existiert. Dieser „wahre Wert“ ist der Erwartungswert der gemessenen Leistung einer Person.Demnach gilt
Was ist das Verknüpfungsaxiom?
Das Verknüpfungsaxiom besagt, dass sich die gemessene Leistung einer Person aus ihrem wahren Wert und dem Messfehler zusammensetzt.
Der Messfehler spielt in der klassischen Testtheorie eine zentrale Rolle. Sie wird daher auch oft als „Messfehlertheorie“ bezeichnet.
Was ist das Unabhängigkeitsaxiom?
Das Unabhängigkeitsaxiom besagt, dass der „wahre Wert“ einer Person und der bei der Messung entstandene Messfehler nicht korrelieren.
Welche Zusatzannahmen gibt es neben den Axiomen bei der Klassischen Testtheorie?
Da bei Messfehlertheorien im allgemeinen angenommen wird, dass es sich bei dem Messfehler um eine Zufallsvariable handelt, muss das Unabhängigkeitsaxiom erweitert werden.
Was kann aus den Axiomen der klassischen Testtheorie gefolgert werden hinsichtlich Erwartungswert des Messfehlers, Varianz und Kovarianz der gemessenen Werte?
Was versteht man unter äquivalenten Messungen? Welche vier Zugänge gibt es?
(Klassische Testtheorie)Äquivalente MessungenBei den äquivalenten Messungen geht es um die Frage, welche Voraussetzungen erfüllt sein müssen, um annehmen zu können, dass zwei Tests (oder auch Items), dasselbe psychologische Merkmal messen.Es gibt hierfür vier unterschiedlich strenge „Zugänge“:– Replikation,– Parallelmessung–
äquivalente Messungen und– essentielle
äquivalente Messungen.ReplikationBei der Replikation wird gefordert, dass verschiedene Messinstrumente bei derselben Person zu exakt demselben Messergebnis kommen müssen, um von einer wiederholten Messung zu sprechen. Sie stellt somit die strengsten (und für die Praxis unrealistische) Forderungen.ParallelmessungUm eine Parallelmessung handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert und die selbe Varianz besitzen.Demnach gilt bei Parallelmessungen
Parallelmessungen erfassen das gleiche psychologische Merkmal gleich genau, da die Gleichheit der Varianzen der Messwerte auch gleiche Varianzen der Messfehler bedeutet.Ein zu Test A paralleler Test wird in weiterer Folge mit A‘ bezeichnet.
äquivalente Messungen
äquivalente Messungen handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert aber unterschiedliche Varianz besitzen.Demnach gilt bei
äquivalenten Messungen
äquivalente Messungen erfassen das gleiche Merkmal verschieden genau.
Essentiell äquivalente MessungenBei essentiell
äquivalente Messungen unterscheiden sich die Erwartungswerte zweier Tests (oder Items) um eine additive Konstante. Die Varianzen können ebenfalls verschieden sein.Demnach gilt bei essentiell
Was ist die Reliabilität? Was kennzeichnet diese?
Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Im Rahmen der klassischen Testtheorie steht hierbei die Varianz des Messfehlers im Vordergrund.Vereinfacht gesagt: Je größer die Varianz des Messfehlers desto, geringer die Reliabilität.
Welche Arten der Reliabilitätsbestimmung gibt es (im Überblick)?
Es lassen sich drei/vier Arten der Reliabilität unterscheiden
Paralleltest – Reliabilität
Was versteht man unter der Retest-Reliabilität?
Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Vorausgesetzt es gibt weder
Veränderungen der Messfehlereinflüsse noch
„unsystematische“ Veränderungen des wahren Werts,
entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge.
Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.B. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er.Bei Leistungstest ergeben sich Probleme z.B. aufgrund von Deckeneffekten.
Was versteht man unter der Paralleltest-Reliabilität?
Hierbei werden den Personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests.
Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind. Eine strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich.Die eleganteste Prüfung der Parallelität von Tests ohne auf die moderne Testtheorie zurückzugreifen, stellen konfirmatorische Faktorenanalysen dar.
Was ist die Testhalbierungs-Reliabilität (Split-Half Reliabilität)?
Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität des Gesamttests zu kommen, wird auf einen Spezialfall der Formel von Spearman-Brown* zurückgegriffen.
Was ist die Innere Konsistenz?
Methode zur Feststellung der ReliabilitätHierbei wird jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann vereinfacht als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab.Die bekanntesten Kennwerte zur inneren Konsistenz sind
Cronbach a
Lambda3 nach Guttman
Was kann man mit der Formel nach Spearman-Brown berechnen?
Für den Fall paralleler Items, kann aus der Kenntnis der Reliabilität eines Tests, die Reliabilität des um parallele Items verlängerten bzw. verkürzten Tests mittels der Formel von Spearman-Brown berechnet werden.
Wie verändern sich Mittelwert und Varianz bei der Verlängerung/Verkürzung von Tests?
Verlängert oder verkürzt man einen Test um parallele Items, können Mittelwert und Varianz des veränderten Tests aus Kenntnis der Kennwerte des Originaltests mittels der nachfolgenden Formeln errechnet werden.
verlängerter Test - Mittelwert höher
verkürzter Test - Mittelwert kleiner
Was ist die anzustrebende Höhe der Reliabilität? Welche Punkte sind zu berücksichtigen?
Allgemein: so hoch wie möglich.Es sind jedoch die nachfolgenden Punkte zu berücksichtigen
Art des zu erfassenden Merkmals
Individual- versus Kollektivdiagnostik
Einsatzbedingungen
Kosten-Nutzen Abwägungen
Objektivierbarkeit
Was ist der Zusammenhang zwischen Reliabilität und Konfidenzintervallen? Welche Arten von Konfidenzintervallen gibt es?
Reliabilität und Konfidenzintervalle für T
Da die Reliabilität als Maß für die Genauigkeit der Messung des wahren Werts einer Person verstanden werden kann, ist sie Basis für die Erstellung von Konfidenzintervallen für wahre Werte.
Es gibt zwei Arten von Konfidenzintervallen
auf Basis der Messfehlervarianz
auf Basis der Schätzfehlervarianz
Wie kann die Messfehlervarianz berechnet werden?
KI auf Basis der Messfehlervarianz
Bei Vorliegen der Varianz der Testwerte und der Reliabilität kann die Messfehlervarianz berechnet werden.
Wie kann der geschätzte wahre Wert und die Schätzfehlervarianz berechnet werden?
KI auf Basis der Schätzfehlervarianz
Was versteht man unter Validität?
Definition Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst.
ABER: Woran ist erkennbar welches Merkmal ein Test misst?Anstatt von der „Validität eines Tests“ zu sprechen, sollte die Validität möglicher Interpretationen von Testergebnissen betrachtet werden
Auf was können sich die verschiedenen Interpretationen eines Testergebnisses beziehen?
Verschiedene Interpretationen des Testergebnisses können sich beziehen auf
die Bewertung des Endergebnisses,
das Verallgemeinern des Ergebnisses,
die Extrapolation auf andere Bereiche,
das (kausale) Erklären und
mögliche Konsequenzen, die sich durch das Treffen von
Entscheidungen als Folge des Testergebnisses ergeben.Vor der Validierung muss überlegt werden, welche der oben angeführten Bereiche betrachtet werden sollen.
Welche Arten von Merkmalsdefinitionen können unterschieden werden?
(Validität)Neben der Überlegung, welcher Bereich validiert werden soll, ist zu überlegen, auf welcher Definition das zu erfassende Merkmal basiert.
operational und
theoretisch.
Operationale Merkmalsdefinition (Validität)
Um eine operationale Merkmalsdefinition handelt es sich, wenn die Testaufgaben den interessierenden Anforderungsbereich direkt repräsentieren.Ein operational definiertes Merkmal bezieht sich zunächst nur auf die spezifischen Test- bzw. Merkmalsinhalte.z.B.:
Test zur Erfassung des Kurzzeitgedächtnisses
Fragebogen zur Einschätzung der Sicherheit von Atomkraftwerken
Theoretische Merkmalsdefinition (Validität)
Bei theoretischen Merkmalsdefinitionen werden Theorien herangezogen, die spezifizieren (verdeutlichen), worauf bestimmte Unterschiede zwischen Personen zurückgeführt werden können und wie sich diese Unterschiede in den Testergebnissen ausdrücken.z.B. formuliert Eysenck (1981) Annahmen darüber, in welchen neuronalen Strukturen sich Personen mit unterschiedlichen Ausprägungen der Persönlichkeitsdimension Extraversion unterscheiden. Daraus leitet er Unterschiede in bestimmten Erlebens- und Verhaltensweisen ab, auf die sich dann die Items, die zur Erfassung der Extraversion herangezogen werden, beziehen.
Welche Arten von Validität können unterschieden werden (im Überblick)? Welche weiteren Begriffe werden häufig im Zusammenhang mit Validität gebracht?
Im Wesentlichen werden vier Arten der Validität unterschieden
Inhaltsvalidität,
Augenscheinvalidität,
Kriteriumsvalidität und
Konstruktvalidität.
Weitere, häufig zu findende Begriffe im Zusammenhang mit Validität sind
Übereinstimmungsvalidität,
prognostische Validität,
diskriminante Validität und
konvergente Validität.
Was versteht man unter Inhaltsvalidität?
bezieht sich darauf, inwieweit die Inhalte der Tests bzw. der Items, aus denen sich ein Test zusammensetzt, tatsächlich das interessierende Merkmal erfassen
Was versteht man unter Konstruktvalidität? Wie wird diese untersucht?
Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl Testergebnisse als auch Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird.
Im Wesentlichen geht es darum, Testergebnisse vor dem Hintergrund eines theoretischen Konstrukts zu interpretieren.Man unterscheidet zwischen
dem Bereich der Theorie und
dem Bereich der Beobachtung.
Was versteht man unter Kriteriumsvalidität?
Kriteriumsvalidität bedeutet, dass von einem Testergebnis, auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden. Je enger diese Zusammenhänge, desto besser kann die Kriteriumsvalidität als belegt gelten.
Was versteht man unter Augenscheinvalidität?
Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt erscheint.
Wie kann die Kriteriumsvalidität berechnet werden? Welches Problem tritt dabei auf? Welche Formel muss hier angewendet werden?
Die praktische Berechnung der Kriteriumsvalidität erfolgt durch die Berechnung der Korrelation von Testergebnis (X) mit dem Außenkriterium (Y).
Problematisch dabei ist, dass die Validität durch zwei Messfehler „verdünnt“ wird. Sie fällt also aufgrund der Messfehler, die bei der Messung des Testergebnisses und des Außenkriteriums auftreten, geringer aus, als sie in „Wirklichkeit“ wäre.
Verdünnungsformeln
Um diesen Fehler auszugleichen, gibt es je nachdem welche(r) Messfehler theoretisch beseitigt werden soll, drei Verdünnungsformeln*
Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt.Wie hoch wäre die Validität des Tests, wenn man das Außenkriterium fehlerfrei erheben könnte?
Wie kann eine Kosten-Nutzen-Abwägung eines Tests erfolgen?
Ist die Validität eines Tests bekannt, kann damit der Nutzen der Anwendung eines Tests zur Personenselektion ermittelt werden.
Hierfür können die sogenannten Taylor- Russell Tafeln herangezogen werden. Anhand der Taylor Russell Tafeln ist für tabellierte Grund- und Selektionsraten sowie bei gegebener Validität des Tests ablesbar, wie hoch der Anteil „wirklich geeigneter“ Personen ist, sofern sie aufgrund des Testergebnisses als „geeignet“ angesehen werden.
Was ist die Grundidee der Taylor-Russel Tafeln?
Die Grundidee der Taylor Russel Tafeln besteht darin, dass angenommen wird, dass ein Individuum über eine bestimmte Mindestausprägung des zu erhebenden Merkmals verfügen muss, um für eine bestimmte Anforderung geeignet zu sein.
Je nachdem wie hoch diese Mindestausprägung ist, ist nur ein gewisser Prozentsatz der „relevanten“ Population „wirklich geeignet“. Dieser Prozentsatz nennt sich Grundrate (GR) bzw. Grundquote (GQ)
Weiters wird aufgrund des Testergebnisses ein bestimmter Teil der getesteten Personen als geeignet betrachtet. Dieser Anteil nennt sich Selektionsrate (SR) oder Selektionsquote (SQ
Was bedeutet ein Grundrate von 0,1?
Jeder 10. Ist geeignet (10% der Population). (Taylor-Russel-Tafeln)
Spaltenüberschrift – Selektionsrate: 0.05 – nur 5% der Personen die getestet werden, werden als geeignet anerkannt.
Zeilenüberschrift (r): Validität des Tests
In den Zellen: Wie viel Prozent der Personen die vom Test ausgewählt wurden sind tatsächlich geeignet.
Es sei bekannt, dass 40 % jener Personen, die sich für eineStelle bewerben auch wirklich dafür geeignet sind. ZurAuswahl der Personen wird ein Test mit einer Validität vonval=0.20 verwendet.
a) Wie hoch ist die Wahrscheinlichkeit, dass die aus 20BewerberInnen aufgrund des Tests ausgewählte Personwirklich für die ausgeschriebene Stelle geeignet ist?
b) Wie hoch ist die Wahrscheinlichkeit eine geeignetePerson zu erhalten, wenn die Auswahl der Person nichtaufgrund der Testergebnisse, sondern zufällig erfolgt?
a) Lösung: GR= 0.40 SR=1/20=0.05 val=0.20=> 0.57
b) Lösung: die Grundrate (hier 0.40)
Es sei bekannt, dass 40 % jener Personen, die sich für eineStelle bewerben auch wirklich dafür geeignet sind.Wie hoch müsste die Validität sein, damit dieWahrscheinlichkeit, dass eine aus 20 BewerberInnenaufgrund des Tests ausgewählte Person, auch wirklichgeeignet ist, 95 % beträgt?
Lösung: GR=0.40 SR=1/20=0.05 % - Satz=0.95=> val= 0.70
Welche Grundannahme ist bei der Berechnung der Validität oder Reliabilität eines verkürzten/verlängerten Tests zu berücksichtigen?
Bei der Verkürzung eines Tests darf die Validität und Reliabilität nicht größer werden (und umgekehrt). Falls dies bei der Berechnung trotzdem herauskommt, dann soll dies angemerkt werden.
Was ist die Grundidee der Faktorenanalyse (einfaktoriell)?
Ziel der Faktorenanalyse: Fragen/Items die das Selbe erfassen zu einem Kennwert (Subskala, Skala) zusammenzufassen.
Korrelationen zwischen den (manifesten) Items werden dadurch erklärt, dass ihnen zumindest ein gemeinsames latentes Merkmal (=„Faktor“) zugrunde liegt.
Die paarweisen Korrelation zwischen den (standardisierten) Items sind selbst bei einem Faktor nicht 1, da neben demEinfluss des latenten Merkmals auch andere Einflüsse (wie z.B. Messfehler) berücksichtigt werden müssen.
Wie hoch korrelieren folgende Items miteinander?a) Item 1 und 3b) Item 1 und 4
Multiple Faktorenanalyse - Korrelation zwischen Items
Was sind die 3 wichtigsten Kennwerte der Faktorenanalyse im Überblick?
Was versteht man unter der Ladung?
Ladungen der Faktoren pro Item
Was versteht man unter Kommunalität eines Items?
Wie berechnet man die Prozent der erklärbaren Varianz durch Faktor j?
Was ist die Grundidee der Parameterschätzung der Faktorenanalyse? Wie erfolgt die Parameterschätzung?
Die mathematische Herausforderung im Rahmen der Faktorenanalyse ist die Bestimmung der (unbekannten) Ladungen sowie die Festlegung der Faktorenzahl.
Die Grundidee der Parameterschätzung basiert darauf, zunächst jenen Faktor mit dem größten Eigenwert zu „extrahieren“. Dadurch wird die Summe der quadrierten verbleibenden Korrelationen zwischen den Items am stärksten minimiert.
Daraus folgt, dass man die Ladungen des 1. Faktors so bestimmt, dass
Welche Extraktionsverfahren für die Parameterschätzung der Faktorenanalyse sind die am häufigsten angewandten?
Im Rahmen der Faktorenanalyse wurden eine Vielzahl an Extraktionsverfahren entwickelt. Die zwei am häufigsten angewandten sind
die Hauptachsenanalyse („principal axis“) und
die Hauptkomponentenanalyse („principal components“).
Hauptkomponentenanalyse
Varianz eines Items vollständig durch die gemeinsamen Faktoren erklären lässt. Demnach sind alle Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) gleich 1. Als Konsequenz werden so viele Faktoren extrahiert, wie es Items gibt.Sie ist die Standardeinstellung bei Berechnung einer Faktorenanalyse in SPSS.
Hauptachsenanalyse
wird davon ausgegangen, dass sich die Varianz eines Items immer in die Kommunalität und die Einzelrestvarianz aufteilt. Demnach sind die Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) kleiner als 1.Ziel ist es also, nur die durch die gemeinsamen Faktoren erklärbare Varianz zu beschreiben.Da zu Beginn der Datenanalyse die Kommunalitäten nicht bekannt sind (=„Kommunalitätenproblem“), werden die Faktoren zunächst mittels Hauptkomponentenanalyse geschätzt und iterativ (=schrittweise) „verbessert“ („Kommunalitäteniteration“).Kommunalitätenproblem - Vorgehensweise: - „1“ wird in die Hauptdiagnoale geschrieben (jedes Items mit sich selbst) - Mit der Lösung erhält man (etwas falsche) Ladungen- Durch diese Ladungen erhält man (falsche) Kommunalitäten.- Diese setzt man dann wiederrum in die Hauptdiagonale ein und führt die gesamte Berechnung neu durch. - Dadurch kommt man zu immer besseren Daten.
Welche Methoden (5) gibt es um die Anzahl der Faktoren bei der Parameterschätzung festzulegen?
Für die Bestimmung der Anzahl an Faktoren gibt es fünf üblicherweise herangezogene Kriterien
Faktorenzahl wird a priori festgelegt
alle Restkorrelationen sind nahe 0 (z.B.: <.2)
der Eigenwert des zuletzt extrahierten Faktors ist kleiner 1* (auch "Kaiser-Kriterium": im übertragenen Sinn ist damit die „Information, die über den Faktor vorliegt“ geringer als die Information eines einzigen Items),
Ein Item hat die Varianz 1; wenn ein Faktor einen Eigenwert von weniger als 1 hat, dann enthält der Faktor weniger Information als ein einziges Item. Es macht dann keinen Sinn diesen Faktor zu verwenden.
der Verlauf des Eigenwertediagramms (Screeplot)
Bei der Betrachtung des Eigenwertediagramms, wird jene Stelle gesucht, an der Verlauf das Eigenwertediagramm „abflacht“ (= Elbow Kriterium). Die Faktoren vor dem „Knick“ werden in der weiteren Analyse berücksichtigt.
Parallelanalyse
Bei der Parallelanalyse werden zumindest 100 Datensätze von Zufallszahlen erzeugt, wobei die Anzahl an Items und der Stichprobenumfang dem empirisch gewonnenen Datensatz entspricht. All diese Datensätze werden einer Faktorenanalyse unterzogen und die aus jeder Analyse gewonnenen Eigenwerte werden pro Faktor gemittelt. Als relevante nichttriviale Faktoren werden all jene Faktoren bezeichnet, deren Eigenwerte über jenen der (gemittelten) Eigenwerte der Parallelanalyse liegen.Dort wo die Parallelanalyse (zufällige Werte) die realen Eigenwerte schneidet, dort liegt die Grenze. PROBLEM: sehr aufwändig.
Wie erfolgt die Interpretation bei der Faktorenlösung (Ergebnisinterpretation)?
Die Ladungsmatrix bildet die Grundlage für die inhaltliche Interpretation der Faktoren. Hierfür werden üblicherweise die in einem Faktor hoch (=ideal sind Items mit Ladungen über 0.7) und in allen anderen Faktoren niedrig ladenden Items (ideal sind hier Ladungen unter 0.3) herangezogen. Diese Items werden auch als „Marker-Items“ bezeichnet. Zeichnet man die Items als Punkte in einem Raum mit so vielen Dimensionen wie es Faktoren gibt, so liegen „Marker-Items“ „nahe“ an den Koordinatenachsen.
Vorgehen:
Man nimmt Items die in einem Faktor hoch laden = Marker-Items
Diese sollten im Idealfall in anderen Items niedrig laden.
Bei diesen Items sollte man die Eigenschaft dann gut erkennen.
Aus diesem Grund werden die Faktoren zur besseren Interpretierbarkeit „rotiert“.Ziel ist eine einfache Struktur („simple structure“) bei der jedes Item nach Möglichkeit nur in einem Faktor hoch in den anderen Faktoren jedoch gering lädt.Dadurch ergeben sich neue, besser interpretierbare Ladungen.
Was sind Faktorwerte? Welche Arten können unterschieden werden?
Da es das Ziel der Faktorenanalyse ist, die Zahl der Kennwerte zu reduzieren (aus vielen Items sollen deutlich weniger Faktoren resultieren), ist es nötig, Kennwerte für die Ausprägungen der Personen in den zu Grunde liegenden Faktoren zu ermitteln. Diese Kennwerte nennen sich Faktorwerte (auch „Skalenwerte“ genannt).Man unterscheidet zwischen gewichteten und ungewichteten Faktorwerten.Ungewichtete FaktorwerteDie Berechnung der ungewichteten Faktorwerte erfolgt pro Person z.B. durch aufsummieren oder mitteln der Punkte jener Items, die in einem Faktor hoch laden.Items, die in mehreren Faktoren ähnlich hohe Ladungen aufweisen, werden entweder jenem Faktor zugerechnet, in dem sie die höchste Ladung aufweisen oder bei der Berechnung der Faktorwerte nicht berücksichtigt.Ist die Ladung eines Items in einem Faktor negativ, so muss das Item „umgepolt“ werden.Gewichtete FaktorwerteDa bei der ungewichteten Berechnung der Faktorwerte die unterschiedliche Konstruktvalidität der Items nicht berücksichtigt wird und Items, die in zwei oder mehr Faktoren ähnlich hohe Ladungen haben, problematisch sind, werden die Items je nach Ladung eines Items in einem Faktor gewichtet.
Das Umpolen der Items ist hierbei nicht nötig.
Es resultieren pro Faktor standardisierte Faktorwerte.
Für die Berechnung stehen in SPSS unterschiedliche Methoden zu Verfügung.
Wie bzw. mit welchen Kennwerten erfolgt die Itemanalyse der klassischen Testtheorie?
Die üblicherweise berechneten Kennwerte sind
Itemschwierigkeit
- Zahl zwischen 0 und 1- Eher Itemleichtigkeit – da: je näher als 1 desto leichter.- Bei Items die dichotom messen ist dies (mal 100) der Prozentsatz der Personen die die Aufgabe lösen.
Itemvarianz
- Wie unterschiedlich sind die Ergebnisse?- Ist ein Hinweis, wie gut das Item es erlaubt unterschiedliche Personen auseinanderzuhalten.
Itemtrennschärfe
- Korrelation der Items mit der Gesamtpunkteanzahl- Anders gesagt: Misst dieses Item das gleiche wie die anderen Items im Test.
Was ist die Itemschwierigkeit? Wie wird diese berechnet?
Der Schwierigkeitsindex Pi eines Items i ist der Quotient aus der bei diesem Item tatsächlich erreichten Punktesumme aller N Personen und der bei diesem Item von allen Personen maximal erreichbaren Punktesumme multipliziert mit 100.
Zahl zwischen 0 und 1
Eher Itemleichtigkeit da: je näher als 1 desto leichter.
Bei Items die dichotom messen ist dies (mal 100) der Prozentsatz der Personen die die Aufgabe löse
Welche Rolle spielt die Itemtrennschärfe bei der Validität eines Tests?
Die Validität eines Tests hängt davon ab wie valide die einzelnen Items sind, aber auch von der Itemtrennschärfe. – siehe Verdünnungsformel.
Was ist das Verdünnungsparadoxon?
Eine interessante Erkenntnis bringt die Berechnung des Zusammenhangs von Itemtrennschärfe, Itemvalidität und der Validität des Gesamttests.Zwar steigt die Validität eines Tests, wenn die einzelnen Items valider sind, jedoch nimmt die Testvalidität mit höher werdender Itemtrennschärfe ab.Demnach sollte die Itemtrennschärfe eines Items nicht hoch sein.
Was ist die Kritik an der klassischen Testtheorie?
Die Grundannahmen (Axiome) können nicht überprüftwerden.Z.B. Korrelation der Parameter
Das Intervallskalenniveau der Testergebnisse wird vorausgesetzt, kann jedoch nicht generell bewiesen werden.
Problem mit rangskalierten Werten – man benötigt intervallskalierte Items, da man mit Varianzen, etc. arbeitet
Alle im Rahmen der klassischen Testtheorie gewonnenen Kennwerte sind stichprobenabhängig. D.h. die Werte sind nicht verallgemeinerbar.
Die Fairness der Summenbildung über verschiedene Items zur Ermittlung eines Gesamttestwerts ist nicht gesichert.
Kann die Item Response Theory auch für Persönlichkeitsfragebögen eingesetzt werden?
JA
Itemschwierigkeit und Personenfähigkeit sind ganz klar assoziiert mit Leistungstests. Die IRT ist aber auch für die Analyse von Items zur Erfassung von Persönlichkeitsmerkmalen möglich (hier würde man die Personenfähigkeit als Ausprägung bezeichnen).
Was ist die Grundidee bzw. sind die Grundannahmen der Item Response Theory?
Im Gegensatz zur klassischen Testtheorie, die erst beim Testwert ansetzt, sich jedoch nicht näher damit beschäftigt, wie es zu dem Testergebnis kommt, setzen Modelle der IRT bereits an der Formulierung des Zusammenhangs von latenter Dimension und manifester Variable an.
Ähnlich wie bei der Faktorenanalyse geht es also darum, dass manifeste Antwortverhalten durch die individuellen Merkmalsausprägungen der Personen erklären zu können.
Im Allgemeinen wird davon ausgegangen, dass drei Komponenten die beobachtete Antwort (bzw. die Wahrscheinlichkeit für eine beobachtete Antwort) beeinflussen. Bei den drei Komponenten handelt es sich um
Eigenschaften der Person (z.B. Fähigkeit),
Eigenschaften des Items (z.B. Schwierigkeit) und
zufällige Einflüsse.
Was ist die Guttman-Skala?
Guttman (1950) war der erste, der einen Zusammenhang zwischen Personenfähigkeit und Lösungswahrscheinlichkeitmodellierte.
Es handelt sich dabei um die sogenannte „Guttman Skala“ auch „Skalogramm Analyse“ genannt.Bei der Itemcharakteristik der „Guttman Skala“ handelt es sich um eine Sprungfunktion, wobei die Itemlösungswahrscheinlichkeit nur die Ausprägungen 0 und 1 annehmen kann.
So mit ist das Modell nicht probabilistisch sondern deterministisch.Trotzdem lassen sich damit wesentliche Erkenntnisse über die IRT ableiten.
Guttman Skala
Was illustriert die Guttman-Skala?
Die Guttman Skala illustriert, dass
die Schwierigkeit des Items und die Personenfähigkeit anhand der selben Skala abgelesen werden kann. Bei der Guttman Skala markiert die Personenfähigkeit, die an der Sprungstelle liegt, die Schwierigkeit des Items,
zur Modellierung der Lösungswahrscheinlichkeit aller Items nur eine Dimension angenommen wird und
anhand des Modells Vorhersagen gemacht werden können, die anhand der manifesten Items überprüfbar sind. Bei der Guttman Skala handelt es sich dabei um die „erlaubten“ Antwortmuster.
Was ist das "Latent Distance Model" von Lazarsfeld?
Da die Guttman Skala unrealistische Forderungen an die Items stellt, wurde der deterministische Ansatz von Lazarsfeld durch einen probabilistischen ersetzt.
Bei der Itemcharakteristik des „Latent Distance Models“ handelt es sich ebenfalls um eine Sprungfunktion, wobei pro Items zwei Itemlösungswahrscheinlichkeiten modelliertwerden. Diese beiden Lösungswahrscheinlichkeiten können bei jedem Item anders sein und müssen aus den Daten geschätzt werden.
Was entwickelte Georg Rasch (Allgemein)?
Georg Rasch hat als Itemcharakteristik die logistische Funktion gewählt.(U = Unbekannte)
Keine Sprungfunktion, sondern ein kontinuierlicher Wachstum der Wahrscheinlichkeit.Egal welche Zahl für U eingesetzt wird – das Ergebnis ist immer ein Wert zwischen 0 und 1.+ ∞ = 1- ∞ = 0
Mit höherer Personenfähigkeit wird die Lösungswahrscheinlichkeit kontinuierlich höher. = Streng monotone Funktion
Wann steigt die Lösungswahrscheinlichkeit (nach dem Rasch-Modell)a) wenn die Itemschwierigkeit gleich bleibt?b) wenn die Personenfähigkeit gleich bleibt?
a) Wenn die Personenfähigkeit steigt (bei gleichbleibender Itemschwierigkeit).
b) Wenn die Itemschwierigkeit sinkt (bei gleichbleibender Personenfähigkeit).
Was definiert die Schwierigkeit des Items (Itemschwierigkeit)
a) beim Modell von Guttman?
b) beim Rasch-Modell?
a) Die Sprungstelle markiert die Schwierigkeit des Items.
b) Wenn die Person gleich fähig ist wie das Item schwierig: die Lösungswahrscheinlichkeit liegt bei 50%. In der Graphik (schwarze Linie) – Itemschwierigkeit 0 (= Personenfähigkeit 0) (da beide Werte mit dem gleichen Maß gemessen werden)
Was ist ein dichotomes Item im Sinne des Rasch-Modells?
a) Was ist die Hauptstadt Italiens?
b) Fragestellungen bei der Millionenshow?
c) MC-Klausuren mit Teilpunkte?
d) MC-Klausuren ohne Teilpunkte?
a) Hauptstadt Italiens?JA – weil entweder ist die Antwort richtig oder falsch (man bewertet nicht ob etwas „richtiger“ ist, z.B. Florenz ist nicht richtiger als Paris).
b) Sind die Fragen in der Millionenshow dichotome Items?JA – denn es hat nichts mit der Anzahl der Antwortalternativen zu tun – sondern nur damit ob die Antwort richtig oder falsch.
c) MC-Klausuren mit Teilpunkten?NEIN, da Fragen auch als teilweise richtig anerkannt werden.
d)MC-Klausuren ohne Teilpunkte? JA, weil die Antwort auf diese Frage nur richtig oder falsch sein kann.
Welche Forderungen hatte Rasch an sein Modell?
Das Verhältnis der Schwierigkeiten zweier Items soll unabhängig von der gewählten Stichprobe sein.
Wenn 2 Items die gleiche Eigenschaft messen, dann muss der Unterschied der Schwierigkeit im Verhältnis bei den Populationen gleich sein
Das Verhältnis der Fähigkeiten zweier Personen soll unabhängig davon sein, welche Aufgaben den Personen zur Ermittlung der Personenfähigkeiten vorgegeben wurden.
Wenn Items die gleiche Eigenschaft erfassen, dann muss unabhängig davon welche Items welcher Population vorgegeben werden, muss das Verhältnis der Fähigkeit gleich bleiben.(Anlehnung: 10 Kilo sind schwerer als 5 Kilo, unabhängig davon wer das Gewicht hebt.)
Die Anzahl der gelösten Aufgaben soll die gesamte Information der Daten über die Fähigkeit der Person beinhalten.
Wenn Personen den gleichen Test erhalten und gleich viele Punkte erhalten, dann kann man sagen „Die Personen sind gleich fähig.“
Die Anzahl an Personen, die ein Item lösen können, soll die gesamte Information der Daten über die Schwierigkeit des Items beinhalten.
Es darf für die Itemschwierigkeit nicht von Bedeutung sein, welche Person welches Item gelöst hat. Es ist nur noch relevant wie viele Items eine Person löst und wie viele Items insgesamt gelöst wurden.
Wie sollen die Itemcharakteristik-Kurven beim Rasch-Modell aussehen (folgend der Forderung nach spezifischer Objektivität)?
Aus der Forderung nach spezifischer Objektivität folgt, dass sich die IC Kurven nicht schneiden dürfen. Die IC Kurven müssen im Modell von Rasch also dieselbe Steigung (=Diskrimination) haben.
Was versteht man unter Diskriminationfähigkeit einer Itemcharakteristik-Kurve?
Diskriminationsfähigkeit: Ist die Eigenschaft, wie schnell die Itemcharakteristikkurve ansteigt.
Je flacher der Anstieg eines Items ist, desto geringer ist die Diskriminationsfähigkeit
Gutmans-Sprungfunktion hat eine 100%ige Diskriminationsfähigkeit.
Wie kann die Existenz der erschöpfenden Statistik für das Rasch-Modell gezeigt/bewiesen werden?
Die Existenz der erschöpfenden Statistiken kann anhand der Likelihood der Daten gezeigt werden.
Die Likelihood der Daten ist die Wahrscheinlichkeit, EXAKT die erhobenen Daten zu erhalten.
Likelihood ist nur noch von den Randsummen (Anzahl der gelösten Items einer Person und Anzahl wie oft ein Item gelöst wurdE) abhängig und nicht von den konkreten Antworten einer Person.
Wie ergibt sich die Likelihood-Formel hinsichtlich der Berechnung der Lösungswahrscheinlichkeit für richtige und falsche Antworten?
Im dichotom logistischen Modell von Rasch können Personen zwei unterschiedliche Antworten geben. Entweder sie antworten korrekt (1) oder nicht (0).
Demnach wird allen Personen, die einem Test mit den selben Items dieselbe Anzahl gelöster Aufgaben erzielen, derselbe Fähigkeitsparameter zugeordnet.
Was versteht man unter der spezifischen Objektivität?
Die spezifische Objektivität (also die Tatsache, dass z.B. das Verhältnis der Schwierigkeit zweier Items unabhängig von den getesteten Personen ist), kann anhand der nachfolgenden (bedingten) Wahrscheinlichkeit gezeigt werden
Was ermöglicht die IRT dadurch, dass die Itemschwierigkeit unabhängig ist von der Personenfähigkeit?
Entspricht eine Menge von Items einem IRT Modell, so ermöglicht das Personen miteinander zu vergleichen, auch wenn sie nicht dieselben Aufgaben bearbeitet haben. Damit können die Tests an die Personen angepasst werden (=adaptives Testen).
Die beiden Arten des adaptiven Testens sind
Tailored Testing (maßgeschneidertes Testen) und
Branched Testing (verzweigtes Tests).
Tailored Testing
Üblicherweise erhalten die Personen zu Beginn ein oder mehrere mittelschwere Items.Beim tailored testing wird nach jeder Vorgabe eines Items der Personenparameter neu geschätzt und aus der Menge der vorhandenen Items (=Itempool) jenes Items ausgewählt, dessen Schwierigkeit der Personenfähigkeit am besten entspricht.
Diese Methode ist sehr rechenintensiv und erfordert eine computergestützte Testung.
Branched Testing
Aus diesem Grund werden beim branched testing bereits in der Testentwicklung Gruppen von Items zusammengestellt.Je nachdem wie gut eine Person bei der ersten Itemgruppe abschneidet, wird eine weitere zuvor festgelegte Itemgruppe ausgewählt usw.
Wie können die Personen beim adaptiven Testen miteinander verglichen werden? Was sind die Vorteile des adaptiven Testens?
Die Vergleichbarkeit der Personen ist für den Fall, dass sie unterschiedliche Items bearbeiten jedoch nicht mehr über die Anzahl der gelösten Aufgaben, sondern nur noch über die geschätzte Personenparameter möglich.
Eine auf die Fähigkeiten der getesteten Personen abgestimmte Itemauswahl,
reduziert in vielen Fällen nicht nur die benötigte Testzeit und
ermöglicht die Personen weitestgehend weder durch die Vorgabe von zu leichten Aufgaben zu „langweilen“ oder von zu schweren Aufgaben zu „demotivieren“, sondern
erhöht auch die Genauigkeit der Schätzung des Personenparameters (Messfehler wird reduziert).
Wie kann die Parameterschätzung im Rasch-Modell erfolgen?
Die Schätzung der unbekannten Parameter erfolgt im Rasch Modell üblicherweise mit Hilfe der Maximum-Likelihood-Methode.Hierbei werden die unbekannten Parameter so geschätzt, dass die Likelihood der Daten maximal wird.
Die Parameterschätzung benötigt man für die Schätzung der Personenfähigkeit bzw. der Itemschwierigkeit.
Welche Arten der Maximum-Likelihood-Methode können unterschieden werden?
(für Parameterschätzung)Es gibt der Arten der Maximum Likelihood Schätzungen
die unbedingte Maximum Likelihood Methode (UML)
die bedingte Maximum Likelihood Methode (CML) und
die marginale Maximum Likelihood Methode (MML).
bedingte Maximum Likelihood Methode (CML)
Bei der CML wird davon ausgegangen, dass pro Person die Zahl der gelösten Aufgaben bekannt ist. Somit werden die Personenparameter durch die Anzahl gelöster Aufgaben ersetzt und es müssen zunächst „nur“ die Itemschwierigkeitsparameter geschätzt werden.Die Schätzung der Personenparameter erfolgt dann wiederum mittels der UML. Personen mit der gleichen Anzahl an gelösten Aufgaben wird der selbe Personenparameter zugeordnet. Allerdings kann für Personen, die alle oder kein Item gelöst haben, kein Fähigkeitsparameter geschätzt werden.
Nutzt die Information, dass sie weiß wieviele Personen ein Item gelöst haben und wieviele Aufgaben eine Person bereits gelöst hat.
Durch das Erhöhen der Personenanzahl wird die Anzahl der zu schätzenden Personenfähigkeitsparameter gleich (Personen mit gleicher Rohscore wird derselbe Personenparameter zugeordnet).
marginale Maximum Likelihood Methode (MML)
Auch bei der MML werden zunächst nur die Itemparameter geschätzt. Anstatt von pro Person bekannten Rohscores auszugehen, wird nur von einer bestimmten Verteilung der Personenparameter ausgegangen (z.B. NV). Somit müssen anstatt der einzelnen Personenparameter vorerst nur die Parameter der Verteilung (z.B. Mittelwert und Varianz) geschätzt werden.Nach der Schätzung der Itemparameter werden die Personenparameter abermals mittels UML geschätzt. Verzerrungen ergeben sich, wenn die vorab angenommene Verteilung der Personenparameter falsch ist.
Geht von einer Verteilung der Personenfähigkeitsparameter aus. D.h. es wird der Mittelwert und die Streuung von Personenfähigkeitsparameter und Itemschwierigkeit geschätzt.
Problem: wenn die Verteilung nicht passt erhält man falsche Daten.
Man kriegt auch Personenparameter für Personen die alles gelöst haben und Personen die nichts gelöst haben (dies ist nicht der Fall bei der CML)
(Parametermäßig am besten aber man benötigt zusätzliche Information zur Verteilung)
unbedingte Maximum Likelihood Methode (UML)
Die UML basiert auf der Totalen Likelihood der Daten.Hierbei werden Personenfähigkeits- und Itemschwierigkeitsparameter gleichzeitig geschätzt. Bei dieser Methode muss für jedes Item aber auch für jede Person ein eigener Parameter geschätzt werden.Das bedeutet jedoch, dass für jede neu hinzukommende Person ein weiterer Personenfähigkeitsparameter benötigt wird. Dies führt häufig zu gröberen Problemen bei der Schätzung.
Muss sehr viele Parameter schätzen
In der Praxis gibt es Schätzprobleme.
Wann ergeben sich Probleme bei der Maximum-Likelihood-Methode? Wovon hängt die Genauigkeit der Schätzung ab?
Probleme bei der Parameterschätzung ergeben sich, wenn es kein eindeutig definiertes Maximum der Likelihoodfunktion gibt.Dies ist der Fall, wenn die Funktion
multiple Maxima hat (d.h. es neben den globalen noch lokale Maxima gibt) oder
das Maximum kein Punkt, sondern ein Plateau oder eine Fläche ist.
Die Genauigkeit der Schätzung hängt davon ab, wie viel Information man über einen Parameter besitzt.
Welche Methoden zur Modellkontrolle gibt es?
Um zu überprüfen, ob die vorliegenden Items dem dichotom logistischen Modell von Rasch entsprechen, können verschiedene Modelltests herangezogen werden.Dazu gehören z.B.
die grafische Modellkontrolle,
der z-Test nach Wald,
der bedingte Likelihood Quotienten Test nach Andersen und
der Martin Löf Test.
Wie erfolgt die grafische Modellkontrolle?
Für die grafische Modellkontrolle werden die Personen in zwei Gruppen eingeteilt und die Itemschwierigkeitsparameter in jeder Gruppe extra geschätzt.
Welche Methoden müssen zur Normierung der Itemschwierigkeit bzw. -leichtigkeit eingesetzt werden?
Für Itemschwierigkeiten ist die „Summe 0“ Normierung zu empfehlen (d.h. die Summe aller Itemschwierigkeiten ist 0).
Für Itemleichtigkeiten sollte die „Produkt 1“ Normierungverwendet werden (d.h. das Produkt aller Itemleichtigkeiten ist 1).
Was ist der z-Test nach Wald?
(Modellkontrollen)
Beim z-Test nach Wald werden die in zwei Stichproben (A, B) erhobenen und normierten Itemschwierigkeitsparameter miteinander verglichen.
Was ist der LQT?
Bei Likelihood Quotienten Tests (LQT) werden die Likelihoods zweier Modelle miteinander verglichen.
Die beiden Modelle müssen drei Bedingungen erfüllen
Modell 1 muss ein echtes Obermodell von Modell 2 sein (d.h. dass Modell 2 durch Restriktionen von Parametern aus Modell 1 entsteht).
Modell 2 darf nicht durch 0 setzen von Parametern entstehen.
Modellgültigkeit von Modell 1 muss nachgewiesen sein.
Welche weiteren Modelle neben der IRT gibt es (Beispiele)?
Ausgehende von den Ideen von Georg Rasch wurden zahlreiche weitere Modelle entwickelt. Im Folgenden werden
die Modelle von Birnbaum (1968),
das linear logistische Testmodell (LLTM) und
die Erweiterung auf rangskalierte Daten
kurz vorgestellt.
Was sind die Birnbaum Modelle? Beschreibe diese.
Birnbaum (1968) stellte zwei Erweiterungen des dichotom logistischen Modells von Rasch vor, indem er unterschiedliche Diskriminations- und Rateparameter pro Item erlaubt.Bei diesen Modellen handelt es sich um
das zwei Parameter logistische Modell und
das drei Parameter logistische Modell.
Bei beiden Modellen ergeben sich wegen der relativ großen Zahl an Modellparametern häufig Probleme bei der Parameterschätzung.Das zwei Parameter logistische ModellBei diesem Modell gibt es pro Item zwei Parameter, nämlich
den Itemschwierigkeitsparamter und
den Diskriminationsparameter.
Die Lösungswahrscheinlichkeit eines Items i durch Person v ist gegeben durch
Aufgrund der unterschiedlichen Diskriminationsparameter gibt es in diesem Modell schneidende IC Kurven, sodass die spezifische Objektivität bei diesem Modell nicht gegeben ist.
Das drei Parameter logistische ModellBei diesem Modell gibt es pro Item drei Parameter, nämlich
den Itemschwierigkeitsparamter,
den Diskriminationsparameter und
die Ratewahrscheinlichkeit.
Auch hier schneiden die IC Kurven einander
Was ist das linear logistische Testmodell (LLTM)?
Das LLTM geht auf Scheiblechner (1972) und Fischer (1972, 1973) zurück und stellt ein restriktiveres Modell als das dichotom logistische Modell von Rasch dar.
Die ursprüngliche Idee war es, die Schwierigkeit eines dem Modell von Rasch entsprechenden Items auf die Schwierigkeit jener kognitiven Fertigkeiten zurückzuführen, die aufgrund theoretischer Überlegungen im Vorfeld der Lösung des Items zugrunde liegen.
Was ist das Partial Credit Modell?
Das Partial Credit Model ist das Rasch Modell für ordinale Daten. Die dahinter liegende Idee ist eine Verallgemeinerung des dichotom logistischen Modells von Rasch. Für letzteres wurde gezeigt, dass es neben der IC Kurve für das Lösen des Items auch eine IC Kurve für das nicht Lösen eines Items gibt.
Welche Arten von Modellen gibt es beim Partial Credit Modell?
Prinzipiell können die Schwellen in jedem Item anders sein.Da daraus eine sehr große Zahl an Parameter resultiert, können zusätzliche Annahmen getroffen werden, die zu unterschiedlichen Modellen führen. Diese sind
das Ratingskalen Modell,
das Äquidstanzmodell und
das Dispersionsmodell.
Welche Arten von Skalenniveaus werden unterschieden?
Nominalskala
nur Unterscheidung: gleich oder ungleich
immer diskret
z.B.: Religion, Geschlecht, Nationalität, …
Ordinalskala
größer/kleiner (über Abstände aber keine Aussage)
z.B.: Schulnoten, Einkommensklassen, …
Intervallskala:
Metrische Skala
Abstände exakt bestimmbar
KEIN natürlicher Nullpunkt
Differenz- und Summenbildung sinnvoll ... Mittelwert erst ab dieser Skala sinnvoll
z.B.: Temperatur (Celsius), IQ-Skala, …
Rationalskala (Verhältnisskala)
Metrisch
Natürlicher Nullpunkt
Multiplikative Transformationen möglich
z.B.: Gewicht, Geld, Körpergröße, Zeit, …
Welche Häufigkeiten können unterschieden werden?
Absolut: Anzahl
Relativ: Anzahl in Relation zur Grundmenge
Kumulativ (kumuliert):
- Merkmal mindestens ordinalskaliert - geordnet- Summe inkl. aller vorherigen Häufigkeiten (absolut oder relativ)
Was versteht man unter Population und Stichprobe? Was versteht man unter Populationsparameter und Stichprobenschätzer?
Population = GrundgesamtheitIn empirischer Forschung: Menge aller potentiellen UntersuchungsobjekteStichprobe: Teilmenge der Population ... Untersuchte ObjekteZiel: Verallgemeinerung von Ergebnissen der Stichprobe auf PopulationPopulationsparameter vs. Stichprobenschätzer
Populationsparameter gelten in der Population
- im Allgemeinen NICHT bekannt- „wahrer Wert“
Stichprobenschätzer dienen als Schätzung für die Populationsparameter
Welche Arten von Hypothesen können unterschieden werden?
Forschungsfragen können als statistische Hypothesen formuliert werden
diese mittels jeweiligem Test überprüfen
Null-Hypothese H0 vs. Alternativhypothese H1
Gerichtete Hypothese: Annahme über die Richtung des Zusammenhangs bzw. Unterschieds
Ungerichtete Hypothese: Keine Annahme über die Richtung des Zusammenhangs bzw. Unterschieds
Was ist das alpha-Niveau und der p-Wert?
α = Irrtumswahrscheinlichkeit.... Wahrscheinlichkeit für Fehler 1. Art (α-Fehler)Fehler 1. Art: H0 verworfen obwohl sie wahr ist(Fehler 2. Art: H0 beibehalten obwohl H1 wahr ist)
VORHER festlegen!
Gängige Konvention: α = .05 oder .01
Achtung: manchmal ist H0 die „gewünschte“ Hypothese (z.B.: KS-Test auf NV)
... in diesem Fall höheres α falls strengere Prüfung nötig
p-WertUnter Annahme, dass H0 gilt:Wahrscheinlichkeit eine Teststatistik zu erhalten, die gleich oder noch „extremer“ als die beobachtete Statistik ist
Last changed2 years ago