Was ist eine Messung?
In den Naturwissenschaften werden Beobachtungen mit Hilfe quantitativer Begriffe festgehalten. Man spricht von einer Messung.
Auch in der Psychologie (als Naturwissenschaft) werden Beobachtungen in Form von Messungen quantifiziert.
Vorteil: Quantitative Begriffe ermöglichen Theorien, die Zusammenhänge mathematisch darstellen können.
Beobachtungssprache und Theoriesprache: Wie kommt es zur Theoriesprache hin zur Beobachtungssprache?
(wichtig für Klausur)
Beobachtungssprache und Theoriesprache: Was sind Beobachtungen (im Zusammenhang mit Theorien?)
Wichtig für Klausur
Eine vollständig Rückführung theoretischer Begriffe auf eine theorielose Beobachtung ist unmöglich.
Beobachtungen (und Sätze über Versuchsergebnisse) sind immer Interpretationen der beobachteten Tatsachen und zwar Interpretationen im Lichte einer Theorie (Popper, 1934/ 2005, Anmerkung 32, S. 84).
Welche verschiedenen Arten von Theorien spielen bei Beobachtungen eine wichtige Rolle?
wichtig für Klausur
->verschiedenen Arten von Theorien und Kontexten, die bei Beobachtungen eine Rolle spielen können:
Eine wissenschaftliche Theorie mit Inhalt (zum Beispiel eine Lerntheorie) liefert eine strukturierte Erklärung und Interpretation von Beobachtungen.
Messtheorien und experimentelle Paradigmen geben Anleitungen, wie bestimmte Messungen und Experimente durchgeführt werden sollen, um Informationen zu gewinnen.(z.B. Experimentelles Paradigma zur klassischen Konditionierung + Messtheorie)
elbst in der alltäglichen Beobachtungssprache gibt es rudimentäre Theorien, die unsere Interpretation von Beobachtungen beeinflussen.
Beschreibe das Beispiel zu den zwei unterschiedl. empirischen Studien zur Abhängigkeit der Lernleistung von der Ängstlichkeit. Um was für Studien handelt es sich wohl?
Korrelationsstudien-> Zusammenhänge werden gebildet/erfasst
-> soll aufzeigen, dass hinter den empirischen Studien eine Theorie (“Lernen”) steckt
Was soll das Beispiel zum Stroop-effekt im Zusammenhang mit Theoriesprahce—> Beobachtungssprache verdeutlichen?
-> verdeutlicht, wie sich aus der Theoriesprache die Beobachtungssprache(Beobachtung) entwickelt:
Theorie: Theorie des Stroop Effekts
expermentelles Paradigma mit Messtheorie: das Stroop Paradigma wird angewendet, die Theorie wird messbar gemacht, dh quantifiziert (mit Reaktionszeiten und Aufagbenauswahl)
daraus leitet sich die Beobachtung ab-> Messung—> Daten können interpretiert und beobachtet werden, aber nur “im Lichte der Theorie”
Was wurde aufgrund des Stroop-Paradigmas weiterhin entwickelt? Wozu diente dieser?
-objektiver Persönlichkeitstest in Form eines Implicit Association Tests (IAT)
auf Basis des Stroop Paradigmas und einer Theorie!
Was sind Messtheorien? Nenne wichtige Messtheorien in der Psychologie!
Definition: (Mess-)Testtheorien befassen sich entweder mit dem Zusammenhang von Testverhalten und den zu erfassenden Merkmal (Rost, 2004, 21) und/oder mit der Frage, in welche Bestandteile sich Messwerte aufgliedern. (nach Bühner, 2011, S. 37).
Wichtige Messtheorien in der Psychologie:
Mengentheoretische Definition von Messen und
Skalenniveaus
Klassische Testtheorie (KKT, Gulliksen, 1950, Lord & Novick, 1968) und Weiterentwicklungen (z.B. LST-Theorie)
Probabilistische Testtheorie (PTT)
Beschreibe einerseits das reflektive Modell zur Operationalisierung von Variablen und Items sowie das Formative Modell; Vergleiche die Modelle, wo liegen Unterschiede?
Das reflektive Modell und das formative Modell sind zwei Ansätze zur Operationalisierung von Variablen und Items in der empirischen Forschung. Sie unterscheiden sich in der Art und Weise, wie sie die Beziehung zwischen den beobachtbaren Indikatoren und den latenten Konstrukten interpretieren.
eigene Notizen:
reflektives Modell:
manifeste Variablen = homogen
reflektive Indikatoren(Indikatoren =Messgrößen) -> Reflektionen, die Item 1,2,3 wiederspiegeln/reflektieren
beachte: In einem reflektiven Modell spiegeln die Indikatoren (Messgrößen) die latente Variable wider (latente Variable = Konstrukt) ; die latente Variable beeinflusst die Indikatoren
Beispiel: latente Variable/Konstrukt = Zufriedenheit am Arbeitsplatz; Indikatoren/Messgrößen =
Zufriedenheit mit dem Gehalt.
Zufriedenheit mit den Arbeitsbedingungen.
Zufriedenheit mit den Aufstiegschancen.
—> beeinflusst durch “Zufriedenheit am Arbeitsplatz” (Konstrukt)
formatives Modell:
manifeste Variablen = heterogen
formative Indikatoren -> sie formen die latente Variable (das Konstrukt)
Indikatoren = unabhängige Variablen, die das latente Konstrukt erklären (z.B. “sozialer Einfluss auf Kaufverhalten” als latentes Konstrukt, geformt von UVs:
Anzahl der Freunde, die das Produkt empfohlen haben.
Anzahl der positiven Bewertungen des Produkts auf sozialen Medien.
Häufigkeit der Teilnahme an Empfehlungsgesprächen über das Produkt.
—> Formen “sozialen Einfluss auf Kaufverhalten”(Konstrukt)
Messtheorie: Wie sieht der Prozess aus, wenn wir beispielsweise 3 Items haben, die eine hohe Interkorrelation haben, wir aber keine Korrelation zwischen den Items haben wollen? (Abb. F. 13)
-> Konstanthaltung der latenten Variablen auf einem festgelegten Wert
Mengentheoretische Definition des Messens: Definiere: Was bedeutet “Messen”?
Definition: Messen ist eine Zuordnung von Zahlen zu Objekten oder Ereignissen, sofern diese Zuordnung eine homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ ist.
eig Notizen: Zusammengefasst bedeutet die Definition, dass Messen in der empirischen Wissenschaft darin besteht, numerische Werte den Beziehungen zwischen Objekten oder Ereignissen zuzuordnen, solange diese Zuordnung die Struktur und Beziehungen der realen Welt beibehält und somit eine quantitative Darstellung der empirischen Relationen ergibt.
Abbildung zur Veranschaulichung der mengentheoretischen Definition des Messens. (Quelle: Sedlmeier & Renkewitz, 2018, S. 67, ergänzt durch Morgenroth): Wie sieht diese Abbildung aus? Beschreibe! Welche Relative stehen in Verhältnis zueinander?
Messtheoretische Probleme: Definiere das “Repräsentationsproblem”!
Das Repräsentationsproblem betrifft die Frage, ob ein bestimmtes Merkmal überhaupt messbar ist (z.B. soziale Intelligenz), d.h. ob für ein empirisches Relativ eine homomorphe Abbildung gefunden werden kann. Dies ist an die Erfüllung bestimmter messtheoretischer Axiome gebunden, z.B. Transitivität: Wenn gilt: a > b und b > c, dann muss auch gelten: a > c). Die empirische Prüfungen solcher Axiome ist in der Psychologie häufig nicht möglich (→ Messen per fiat)
eig Notizen: Das Repräsentationsproblem dreht sich darum, ob wir abstrakte Konzepte messbar machen können. In der Psychologie nutzen wir Indikatoren, um solche Konzepte zu erfassen, z. B. Fragen zur sozialen Intelligenz. Wir prüfen, ob die Indikatoren tatsächlich das Konzept widerspiegeln, indem wir analysieren, wie sie miteinander zusammenhängenDoch es ist oft schwer, solche Prinzipien empirisch zu überprüfen. Manchmal wählen Forscher methodische Ansätze, die auf Theorie und Fachwissen beruhen, ohne die Prinzipien ausführlich zu testen. Dies birgt das Risiko, dass die Messung nicht alles Wesentliche einfängt oder von der Theorie abweicht.
Messtheoretische Probleme: Definiere das “Eideutigkeitsproblem”!
Das Eindeutigkeitsproblem: Wie können Messwerte transformiert werden, ohne dass die in ihnen enthaltene Information verloren geht?
Das Eindeutigkeitsproblem betrifft die Frage, wie wir Messwerte so verändern können, dass die Informationen, die sie enthalten, nicht verloren gehen. Es geht darum, wie wir Daten manipulieren/transformieren können, ohne ihre Bedeutung zu verfälschen.
Messtheoretische Probleme: Definiere das Bedeutsamkeitsproblem!
Das Bedeutsamkeitsproblem: Welche mathematischen Operationen mit Messwerten führen zu empirisch sinnvollen Aussagen?
Das Bedeutsamkeitsproblem befasst sich damit, welche mathematischen Operationen mit Messwerten durchgeführt werden können, um empirisch sinnvolle Aussagen zu generieren. Es geht darum, welche Art von Berechnungen und Analysen wir anstellen können, um aus den Daten tatsächlich bedeutungsvolle Erkenntnisse zu gewinnen.
Tabelle zu den Eigenschaften der wichtigsten Skalenniveaus: Welche Skalenniveaus haben wir kennengelernt? Nenne zu jedem Skalenniveau: 1. mögliche Aussage; 2. zulässige Transformationen; 3. Beispiele; 4. Lagemaße !
Klassische Testtheorie: Wie sieht der Ziehungsprozess im Rahmen der klassischen Testtheorie aus?
eig Notizen:
In der klassischen Testtheorie bezieht sich der Ziehungsprozess auf die Annahme, dass die beobachteten Testergebnisse das Ergebnis einer Kombination aus wahren Fähigkeiten und zufälliger Fehler sind. Das bedeutet, dass die wahren Fähigkeiten einer Person (z. B. Intelligenz, Wissen) mit Messfehlern vermischt sind.
Kurz gesagt, bei der Anwendung der klassischen Testtheorie wird angenommen, dass die beobachteten Testergebnisse aus der Summe von wahren Fähigkeiten und zufälligen Fehlern entstehen. Dieser Ansatz bildet die Grundlage für die Berechnung von Reliabilität und Validität in der psychometrischen Forschung.
Annahmen der klassischen Testtheorie: Welche Grundannahmen/Definitionen gibt es hier zu nennen? (2)
Tipp:
gemittelter Wert
Messfehler
Definitionen
Der gemittelte Messwert (= Erwartungswert) einer Person entspricht seinem wahren Wert.
Der Messfehler einer einzelnen Messung ist definiert als die Abweichung zwischen dem beobachteten Wert und dem wahren Wert.
Annahmen der klassischen Testtheorie: Welche Folgerungen lassen sich hier ableiten (7). (wichtig für Klausur->KTT verstehen)
Varianz der beobachteten Messwerte entspricht was?
Wie setzt sich der beobachtete Wert zusammen?
Erwartungswert des Messfehlers ist gleich?
Womit korrelieren Messfehler nicht?
Wie setzt sich Varianz der beobachteten Werte zusammen?
Messfehler eines Tests A korreliert nicht mit…?
Folgerungen
Die Varianz der beobachteten Messwerte einer Person entspricht der Fehlervarianz. Wären die Messungen fehlerfrei, würde immer derselbe wahre Wert als Messwert resultieren.
Der beobachtete Wert setzt sich additiv zusammen aus dem wahren Wert und dem Messfehler.
Der Erwartungswert des Messfehlers über Personen und Situationen ist Null.
Die Messfehler korrelieren nicht mit dem wahren Wert.
Die Varianz der beobachteten Werte setzt sich additiv zusammen aus der Varianz der wahren Werte und der Fehlervarianz.
Die Messfehler eines Testes A korrelieren nicht mit den wahren Werten eines Testes B.
Die Messfehler eines Testes A korrelieren nicht mit den Messfehlern eines Testes B.
Was bedeutet noch mal “Varianz” in der Statistik?
In was wird die Gesamtvarianz einer Untersuchungsvariable zerlegt in einem Experiment?
Was ist der systematische Fehler?
In der Statistik bezeichnet die Varianz eine Maßzahl, die die Streuung oder Variation einer Stichprobe oder einer Verteilung um ihren Durchschnitt (Mittelwert) herum misst. Sie gibt an, wie weit die einzelnen Datenpunkte von ihrem Durchschnitt entfernt sind.
Beschreibe das Beispiel: Beobachtungswahrscheinlichkeiten von Testergebnissen einer Person bei wiederholter Testung
(Intelligenztest mit 4 dichotomen Items) bei drei unterschiedlich hohen Reliabilitäten/Messfehlern. Wo ist die Reliabilität am niedrigsten und wo am höchsten?
A B C
dieselbe Person wird 5-mal getestet
es gibt 4 Items die dichotom sind, der Test wurde 5 mal durchgeführt: 5 Messergebnisse
Grafik A: Reliabilität am niedrigsten; Reliabilität = 0 ; Messfehler = 1,0
kein Wert der häufiger vorkommt -> geamter Wertebereich kommt gleich häufig vor!
Grafik B: Reliabilität am höchsten = 1,0 ; Messfehler = 0
Grafik C: R = ca. mittlerer Bereich
Wie lauten die Hauptannahmen der KTT zu Messfehlern?
Welche verschiedenen Modelle der KTT können unterschieden und wofür sind sie relevant?
Die Hauptannahmen der KKT zu Messfehlern sind
a) lokale Unabhängigkeit (keine Korrelationen zwischen Messfehlern verschiedener Items) und
b) Messfehler sind eine Zufallsvariable.
Darüber hinaus können verschiedene Modelle unterschieden werden:
essenziell parallel
essenziell tau-äquivalent
Tau-kongenerisch
Diese Modelle sind relevant für die Art der Reliabilitätsschätzung
Erkläre die Modelle der KTT genauer:
Essenziell parallel
Essenziell Tau-äquivalent
Essenziell parallel: Dieses Modell geht davon aus, dass die Testitems unterschiedliche Schwierigkeiten haben, aber im Wesentlichen den gleichen linearen Zusammenhang zwischen den wahren Fähigkeiten und den Testergebnissen aufweisen. Es erlaubt unterschiedliche Anstiege (Diskriminierungsfähigkeiten) für die Items, aber die Richtung der Beziehung bleibt parallel.
Essenziell Tau-äquivalent: Hier wird angenommen, dass die Testitems die gleiche Diskriminierungsfähigkeit (Tau) haben und in ihren Schwierigkeiten variieren dürfen. Die Items sind nicht zwangsläufig parallel, aber sie sind in Bezug auf ihre Korrelation mit der wahren Fähigkeit äquivalent.
Tau-kongenerisch: Dieses Modell erlaubt unterschiedliche Diskriminierungsfähigkeiten (Tau) für die Testitems und auch unterschiedliche Schwierigkeiten. Es handelt sich um eine weniger restriktive Annahme als die anderen Modelle und erlaubt mehr Flexibilität in Bezug auf die Beziehung zwischen wahren Fähigkeiten und den Testergebnissen.
eig Notiz: Diskriminierungsfähigkeit = Sie misst die Fähigkeit eines Testitems oder einer Frage, zwischen Personen mit unterschiedlichen Fähigkeiten oder Merkmalen zu unterscheiden, z.B. gibt sie an, wie gut eine bestimmte Frage in einem MC-Test dazu in der lage ist, zwischen Personen mit hoher vs niediriger Intelligenz zu unetrscheiden! ->Eine hohe Diskriminierungsfähigkeit bedeutet, dass Personen mit höheren Fähigkeiten eher die richtige Antwort wählen als Personen mit niedrigeren Fähigkeiten.
“Wie groß ist der Messfehler einer einzelnen Messung?”: Beschreibe die Äquivalenzhypothese des Standardmessfehlers.
Die "Äquivalenzhypothese des Standardmessfehlers" bedeutet:
Der Standardmessfehler einer geschätzten Populationseigenschaft sollte in verschiedenen Bedingungen oder Gruppen ähnlich sein.
Die Präzision einer Schätzung bleibt unabhängig von den Umständen konstant.
Es sichert gleichbleibende statistische Unsicherheit bei Schätzungen, unabhängig von Bedingungen oder Gruppen.
Wichtig für konsistente Vergleiche und Interpretation von Ergebnissen zwischen verschiedenen Situationen.
Der beobachtete Messwert einer Person ist der beste Schätzer für den (unbekannten) wahren Wert
Der Messfehler ist für jede Person gleich groß. → Bestimmung des Standardmessfehlers:
Schritt 1: Bestimmung der Fehlervarianz.
Schritt 2: Die Wurzel aus dieser Formel stellt die Fehlerstreuung dar und wird als Standardmessfehler bezeichnet
Bestimmung eines Konfidenzintervalls um einen Messwert:
Die Schülerin Martina erzielte in dem Intelligenztest I-S-T 2000 R (Liepmann, Beauducel, Brocke & Amthauer, 2007) einen Wert von IQ = 111. Der Test ist so normiert, dass Mü = 100 und delta = 15. Die Reliabilität wird mit ptt = 0.94 angegeben. Bestimme ein zweiseitiges 95-%-Konfidenzintervall unter Heranziehung des Standardmessfehlers. F 23
Wichtig für Klausur (aber verstehe ich nciht wirklich?!)
eig Notizen: Um ein Konfidenzintervall um einen Messwert zu bestimmen, folge diesen Schritten:
Bestimmung des Standardmessfehlers (SEM): Der Standardmessfehler (SEM) kann mit der Formel SEM = delta / √ptt berechnet werden. In diesem Fall: delta = 15, ptt = 0.94 SEM = 15 / √0.94 ≈ 4.878
Berechnung des Konfidenzintervalls: Ein zweiseitiges 95-%-Konfidenzintervall um den Messwert wird mit der Formel: Konfidenzintervall = Messwert ± (Z-Wert * SEM) Dabei ist der Z-Wert für ein 95-%-Konfidenzintervall etwa 1.96.
Konfidenzintervall = 111 ± (1.96 * 4.878) ≈ 111 ± 9.554
Interpretation: Das berechnete Konfidenzintervall ist 101.446 bis 120.554. Das bedeutet, dass wir mit 95 %iger Sicherheit sagen können, dass Martinas tatsächlicher Intelligenzwert zwischen 101.446 und 120.554 liegt, basierend auf den gegebenen Testnormen und der Reliabilität.
Hinweis: Bei der Berechnung von Konfidenzintervallen ist es wichtig, die Standardabweichung der Population (delta) und die Reliabilität (ptt) korrekt zu verwenden, um genaue Schätzungen zu erhalten.
Beschreibe die Darstellung eines einseitigen und zweiseitigen 95%-Konfidenzintervalls auf Basis des Standardmessfehlers.
Was ist der Unterschied zwischen einseitigem vs. zweiseitigem Testen hier?
Ein einseitiges Konfidenzintervall gibt den Bereich an, in dem der wahre Wert eines Parameters mit einer bestimmten Wahrscheinlichkeit liegt, entweder oberhalb oder unterhalb des geschätzten Werts.
Ein zweiseitiges Konfidenzintervall hingegen gibt den Bereich an, in dem der wahre Wert des Parameters mit einer bestimmten Wahrscheinlichkeit liegt, unabhängig davon, ob er über oder unter dem geschätzten Wert liegt.
—>Zweiseitiges Konfidenzintervall: Ein zweiseitiges Konfidenzintervall wäre nützlich, wenn du eine breitere Einschätzung des Intelligenzwerts wünschst, ohne eine bestimmte Richtung zu bevorzugen. Dies gibt dir einen Bereich an, in dem der wahre Intelligenzwert mit einer gewissen Wahrscheinlichkeit liegt, egal ob er höher oder niedriger ist als der geschätzte Wert.
Gebe eine allgemeine Übersicht zu den Gütekriterien von Testverfahren. Welches sind die Hauptgütekriterien?
Was ist die Probabilistische Testtheorie? Welche Modellparameter können unterschieden werden? (erkläre ruhig in eigenen Worten-> seine Folien versteht niemand)
Beim Messen werden den Ergebnissen von Personen in einem Test Zahlen zugeordnet, die das Verhältnis der Personenfähigkeiten oder Eigenschaften abbilden. Das einfache Zählen von richtigen Antworten in einem Test entspricht nicht dieser Anforderung, wenn keine erschöpfende Statistik vorliegt, welche die Betrachtung des Antwortmusters überflüssig macht. Um solche erschöpfende Statistiken zu erhalten, benötigt man Messmodelle, die Gegenstand der PTT sind.
Antworten auf Items werden als manifeste Symptome einer einzigen latenten Variable angesehen. Probabilistische Modelle treffen Annahmen darüber, wie eine Antwort auf ein Item zustande kommt. Dabei können verschiedene Modellparameter unterschieden werden: Fähigkeit einer Person, Itemschwierigkeit, Ratewahrscheinlichkeit, Itemtrennschärfe, oder Zugehörigkeit einer Person zu einer bestimmten Klasse von Personen.
einfacher (eig Worte/Notizen):
Stell dir vor, wir bewerten, wie gut Menschen in einem Test abschneiden. Wir verwenden Zahlen, um ihre Fähigkeiten zu zeigen. Aber nur die Anzahl der richtigen Antworten zu zählen, reicht manchmal nicht aus. Wir brauchen Modelle, die genauer sind.
->Probabilistische Modelle helfen dabei. Sie sagen, wie wahrscheinlich es ist, dass jemand eine Frage richtig beantwortet. Diese Modelle haben verschiedene Teile, die uns mehr Informationen geben, wie die Fähigkeit der Person, die Schwierigkeit der Fragen und wie gut die Fragen trennen.
Man denkt auch, dass die Antworten auf die Fragen von Menschen zeigen, wie gut sie in etwas sind, das wir nicht direkt sehen können. Dieses versteckte Ding nennen wir "latente Variable".
Probabilistische Modelle sagen, wie wahrscheinlich eine Antwort ist, basierend darauf, wie gut jemand in dieser versteckten Sache ist. Es gibt verschiedene Zahlen, die wir verwenden können, um diese Modelle zu verstehen, wie Fähigkeiten, Schwierigkeiten der Fragen, wie oft jemand richtig antwortet, wie gut eine Frage trennt oder zu welcher Gruppe jemand gehört.
Was ist “erschöpfende Statistik” und welche Messwerte liefert sie? (Wichtig für Klausur) (ähnlich zu vorherigen Karteikarte!)
Die "erschöpfende Statistik" in der Probabilistischen Testtheorie (PTT) bezieht sich auf die Verwendung aller verfügbaren Antwortdaten von Personen auf Testitems, um genaue Schätzungen der Modellparameter zu ermöglichen. Sie liefert Informationen über individuelle Antwortmuster und ermöglicht die Schätzung von Fähigkeiten, Item-Parametern (wie Schwierigkeit und Diskriminierungsfähigkeit) sowie anderen Eigenschaften.
Messwerte:
Fähigkeitsschätzungen: Sie ermöglicht die Schätzung der latenten Fähigkeiten oder Merkmale von Personen auf Basis ihrer Antwortmuster.
Item-Parameter: Sie erlaubt die Schätzung von Eigenschaften der Testitems, wie ihre Schwierigkeit, Diskriminierungsfähigkeit und die Rate, mit der die richtige Antwort gegeben wird.
Trennschärfe: Sie liefert Informationen darüber, wie gut ein Testitem zwischen Personen mit unterschiedlichen Fähigkeiten unterscheidet.
Wahrscheinlichkeiten der Antwortmuster: Sie berechnet die Wahrscheinlichkeiten, mit denen Personen bestimmte Antwortmuster auf die Testitems zeigen.
Zuordnung zu Gruppen: Sie kann auch Informationen darüber liefern, wie gut Personen in verschiedene Klassen oder Gruppen passen, basierend auf ihren Antwortmustern.
Was ist hier eindeutig zu interpretieren? Beschreibe! Wozu dient das Beispiel?
Beispiel für erschöpfende Statistik (Bühner, 2011, S.483) Weder die Summenwerte für Personenfähigkeit noch die Summenwerte für die Itemschwierigkeit sind eindeutig interpretierbar.
Beispiel für dichotome Itemantworten: Rasch-Modell (1PL-
Modell): Was besagt das “Rasch-Modell”? (5 Annahmen)-> erläutere strukturiert.
1. Annahme: Die Lösungswahrscheinlichkeit für ein Item hängt neben der Fähigkeit- oder Eigenschaftsausprägung der Person (Personenparameter ) von der Itemschwierigkeit (Itemparameter delta) ab.
2. Die Einheit für beide Parameter ist ein Logit. Dazu wird eine logarithmische Transformation der Odds-Ratios Lösungswahrscheinlichkeit zu Gegenwahrscheinlichkeit (siehe nächste Folie)
3. Der Wertebereich der Personen und Itemparameter liegen zwischen plus und minus unendlich. Werte mit negativem Vorzeichen kennzeichnen leichte Items bzw. Personen mit niedriger Merkmalsausprägung und umgekehrt.
4. Der Logit der Lösungswahrscheinlichkeit eines Items entspricht im Rasch-Modell der Differenz zwischen Personen- und Itemparameter.
5. Wird das Rasch-Modell nicht durch die Daten verworfen, sind die Items lokal stochastisch unabhängig. Das bedeutet, dass die Items homogen sind.
eig Notizen: (einfacher):
Stell dir vor, wir haben einen Test mit Fragen, auf die man entweder mit "richtig" oder "falsch" antworten kann.
Das Rasch-Modell sagt, dass die Wahrscheinlichkeit, dass jemand eine Frage richtig beantwortet, von zwei Dingen abhängt: wie gut die Person ist (ihre Fähigkeit) und wie schwer die Frage ist. Beides wird in Einheiten namens "Logits" gemessen, die uns zeigen, wie weit jemand oder etwas von einem Mittelpunkt entfernt ist. Ein negativer Logit bedeutet, dass etwas leichter ist oder jemand weniger Fähigkeit hat, und umgekehrt.
Im Rasch-Modell ist der Logit der Wahrscheinlichkeit, eine Frage richtig zu beantworten, einfach die Differenz zwischen der Fähigkeit der Person und der Schwierigkeit der Frage.
Wenn das Modell passt, sind die Fragen unabhängig voneinander und haben keine versteckten Muster. Das bedeutet, sie sind fair und gleichartig.
Beschreibe kurz den Prozess, wie ein Logit-Personenparameter zustande kommt.
Antwortmuster: Sammle die Antworten einer Person auf mehrere Testitems. Diese Antworten können entweder "richtig" oder "falsch" sein, je nach dem Format des Tests.
Modellierung: Verwende ein IRT-Modell wie das Rasch-Modell, um die Wahrscheinlichkeiten der Antwortmuster der Person aufgrund ihrer Fähigkeit zu modellieren. Das Modell berücksichtigt die Schwierigkeit der Items und die Fähigkeit der Person.
Maximum-Likelihood-Schätzung: Nutze statistische Methoden wie die Maximum-Likelihood-Schätzung, um den Logit-Personenparameter zu finden, der am besten zu den beobachteten Antwortmustern passt. Dieser Parameter repräsentiert die Fähigkeit der Person auf der logarithmischen Skala der Logits.
Interpretation: Der ermittelte Logit-Personenparameter zeigt an, wie stark die Person in Bezug auf das gemessene Merkmal ist. Ein höherer Logit-Wert deutet auf eine höhere Fähigkeit hin, während ein niedriger Wert auf eine niedrigere Fähigkeit hinweist.
Darstellung der ICC (Item-Characteristic Curve): Beschreibe kurz. Wie sieht die Darstellung aus? Wie verlaufen die Kurven?
Vergleiche die klassische Testtheorie mit der probabilistischen Testtheorie! Was sind Vorteile und NAchteile der PTT?
Vergleich KTT/PTT: (vgl. Bühner, 2011, S. 556ff.)
PTT hat eine psychologische Fundierung im Unterschied zur KTT (reine Messfehlertheorie)
Ca. 95% aller Tests sind derzeit nach der KTT konstruiert (Rost, 1999).
Vorteil PTT:
bei Modellgeltung werden tatsächlich homogene Eigenschaften/Fähigkeiten gemessen (vgl. mengentheoretische Definition des Messens).
Der Standardmessfehler kann in der PTT genauer als in der KTT geschätzt werden.
Itemauswahl insbesondere bei hohen niedrigen Itemschwierigkeiten funktioniert in der PTT besser.
Nachteil PTT:
PTT benötigt große Datensätze
Generierung geeigneter Items erfordert bei PTT höheren Aufwand.
Was sind Latent-state-trait-Modelle (LSTM)? Worin besteht der Grundgedanke?
(Wichtig für Klausur)
LST-Modelle beschäftigen sich mit der Frage, wodurch sich Messwerte über die Zeit verändern (z.B. Verlaufsdiagnostik im Rahmen von Psychotherapie)?
Der Grundgedanke besteht darin, dass durch wiederholte Messungen Veränderungen objektiv, d.h. unabhängig von der subjektiven Wahrnehmung des Probanden erfasst werden können.
In der klassischen Testtheorie ist Veränderungsmessung ein Problem, da angenommen wird, dass der wahre Wert über die Zeit konstant ist und der Messfehler unsystematisch (Zufallsvariable) ist.
Beispiel: Welche 4 Ursachen könnten die Veränderungen der beobachteten Ausprägung des Traits Neurotizismus haben? F.33
wichtig für Klausur: Unterscheidung der Ursachen
Latent-state-trait-Modelle (LSTM): Welcher Term ergänzt das Verknüpfungsaxiom der KTT in diesem Modell? Wie ist die Beziehung zwischen Trait und State?
Beschreibe die schematische Darstellung eines Single-Trait-Multi-State-Modells; Wovon geht das Model aus?
Nenne Einige Vorteile von LSTM-Modellen!
Eine genauere Schätzung der Trait-Variable, unabhängig von der Situation
eine genauere Schätzung der Reliabilität (= Konsistenz)
→ Da die Konsistenz niedriger ist als die klassisch berechnete Reliabilität, ergeben sich breitere Konfidenzintervalle um einen einzelnen Messwert. Das kann für die Einzelfalldiagnostik von Bedeutung sein.
Welche Hinweise gibt es für die Wahl des geeigneten Messinstruments ? (7 Hinweise)
(Wichtig für Klausur-> Hinweise kennen, wie wähle ich ein geeignetes Messinstruemnt für meine Unetrsuchung aus?)
Zusammenfassung Folie 37+38
Theorie hat zentrale Bedeutung für die Auswahl des Messinstruments
angestrebtes Ziel des Messens: stabiler Trait oder variabler State?
Prüfen und VErgleichen psychometrischer Qualität potentieller Messinstrumente
Messinstrumente verwenden, die international gebräuchlich sind-> Vergleichbarkeit der Studienergebnisse
bei englishcer Sprache nach psychometrisch validierter deutscher Fassung suchen
Online-Studien: Short Form des Instruments?
Messinstrument = nicht automatisch Fragebogen oder TEst-> auch an experimentelle Methoden denken
Hinweise für die Wahl des geeigneten Messinstruments: erkläre an dem Beispiel Rumination! (nur als Beispiel)
Beispiel Rumination: Response Styles Theory (RST von Nolen-Hoeksema 1987, 1991). Ursprung der RST: Geschlechtsunterschiede in der Bewältigung depressiver Symptome zwischen Männern und Frauen erklären. Rumination „beinhaltet das wiederholte Konzentrieren auf die Tatsache, dass man depressiv bzw.niedergeschlagen ist; seine Symptome der Depression, die Gründe, Bedeutungen und Konsequenzen der depressiven Symptome“ (Nolen-Hoeksema, 1991, S. 569). Rumination wird als dysfunktional betrachtet, da dieses Denken nicht zum aktiven Lösen der Problems beiträgt, sondern stattdessen um den eigenen Zustand (die Symptome) kreist. Messinstrument auf Basis der RST: Response Styles Questionnaire (RSQ) mit einer 22-Item-Ruminationsskala. Kritik von Treynor et al. (2003): 1. 12 Items der Ruminationsskala erfassen teilweise Depressivität, daher hohe Korrelationen Mit Depressionsmaßen wie dem BDI (Diese Items wurden daher aussortiert). 2. Unterscheidung zwischen zwei Facetten von Rumination: Brooding und Reflection. Während brooding weiterhin als maladaptiv betrachtet wird, führt reflection zu einer aktiven Auseinandersetzung mit dem Problem.
Welche Experimentellen Standardparadigmen kennst du?
Hinweis: Allgemeine Psychologie
Stroop-Paradigma
Posner Cuing-Paradigma
Semantisches Priming
Affektives Priming
Weitere Paradigmen und Prozeduren vgl. Bittrich & Blankenburger (2011, S. 58ff.)
Zuletzt geändertvor einem Jahr