Testwert
= numerisches Testresultat einer Testperson
—> auch Rohwert, ergibt sich unmittelbar aus registrierten Antworten
—> Rohwerte sind uneindeutig (ohne weitere Infos leicht Fehlinterpretation möglich)
Vergleichsmaßstäbe zur Testwertinterpretation nötig
—> Merkmalsverteilung von Bezugsgruppen (normorientierte Testwertinterpretation)
—> psychologisch-inhaltliche Beschreibung (kriteriumsorientiert)
Bildung von Prozentrangnormen durch nichtlineare Testwerttransformation
nicht linear
= Prozentrang durch Transformation der Testverteilung der Bezugsgruppe gewonnen
Prozentrang
= wie viel % der Bezugsgruppe erzielt Testwert, der niedriger/ gleich Testwert Y der Testperson v
Perzentile
Perzentile = relative Position der MA einer Person in Normierungsstichprobe
—> z.B. 20 Perzentile = 20& Testpersonen unterschritten/ gleich
Quartile = 25% (1.), 50% (2.), 75% (3.)
Kriteriumsorientierte Testwertinterpretation
= Interpretation des Testwertes auf spezifisches inhaltliches Kriterium
egal, wie viele Personen Kriterium erfüllen
Schwellenwert vorab definiert (erreicht/ überschritten = Kriterium gilt als erfüllt):
Receiver-Operating-Characteristics-Analyse (ROC-Analyse)
—> zur Bestimmung optimaler Schwellenwert
—> Kriterium muss extern ermittelt sein
—> ROC-Kurve zeigt Beziehung Sensitivität/ Spezifität
—> Youden-Index (YI = Sensitivität + Spezifität - 1)
—> groß = gute Trennung beider Gruppen
—> ROC-Analyse ) verteilungsfrei
Bezug des Testleiters auf Aufgabeninhalte
kriteriumsorientierte Interpretation bei Definition der Aufgabengrundgesamtheit
repräsentative Aufgabenstichprobe wichtig
häufiger Fehler: Interpretation anhand des theoretisch möglichen Wertbereiches der Skalen
Schwierigkeit eines Fragebogenitems wird durch verbale Formulierungen beeinflusst
differenzierte Interpretationsmöglichkeit mit IRT-Modellen
Normdifferenzierung
auf Angemessenheit der Vergleichsgruppe achte
klärt, wie spezifisch eine Vergleichs- bzw. Referenzgruppe zusammengesetzt sein soll
Kontrolle von Hintergrundfaktoren durch Normdifferenzierung (z.B. Ausgleich Übungseffekte, Alterseffekte, Geschlechtseffekte etc.)
Vergleich mit Mitbewerbern führt zu realistischen Erfolgseinschätzung
Überanpassung der Normen kann zu Fehleinschätzungen führen (Overadjustment) —> kann auch zu Zerrbild der Normalität entstehen lassen
Testeichung
= letzter Schritt der Testkonstruktion (macht Vergleichsmaßstab für normorientierte Testwertinterpretation)
zu normierende Testverfahren wird an Normierungsstichprobe/ Eichstichptobe durchgeführt
Ad-hoc-Stichprobe
= anfallende Stichprobe, nicht repräsentativ, sondern bietende Gelegenheiten gesucht um Testdaten für Normierungsstichprobe zu sammeln
Dokumentation der Normen im Testmanual
Geltungsbereich der Normen (Definition der Zielpopulation)
Erhebungsdesign/ Grad der Repräsentativität der Zielpopulation
Stichprobenumfang/ -zusammensetzung
Deskriptivstatistiken
Jahr der Datenerhebung
= Überprüfung der Gültigkeit von Normen nach spätestens acht Jahren —> Flynn-Effekt = mittlerer IQ ist über Jahre hinweg angestiegen
Teststandards
= Leitlinien, mit Zielsetzungen zur Entwicklung, Adaption, Anwendung,
Qualitätsbeurteilung psychologischer Test widerspiegeln
DIN 33430:2002-06
= Anforderungen an Verfahren und Einsatz berufsbezogene Eignungsbeurteilung
—> Richtlinieren/ Qualitätsstandards für psychologisches Testen
—> wendet sich an Auftraggeber, Auftragnehmer und Mitwirkende
—> Inhalt: Verfahrenshinweise, Objektivität, Zuverlässigkeit, Gültigkeit, Normwerte
Standards for Educational and psychological testing (SEPT)
= Standards for pädagogisches und psychologisches Testen)
—> aktuell 7. Fassung
—> v.a. Konstruktvaliditöt, IRT, Kriterien für Cut-off-Werte
—> Inhalt: Validität, Reliabilität/ Messfehler, Testentwicklung/ -revision, Skalierung/ Normierung, Testdurchführung/ -ausführung/ Ergebnisdarstellung, Testdokumentation
Standards für die Entwicklung und Evaluation psychologischer Tests
Validität = empirische Validitätsbelege sind alle 8 Jahre auf Gültigkeit zu prüfen
Reliabiltät = Überprüfung alle 8 Jahre und Angabe der Bestimmungsmethoden
Itemgenerierung und Testentwicklung = für jeden Subtest Inhaltsbereich und Beispielitem angeben
—> zugrunde liegendes IRT-Modell beschrieben
Normen/ Testdokumentation = Repräsentative Normierungsstichprobe
—> Testmanual muss alle relevanten Informationen erhalten
Richtlinien für Testanwendung und Kompetenzen der Testanwender
Testbeurteilungssystem des Testkuratoriums (TBS-TK)
Vorteile: höhere Transparenz/ Objektivität; standardisierte Bewertung, größere Vollständigkeit in Bezug auf relevante Aspekte, testübergreifende Vergleichsmöglichkeiten
3 Schritte:
—> Verfahrenshinweise auf grundsätzlicher Erfüllung nach DIN 33430 prüfen
—> Testkategorisierung nach ZPID und Merkmalen aus EFPA
—> Test anhand Besprechungs- und Beurteilungskategorien des Testkuratoriums bewerten
Besprechungs-/ Beurteilunsgkategorien: —> Objektivität, theoretische Grundlage, allgemeine Infos zum Test, Normierung, Zuverlässigkeit, Validität/ Gültigkeit, weitere Gütekriteren, Empfehlungen
Die „Standards for Educational and Psychological Testing“ im Überblick
Ziel: Kriterien und Maßnahmen für Konzeptionierung und Konstruktion, Einsatz und Evaluation von Tests unter Berücksichtigung Gütekriterien
aktuell 13. Fassung, Inhalt:
—> Grundlagen (Foundations), Merkmale der Testdurchführung (Operations), Testanwendung (Testing Applications)
Standards für pädagogisches Testen - Domäne
= fachinhaltliche Spezifität eines Gegenstands- oder Leistungsbereichs —> ähnliche Inhalte/ Themen abgegrenzt
Standards für pädagogisches Testen - Standards
= Empfehlungen und Richtlinien zur Entwicklung/ Anwendung von Tests
—> in verschiedenen Domänen einsetzbar (z.B. in Schulfächern Mathe, Physik)
Standards für pädagogisches Testen - Ziele
je nach Intention unterschiedliche Ziele
individuelle Ebene: Infos über Lernenden generiert und verschiedene Bezugsgruppen adressiert
institutionelle Ebene: Tests zum Zwecke der Qualitätskontrolle, analysieren
systemische Ebene
Low-Stakes-Testungen
High-Stakes-Testungen
Low-Stakes-Testungen = Leistungsmessungen, Ergebnisse ohne bedeutsamen Konsequenzen für Teilnehmer, meist freiwillig, z.B. Onlineumfrage
High-Stakes-Testungen = Leistungsmessung, Ergebnisse mit Konsequenzen für Teilnehmer (z.B. Zulassung für Studium)
formatives vs. summatives Testen
formatives Testen = Leistungsbeurteilungen, geben aktuellen Stand ab, Abgleich Lernziele
summatives Testen = Bericht über abschließenden Lernstand (Note auf Zeugnis)
Modell des pädagogischen Testens (Model of educatio- nal assessment)
– Administration (Administration)
– Wertung (Scoring)
– Aggregation (Aggregation)
– Generalisierung (Generalization)
– Extrapolation (Extrapolation)
– Evaluation (Evaluation)
– Entscheidung (Decision)
– Auswirkung (Impact)
Modell des pädagogischen Testens (Model of educatio- nal testing)
– Konzeptionelles Messmodell (Conceptual Models of Measurement)
– Test- und Aufgabenentwicklung (Test and Item Development)
– Testadministration (Test Administration)
– Testeinsatz (Test Use) – Testevaluation (Test Evaluation)
Assessment-Triade
Kognition (Cognition)
Beobachtung (Observation)
Interpretation
Validitätsstandards und pädagogisches Testen (Standards 1.0–1.25)
3 Cluster
= 3 Cluster mit 26 Standrads für Validität
Festlegung Verwendungszwecke und Interpretationen
Aspekte der Stichprobe und des Settings der Validieren
Spezifische Formen von Valididätsevidenzen (Analyse Testinhalt, Aufgaben-/ Testbearbeitung)
Weitere Implikationen der Standards für pädagogisches Testen
Fairness: Testdesign, Schutzmaßnahmen, Interpretation
Transparenz des Untersuchungs- und Interpretationsgegenstands (Konstrukte, Anforderungen, Inhalte)
Variation der Prüfungsformen (Berücksichtigung Lerngelegenheiten, Constructive Alignment)
Feedback = informative Rückmeldung durch Personen/ Gegenstand (Soll, Ist, Plan)
Standards für Forschungsethik
von AERA = Code of Ethics
Sensitivität
MA korrekt erkannt, z.B. korrekt als krank anerkannt (positiv)
Spezifität
MA richtig abgelehnt, z.B. korrekt als krank erkannt (negativ)
Standards zur Definition von Schwellenwerten
Angoff Verfahren: Wahrscheinlichkeit angeben, mit der Person item löst (z.B. borderline)
Bookmark Methode: items nach empirischer Schwierigkeit durch Experten ordnen lassen
AERO
Code of ethics
rechte untersuchungsteilnejmer, würde, Wohlergehen, regeln wissenschaftliche Praxis
Forschungsethik
Wirtschaftsethik
Last changed2 years ago