Es gibt zwei Stufen / Ziele des Testens Generell
Individuelle Test-scores sollen minimal fehlerbehaftet sein
Populations Scores sollen minimal fehlerbehaftet sein
—> ILSAs wollen zweiteres —> wollen Charakteristika der Population beschreiben
Was sind LSA
standardisierte Studien zur Untersuchung großer Populationen
meist im Bildungsbereich
liefern direkt vergleichbare Daten über Individuen verschiedener demografischer Gruppen & ermöglichen systematische Analysen
methodisch hochgradig komplex
PISA Ziele
Vergleich
Stärken und Schwächen im Bildungssystem finden
Faktoren finden, die Bildungserfolg beeinflussen
Politische Maßnahmen zur Verbesserung entwickeln
Zielpopulation PISA
15J3m bis 16J2m mit 6 Jahren formaler Schulbildung
Ausschlussquote max. 5% der Zielpopulation
Probabilistische Stichprobe
Stratifizierte Stichprobe
Zufallsstichprobe
Einfache Zufallsstichprobe
Voraussetzung: alle Individuen der Population sind bekannt (nur so ist Ziehungswahrscheinlichkeit bekannt)
Urnenmodell mit Zufallsziehung
jedes Individuum gleiche Ziehungswkt
unverzerrte Schätzung von Populationsparametern möglich
Weights bei einfacher Zufallsstichprobe
inverse der Wkt gewählt zu werden
SUmme der weights aller Individuen = Populationsgröße
LSA - warum keine einfachen Zufallsstichproben
oft würden nur wenige Individuen pro Schule gezogen
von sehr vielen Schulen
zu teuer und nicht durchführbar
Statistische Analysen der Zielvariablen in Abhängigkeit von Schülern/Lehrern/Schulen zu unpräzise bzw. unmöglich
sehr große Stichprobe wäre nötig, um mit hoher Wahrscheinlichkeit genug Substichproben zu erheben z.B. Jugendliche mit Migrationshintergrund in Sachsen
Strata
Ausprägungen der Variablen
=Schichten
Innerhalb der Strata ist die Auswahl der Individuen per Zufall oder vollständig
Effizienter als einfache Zufallsstichprobe
Unverzerrte Schätzung von Populationsparametern
ANTEILIG viele Personen innerhalb der Strata
LSA - warum keine rein stratifizierten Zufallsstichproben
rein stratifiziert wäre ineffizient bei LSAs, da viele Schulen mit nur wenigen Individuen gezogen würden, um Bayern x Hauptschule x Jungen zu besetzen
um alle Strata besetzten zu können viele Schulen mit nur wenigen Individuen
organisatorisch aufwendig
PPS
School sampling proportional to size
größere Schulen werden mit höherer Wahrscheinlichkeit gewählt als kleinere
schüler in großen Schulen haben eine geringere Wahrscheinlichkeit gewählt zu werden
-> keine Variation in finalen student weights
-> weniger statistische Unsicherheit als zweistufiges randomisiertes Stichprobenziehen weil nicht zufällig viele kleine Schulen gezogen werden und Schüler so gleichmäßiger verteilt sind
Warum wird bei LSAs kein Standardfehler berechnet?
basieren auf der Berechnung einer einzelnen zufälligen Stichprobe -> Fehler würde unterschätzt
wäre nur angebracht wenn between school variance = 0
dann wäre auch egal woher die schüler im zweiten Zug gezogen werden ABER in Deutschland z.b. erklärt die between school variance 97% der varianz
Was ist das Vorgehen bei Replikationsmethoden
eine Statistik wird für große Anzahl leicht verschiedener Datensätze berechnet (immer versch. Teile der originalen Daten)
Variablität zwischen den Schätzwerten
Sampling variance Formel Jackknife for two-stage sampling
Jackknife Type 1: Stratified samples (TIMSS bis 2011)
Pseudo stratum zugeteilt (meistens 2 Schulen)
eine Schule pro Pseudo stratum erhält das Gewicht 2, das andere 0
Jackknife Type 2: Stratified samples (TIMSS 2015)
unterschied zu vor 2015: jede Schule hat in mindestens einer Replikationsschätzung ein Gewicht von 0 und in einer anderen ein Gewicht von 2 erhält, was eine gleichmäßigere Verteilung über die Replikationen ermöglicht.
Balanced Repeated Replication
Jackknife: nur eine Schule wird für jede Replikation entfernt
BRR: in jedem Pseudo Stratum eine Schule mit weight von 0 und eine Schule mit weight von 2
Fay’s modification
wird in PISA benutzt
Faktor k wird eingeführt (bei PISA k= 0.5)
weights low: 0 + k
weights high: 2 - k
Sampling variance Jackknife Type 1, 2, BRR with Fay’s Factor, bootstrap
Factor A:
1 für Jackknife Type 1
2 für Jackknife Type 2
Bei BRR mit Faktor k = 0.5
Bei Bootstrap:
Warum sind Summenscores bei Testungen nicht ausreichend?
direkte Rückschlüsse auf was Schülerinnen wissen, sind nicht möglich
25% des Tests fragt zum Beispiel Hyperaktivität ab
50% zum Beispiel Unaufmerksamkeit
reiner Summenscore sagt nichts aus!
Kriteriumsorientierte Testwertinterpretation IRT
Hier kann man Latent-Trait-Werte (θ-Werte) mit inhaltlichen Kriterien verknüpfen.
Ein Kompetenzstufenmodell (z. B. in PISA) kann definieren, dass eine bestimmte Fähigkeit erst ab einem bestimmten θ-Wert erreicht wird.
Delta: Item-Schwierigkeiten -> Punkt, an dem eine Person eine 50% Chance hat, ein Item richtig zu beantworten
Veränderungen Testheftdesign PISA
von Balanciertes unvollständiges Block-Design mit Multi-Matrix Desing —> genau gesagt: Youden-Square-Design
zu: Integrated Design
MST-Design PISA 2018
zwei Designs mit jeweils drei Stufen
Verzweigung basiert auf Anzahl korrekter Antworten
Design 1 machen 75% —> 64 Pfade
Design 2 machen 25% —> 128 Pfade
zufällig, wer welches macht
Hochinformatives adaptives Testen Grundprinzip
Maximale Adaptivität bei Berücksichtigung aller PISA-spezifischen Einschränkungen
Testlänge, Itemanteile pro Inhaltsbereich, Anteil menschlich codierter Items, Itemanteile je Antwortmodus
viel aus dem computerisierten adaptiven Testen kombiniert
fast 3x so hohe Testinformation möglich, wenn HAT + Optimaler item pool
Konventionelle Point estimators
MLE (Maximum Likelihood Estimation)
WLE (Weighted Likelihood Estimation): Variante von MLE, die Verzerrungen reduziert.
EAP (Expected A Posteriori Estimation): Nutzt eine Bayes’sche Methode und priorisiert realistische Werte.
—> Sind perfekt auf Individualebene, auf Populationsebene hat man systematischen Verzerrungen
Plausible Values (PVs)
ermöglichen eine Messfehlerfreie Berechnung von Charakteristika auf Populationsebene
Es wird eine posterior distribution für Kompetenzscores berechnet
Schüler:innen werden aus dieser Verteilung gezogen -> aus individueller posterior distribution, die alle Hintergrundinfos miteinbezieht
auf individualebene wäre es unangemessen PVs zu verwenden, auf Populationsebene wichtig!
General Form (latent regression) Background Model
PVs missing values
PISA und TIMSS kodieren die missing values als dummy variablen um
miteinbeziehen vieler Effekte und Interaktionen
Dimensionalität der Prädiktorvariablen reduzieren mit PCA (90% erklärte Varianz)
5 oder 10 PVs werden pro person gezogen und in der public used file ablegen
PVs in komplexen statistischen Analysen verwenden
Statistik für jeden PV berechnen
Aggregieren kann kompliziert werden, v.a. wenn vorher multiple imputation verwendet wurde bei missing values
hier werden Pooling formulas verwendet
6 Bausteine für LSA Planung
methodische Kenntnisse
Forschungsfragen
Daten
Angestrebte Interpretationen
SOftware
Studienplanung
Was für Rahmenbedingungen müssen berücksichtigt werden wenn sich für ein Forschungsthema entschlossen wird
vorhandene Befunde
erwartbarer Erkenntnisgewinn
zeitliche Ressourcen
Datenverfügbarkeit
Spezielle Software (Zugang und individuelle Fähigkeiten)
keine Laborexperimente und keine randomisierte Zuteilung zu Versuchsbedingungen!
Effekte sind hier bereits eingetreten! LSAs liefern eine Momentaufnahme der resultierenden bedingten Kompetenzverteilung
Verteilungen können beschrieben, verglichen, in einen Kontext gestellt werden
ABER: keine kausalen Schlüsse möglich!
Berechnen d. 95% Konfidenzintervalls
mit Standardfehler
Latente Kompetenzverteilung
geschätzte Kompetenzverteilung, die indirekt geschätzt wird
Posterior-Kompetenzverteilung
Kompetenzverteilung, die genutzt wird, um die Kompetenz eines Individuums zu schätzen
Rahmenbedingungen durch Background modell definiert
6 Schritte der Standardfehlerberechnung beim MITTELWERT
Statistik pro PV berechnen inklusive Student weights und allen Replikationsgewichten mit Jackknife
Finale Schätzung der Statistik berechnen (über alle PVs hinweg)
Finale Stichprobenvarianz berechnen (über alle PVs hinweg)
Imputationsvarianz berechnen (Abweichung einer PV von dem MW der restl. PVs)
Gesamte Fehlervarianz berechnen (Stichprobenvarianz + Imputationsvarianz)
Standardfehler berechnen (Wurzel der Gesamten Fehlervarianz)
Standardfehler bei PV-based Schätzungen
Fehlervarianz setzt sich aus Stichprobenvarianz und Imputationsvarianz zusammen
Was ist die Standardabweichung in einem LSA
die Wurzel der Stichprobenvarianz
Definition Kompetenzstufen
Segmente auf einer kontinuierlichen Kompetenzskala
hier gibt es Cut-off Werte, die die Schwelle zwischen Levels beschreiben
Schülern Kompetenzstufen zuweisen
Da jeder Schüler mehrere PVs hat, geht nicht für einen Schüler -> MW der PVs nehmen wäre unzulässig
jeder PV wird zugeteilt
dadurch keine Verzerrungen auf Populationsebene
Generelle Regeln zu Abhängigen und Unabhängigen Stichproben
es müssen nur Kovarianzen berücksichtigt werden bei Variablen, die explizit Stratifizierungsvariablen sind
rest: wurde unabhängig gezogen
Ignorieren hierarchischer organisation konsequenzen
verzerrte Ergebnisse
Überschätzen der Varianz auf Individualebene
Was modelliert eine Mehrebenenanalyse
fixe Effekte (durchschnittliche Effekte)
zufällige Effekte (zwischen Gruppen variierende Effekte)
ILSAs Status Quo
sehr erfolgreich
nutzen state of the art methoden und stoßen innovative methoden an
ILSAs Future
Bildungssysteme verändern sich schnell
ILSAs müssen sich anpassen
vor allem heute bei der Digitalisierung in Bildung
wichtig, heute dranzubleiben
5 Challenges von ILSAs
1. Neue Konstrukte aufnehmen/weiterentwickeln —> diese korrekt zu operationalisieren
2. Berücksichtigen von heterogenen Leistungen —> MST, low boredom daydreaming, high test-taking effort —> mehr flexibilität
3. Messen und statistisches modellieren von Kontextvariablen
4. Transparency of data and methods -> z.T. für Cutoff Kriterien keine Angabe, warum -> Technische Reports werden viel später veröffentlicht als die Ergebnisse publiziert werden, und software nicht immer leicht nutzbar
5. Validation of test score interpretations
haben einen Internationalen Expertenausschuss
deshalb wahrscheinlich schneller und flexibler als Bildungssysteme
dennoch muss es guidelines geben, wann und wie Konstrukte nicht mehr fortgeführt werden muss eingeführt werden
Hautpfokus liegt auf Schulleistungen
Fragebogenitems werden kurz und ohne Konditionierung mit Schätzungen wie ML analysiert
Dabei bekommen nicht-kognitive Variablen zunehmend Aufmerksamkeit
Problem: Fehlende Daten und Messfehler bei den Kontextvariablen verzerren Zusammenhänge
nicht-kognitive Outcomes werden nicht für Messfehler korigiert —> dadurch weniger aussagekräftig
PPS, stratifizierung, zweistufig
Last changed2 months ago