Definition Schulleistungstests von Ingenkamp (1997)
Schulleistungstests sind Verfahren,
mit deren Hilfe Ergebnisse geplanter und an Curricula orientierter Lernvorgänge
möglichst objektiv, zuverlässig und gültig gemessen
und durch Lehrende oder Beratende ausgewertet, interpretiert und für pädagogisches Handeln nutzbar gemacht werden können
Formen von Leistungstests
Formelle Leistungstests: von Experten entwickelte Tests: PISA, VERA, TIMMS
Informelle Leitungstests: von Lehrern nach festen Aufbaukriterien konzipiert
Informelle Tests : von Lehrern entwickelte Tests, orientiert al Lehrstoff, zur Überprüfung des Leistungssandes meist einer Klasse
Erfüllung der Gütekriterien
–> bei Informellen Tests sind die Gütekriterien nur sehr begrenzt erfüllt
Problemfall informeller Schulleistungstest
–> zuhause von LK erstellt, unmöglich Test mit allen Gütekriterien zu erstellen
–> Formulierung was so ein Test kann/ soll sehr vage
–> Wie entwickelt man so einen Test?
–> es gibt die Tests, sie Spielerin der Praxis aber keine Rolle
Experten:
• Unterscheidet sich vom formellen Schulleistungstest "vor allem die Art der Konstruktion der Testaufgabe. Eine Klassenarbeit gilt eher als ein informeller Test, weil die Aufwendungen zur Konstruktion eher gering sind. Ein formeller Test ist dagegen nur dann zu realisieren, wenn eine Reihe von Konstruktions-schritten durchgeführt wurde und die sogenannten Gütekriterien erfüllt sind"
• ein sorgfältig entwickelter informeller Test mehr Gemeinsamkeiten mit den formellen Testverfahren habe als mit Lehrerurteilen und anderen "subjektiven" Verfahren
• Informelle Tests dagegen sind für bestimmte Testzwecke ad hoc zusammengestellte Instrumente. Sie sind zwar nicht geeicht, können aber dennoch auf einer Testtheorie basieren und müssen nicht notwendig reduzierten Güteansprüchen entsprechen.
Informelle und formelle Schulleistungstests
Konstruktion formeller Schulleistungstests
1. Analyse der Lehrpläne
2. Entwurf von Testitems (Aufgaben)
- Konstruktion von 50 – 100% mehr Aufgaben als für Endform nötig
- Beurteilung der Aufgaben durch erfahrene LehrerInnen
3. Vorerprobung an wenigen Fällen
- Überprüfung der Verständlichkeit der Aufgabenformulierung
4. Testdurchführung an einer kleine Stichprobe (200 – 400 SS)
5. Aufgaben- und Testanalyse mit den Daten der ersten Stichprobe.
- Ermittlung der Aufgabenschwierigkeit
- Trennschärfenberechnung
- Erste Reliabilitätsschätzung
6. Testvalidierung an kleineren Stichproben
7. Testeichung und Validierung an einer repräsentativen Stichprobe
- Berechnung von Normwerten
Einsatzmöglichkeiten formeller sozialnormorientierter Schulleistungstests in der Schule
Vergleich des Leistungsstandes der Klasse mit der Eichstichprobe
Überprüfung des eigenen Benotungssystems durch den Vergleich mit den Testwertklassen
Objektivierungsmöglichkeit bei Schulartwechsel oder Kurswechsel
Einteilung nach Leistungsgruppen
Als Ersatz für Klassenarbeiten
Informelle und formelle Schulleistungstests Vor/ Nachteile
Grundsätzlich bei der Auswahl von Tests zu beachten:
Gütekriterien
Normierung aktuell
Ausreichend große Eichstichprobe
Aktualität des Materials
Durchführungsdauer / Ökonomie
Konstruktion von informellen Tests (Wilson 2005)
1. Das Konstrukt: Was wird gemessen?
Lehrziele
Viele Synonyme wie z.B. Instruktionsziele, Lernziele usw ...
Hier: Lehrziele, da es zunächst um Ziele geht, die Sie als Lehrende setzen und deren Erreichung Sie überprüfen
Lehrziele sind relevant, …
weil Sie den Unterricht danach ausrichten können.
um „an der Schule mittelbar und unmittelbar Beteiligten“ (Schülern, Eltern,...) zu kommunizieren, was gelehrt werden soll.
um eine konkrete Basis für die Leistungsüberprüfung bei Schülern zu haben!
Dazu muss man wissen...
was die SchülerInnen lernen sollen (Inhalte),
welche Schüleraktivitäten zeigen, dass gelernt wurde,
welche Aufgaben / Methoden sich am besten eignen, um eine bestimmte Lernleistung von SchülerInnen zu erfassen und zu bewerten
Probleme von Lehrzielen
Oft zu vage formuliert: Lehrziel sei „Verstehen“ oder „Beherrschen“ eines Stoffes ... aber:
- was genau bedeutet das?
- wann genau habe ich z.B. etwas verstanden?
–> Lehrziele = hypothetische, nicht beobachtbare Konstrukte.
müssen spezifizieren, wann genau welches Verhalten der Schüler/Innen Rückschlüsse auf „Kenntnis“, „Verständnis“ etc. zulässt = Operationalisierung der Konstrukte
Lehrzieltaxonomien: Klassifikation zur Unterteilung von Lehrzielen
(Bloom)
2. Die Aufgaben: Wie wird gemessen?
Performanzaufgaben
„Show how“ statt „Know how“: nicht zeigen, was man weiß, sondern tun, was man weiß
Vorteile
für einige Fertigkeiten (Beherrschen von Musikinstrumenten, Sprachen) alternativlos
hohe ökologische Validität
höhere kognitive Lehrziele können erfasst werden
Nachteile
zeitaufwendig in Konstruktion, Durchführung und Auswertung
Erstellung von Bewertungskriterien oft nicht einfach
Objektivität gering
Langantwort: Kurzaufsätze und Essays
Höhere kognitive Prozesse und kreativer
Kein Raten möglich
Qualitative Auswertung möglich
geringer Aufwand beim Erstellen der Aufgaben
Hoher Aufwand beim Bewerten
Reliabilität und Objektivität sehr gering
Geringe Anzahl von Inhaltsbereichen und Messungen pro Testzeitpunkt realisierbar
Einfluss durch Orthographie / Handschrift
Kurzantwort: Ergänzungsaufgaben
Aufgabenform mit freien Antworten
Für Aufgabenbeantwortung werden keine festen Kategorien vorgegeben, sie ist frei oder teilstrukturiert–> Teile der Lösung sind vorgegeben (Lückentext)
Kurzantwort: Gebundene Formate
Zweifachwahlaufgaben / Wahr‐Falsch‐Aufgaben
Kurze und gebundene Antworten
Für Aufgabenbeantwortung feste Kategorien, komplett vorstrukturiert
Beispiele: Kreuze für jede Aussage an, ob sie wahr oder falsch ist.
Kurzantwort: Multiple Choice
Aufgaben mit Itemstamm und mehreren Antwortalternativen, von denen eine/ mehrere richtig ist/sind.
Itemstamm: Kann Frage oder unvollständige Aussage sein.
Antwortalternativen:
– Attraktor (richtige Alternative/n)
– Distraktoren (falsche Alternative/n)
Kurzantwort Vor/ Nachteile
Wiedergeben von Wissen
Einfaches Anwenden von Wissen z.B. Lösen mathematischer Gleichungen
Bessere Objektivität
Schnell auszuwerten
Erfordert eher einfaches, wenig komplexe Wissensinhalte
Raten teilweise möglich
Nur Reproduktion von Wissen, keine Kreativität
Hoher zeitlicher Aufwand bei der Erstellung
3. Kategorisierung möglicher Antworten
Mindestens zwei Kategorien (richtig / falsch)
Zuweisung von Messwerten zu Antwortkategorien:
0= falsch 1= teilweise richtig 2 = richtig
–> Mythos: Punktevergabe und Testfairness
Für schwere Aufgaben werden oft mehr Punkte vergeben.
Gewichtung von Aufgaben
Bevorzugung stärkerer Schüler
4. Überprüfung des Messmodells
Erfassen alle Items das Kritische Merkmal?
Umfassen die Items alle Aspekte des zu messenden Merkmals?
Empirische Itemanalyse
− Itemschwierigkeit
− Trennschärfe
Trennschärfe
korrelativer Zusammenhang jedes einzelnen Testitems mit dem Gesamttest.
So geht ́s
Alle Klassenarbeiten werden nach Ergebnis in absteigender Reihung sortiert
Entnahme der besten und schlechtesten 25%
Dann: Anzahl richtiger Antworten unter den 25% besten minus Anzahl richtiger Antworten unter den 25% schlechtesten geteilt durch Gesamtzahl der richtigen Antworten in der guten und schlechten Gruppe.
Itemschwierigkeit (p)
Bezeichnet den prozentualen Anteil derjenigen Personen, die das Item richtig lösen.
Ziel: Unterscheidung von Probanden mit hoher Merkmalsausprägung von Probanden mit niedriger Merkmalsausprägung.
Unbrauchbar= alle Items, die von allen / die von keinem Probanden gelöst werden konnten.
Sinnvoll sind Schwierigkeitsgrade von p = 20 – p = 80
Zuletzt geändertvor 2 Jahren