Durchführungsobjektivität
Situative Faktoren: Tageszeit, Hilfsmittel, Instruktion, Lärm…
Personale Faktoren: Ermüdung, vorherige Beschäftigung…
Herstellen von Durchführungsobjektivität
Vereinheitlichung der Aufgabenstellung, Bearbeitungszeit etc.
Gleichheit der Instruktionen für alle Prüflinge
Strikte Beachtung von Verfahrensregeln
Auswertungsobjektivität
Herstellen von Auswertungsobjektivität
Beurteilungsverfahren mit festgelegten Kriterien
Beurteilungsverfahren mit geschlossenen Antwortformen
Kriterienkatalog
Interpretationsobjektivität
Herstellen von Interpretationsobjektivität
Existenz von festen Regeln für diagnostische Schlussfolgerungen
Einige Daumenregeln zur Notengebung:
Punktwerte so zusammenfassen, dass sich für die Noten eine Normalverteilung ergibt
Positive Bewertung ab der Hälfte der erreichten Punkte zu vier gleichen Klassen zusammenfassen (ab 50% -> Note 4)
Möglichst umfassende Dokumentation von Datenerhebungen und -analysen
Arten von Reliabilität
Wiederholungsreliabilität (Test-Retest-Methode)
Messung wird wiederholt und mit den Ergebnissen der ersten Messung verglichen - dazu ist allerdings zeitliche Stabilität des Merkmals nötig
Man lässt also die gleichen Aufgaben von den gleichen Versuchspersonen zu verschiedenen Zeiten bearbeiten
Messwert: Koeffizient der zeitlichen Stabilität -> gibt an, wie konstant die Messwerte über die Zeit ausfallen
Schwierigkeiten:
Übungseffekte
Gedächtniseffekte
zeitlich stabiles Merkmal?
Zeit zwischen Tests
Split-Half-Reliabilität (Testhalbierungsmethode)
Um nicht wie bei der Wiederholungsrealibilität die zeitliche Stabilität fördern zu müssen, wird bei der Split-Half-Methode die Aufgabenzusammenstellung halbiert und getrennt ausgewertet, es erfolgt nur ein Testdurchgang
z.B. Leistung bei Aufgaben 1-10 und 11-20 vergleichen
Danach kann man den Zusammenhang beider Testhälften berechnen -> Koeffizient der internen Konsistenz gibt an, ob die jeweiligen Testhälften gleichwertig sind
Speed-Test: Geschwindigkeit (z.B. Konzentrationstests); einfache Items, die von allen bearbeitet werden können -> Leistungsstärken lassen sich durch unterschiedliche Bearbeitungszeit erkennen
-> Testergebnisse werden nach Testzeit geteilt und dann miteinander korreliert (z.B. erste Viertelstunde vs. zweite Viertelstunde)
Power-/Niveau-Test: Tests mit Aufgaben zu verschiedenem Schwierigkeitsgrad (z.B. Intelligenztests) -> Ergebnisse bei gradzahligen und ungradzahligen Items getrennt berechnen und miteineinander korrelieren (Odd-even-Methode)
Messwert: Koeffizient der internen Konsistenz
Paralleltestreliabilität
Zwei oder mehrere verschiedene aber gleichwertige (parallele) Aufgabensammlungen, die sich inhaltlich möglichst ähnlich sind
z.B. Gruppe A und B in Mathe Schulaufgabe
Messwert: Äquivalenzkoeffizient -> gibt an wie gleichwertig die beiden Tests sind
Konsistenzanalyse
Ein Test wird in seine einzelne Items (Fragen, die die gleiche Fähigkeit messen) zerlegt und aus dem Zusammenhang zwischen den Itembeantwortungen wird auf die Messgenauigkeit rückgeschlossen
-> sinnvoll, wenn ein diagnostisches Verhalten aus mehreren Items besteht, die alle dieselben Fähigkeiten messen (homogen)
-> nicht sinnvoll wenn ein diagnostisches Verfahren aus strukturähnlichen, heterogenen Items besteht
Messwert: Homogenitätskoeffizient
Arten von Validität
Inhaltsvalidität Beispiele
Test über Groß- und Kleinschreibung von Verben —> Es dürfen keine Schwierigkeiten wie Schreibung von i, ie, ieh eingebaut sein
Rechenaufgaben mit Text —> Es sollten keine zu hohen Anforderungen an Leseverständnis gestellt werden, um mathematische Fähigkeiten zu prüfen
Empirische Validität (Kriteriumsvalidität)
Beispiele:
Gleichzeitigkeitsvalidität und innere Validität: Intelligenztest A sollte Ergebnisse von Intelligenztest B vorhersagen können.
Gleichzeitigkeitsvalidität und äußere Validität: Gültigkeit von Schultest wird mit dem Grad der Übereinstimmung ihrer Ergebnisse mit Schulnoten ermittelt—> Vorgehen problematisch, da Schultests ja gerade Unzulänglichkeit der Schulnote verwendet werden sollen
—> Lassen sich die Ergebnisse auch auf andere Situationen übertragen?
Vorhersagevalidität: Test in der Grundschule (z.B. Empfehlung des Grundschullehrers, Intelligenztests) soll den Oberschulerfolg (z.B. Erfolg/ Intelligenz in der 10. Klasse) vorhersagen
Konstruktvalidität
Es wird das Konstrukt gemessen, das man messen will.
Durch die Erhebung von messbaren Fähigkeiten (z.B. mentales Rotieren, Ängstlichkeit, …) und die darauffolgende Einbettung der Ergebnisse in ein Netzwerk von konstruktspezifischen Thoerien (“nomologisches Netzwerk”) lassen sich Konstrukte nachweisen.
Konstruktvalidität liegt vor, wenn deine Forschung eine hohe Korrelation mit einer anderen Forschung erreicht, die ein ähnliches Konstrukt misst.
Herstellung von Validität
Übereinstimmung von Testinhalt und Unterrichtsinhalt
Eindeutige Arbeitsanweisung
Operationalisierung der Lernziele
Lehrer sollten inhaltliche Analyse durchführen
Festlegung von Kriterien
nicht direkt auf Verhalten schließen, sondern auf eine Eigenschaft, die sich in verschiedenen, aber funktionell ähnlicher Weise im Verhalten äußern kann
Nebengütekriterien
Normierung
Individuelle
Soziale
Kriteriale
Ökonomie
Nach Lienert (1969) ist ein Test nur dann ökonomisch, wenn:
kurze Durchführungszeit
wenig Material
einfach zu handhaben
als Gruppentest durchführbar
schnell und bequem auswertbar
Vergleichbarkeit
Ein Test ist vergleichbar, wenn
eine oder mehrere Paralleltestformen vorhanden sind oder
validitätsähnliche Tests verfügbar sind
Last changed2 years ago