7. Normierung
Übersicht
7.1 Einführung
7.2 Erhebungsdesign der Normierungsstichprobe
7.3 Erstellen von Normwerten
7.4 Synopsis
§ Lernziel
• Sie lernen, wie man einen Test normiert, um einen Bezugsrahmen für die
Interpretation des Testwerts zu bekommen
Warum ist ein Testwert ohne Normierung nicht aussagekräftig? und welche Möglichkeiten gibt es dafür?
-Testwert (Skalenwert der
Testperson) per se nicht informativ
(der reine testwert (zb 9 punkte im Wissenstest) sagt ALLEIN noch nichts aus. man weiß nicht, ob das gut oder schlecht ist)
Zweck der Normierung: Herstellen
eines Bezugsrahmens für die
Interpretation des Testwerts
(normierung hilft, den testwert einzuordnen : ist er hoch , niedrig oder durchschnittlich im vergleich zu anderen ?)
Möglichkeiten: Vergleich mit…
• vorangegangenen Werten (z.B. am
Anfang des Schuljahres)
(vergleich mit dem eigenen früheren ergebnis (lernerfolg, fortschritt)
• einem Kriterium (z.B. Führerschein-
prüfung)
(vergleich mit einem festgelegten standard (bestanden / nicht bestanden)
• den Werten einer relevanten
Vergleichsgruppe (z.B. Realschüler im
selben Alter)
(vergleich mit anderen personen aus derselben gruppe —> wo liegt man relativ zur normstichprobe?)
beispiel von der Folie: Herr B hat im wissenstest BEFKI-GC-K einen testwert von 9.
(ohne normierung wissen wir NICHT, ob das gut ist. vielleicht liegt der durchschnitt bei 7 (dann gut) , vielleicht aber bei 12 (dann eher schlecht).
antwort zur fragestellung zusammengefasst;
(warum ist ein testwert ohne normierung nicht aussegekräftig? weil man ohne bezug zu vergleichswerten (zb durchschnitt, frühere werte , kriterien ) nicht bewerten kann , ob der wert hoch oder niedrig ist. erst durch normierung wird der testwert interpretierbar.)
7.2 Erhebungsdesign der Normierungsstichprobe = Wer wird überhaupt zur normierung eines tests herangezogen ?
Warum ist eine repräsentative Normierungsstichprobe für die interpretation von testwerten wichtig?
- Grundgedanke des normorientierten Testens: Testwert einer Person wird zu einer sinnvollen Vergleichsstichprobe in Bezug gesetzt
(Ein testwert allein ist nicht aussagekräftig- er muss mit den werten anderer personen verglichen werden, zb mit gleichaltrigen oder einer normgruppe).
- Sinnvolle Vergleichsstichprobe? ➜ ABC der Testkonstruktion
(die auswahl der vergleichsgruppe ist ein grundbaustein bei der erstellung von tests - sie muss zur zielgruppe des tests passen)
- Je besser die Vergleichsstichprobe die Grundgesamtheit an Personen repräsentiert, für die der Test gelten soll, desto valider sind die aus dem Testergebnis gezogenen Schlussfolgerungen
(wenn die normgruppe gut die zielgruppe widerspiegelt, sind die interpretationen der testwerte auch sinnvoll und gültig ).
- Bei schlechter, d.h. „verzerrter“ Normstichprobe
➜ nicht valide Schlussfolgerungen aus dem Testergebnis
(wenn man zb nur hochgebildete oder besonders interessierte menschen in der normgruppe hat, aber der test für die allgemeinbevölkerung gedacht ist, dann kann man die ergbnisse nicht korrekt deuten ).
- Bsp. Erhebung der Normstichprobe für einen Big 5-Test über
Zeitungsannoncen
(wenn man leure nur über zeitungsanzeigen gewinnt, bekommt man nicht unbedingt eine typische stichprobe )
➜ Testwert für „Offenheit für Erfahrung“ in Normstichprobe verzerrt
(personen, die auf eine zeitungsanzeige für einen psychologie-test reagieren, sind vermutlich besonders offen was die normwerte künstlich erhöhen wird ).
antwort der karteikarte zsmgefasst;
(weil nur dann die testwerte sinnvoll und gültig mit einer passenden vergleichsgruppe verglichen werden können. eine verzerrte normstichprobe führt zu falschen schlussfolgerungen ).
Schritt 1: Festlegen der Gruppen für die unterschiedliche Normen
gebraucht werden
(—>bevor man normwerte erstellen kann, muss man überlegen , für welche gruppen diese gelten sollen )
Welche Gruppenarten kann man bei der Normierung unterscheiden ?
• Gesamtnormen (z.B. für Allgemeinbevölkerung im Alter von 16 bis 69 Jahren)
(eine große normgruppe ohne weitere unterteilung - geeignet, wenn der test BREIT angewendet werden soll, zb für die ganze bevölkerung).
• Gruppennormen (z.B. getrennt nach Geschlecht, Schulbildung, etc.)
(sinnvoll wenn sich gruppen stark unterscheiden und man genauere vergleiche machen möchte. bsp: ein intelligenztest könnte bei 16-jährigen andere normen haben als bei 60-jährigen ).
• Abhängig von Anwendungsbereich und Zielgruppe (➜ ABC der
Testkonstruktion)
(die entscheidung hängt davon ab, wofür der test gedacht ist und für wen er eingesetzt werden soll.
Schritt 2: Datenerhebung
Was ist der Unterschied zwischen probabilistischen und nicht- probabilistischen stichproben bei der normierung ?
• Probabilistische Stichproben:
z.B. einfache Zufallsauswahl,
geschichtete Stichprobe
(hier wird zufällig ausgewählt , zb durch eine einfache zufallsauswahl oder eine geschichtete stichprobe. das ziel: möglichst repräsentative und verzerrungsfreie daten ).
(geschichtete stichrpobe= auch stratifizierte stichprobe genannt bedeuten man teilt die grundgesamtheit vorab in schichten oder gruppen ein (zb nach geschlecht, alter, bildung ) und zieht dann zufällig innerhalb jeder schicht eine bestimmte anzahl an personen ) ziel: jede wichtige gruppe soll angemessen vertreten sein zb wenn 60% der bevölkerung frauen sind, sollen auch 60% der stichprobe frauen sein. struktur der bevölkerung wird bewusst nachgebildet, aber innerhalb jeder gruppe wird zufällig ausgewählt )
• Nicht-probabilistische Stichproben:
(diese beruhen nicht auf zufall zb:
z.B. -Quotenstichprobe
(=man wählt gezielt, nach bestimmten quoten (zb 50% männer, 50% frauen )
- Gelegenheitsstichprobe
(=man befragt einfach, wer gerade verfügbar ist (zb studierende im seminar)
• Achtung: „WEIRD people” - Western,
Educated, Industrialized, Rich and
Democratic (Henrich et al., 2010)
(viele studien beruhen auf menschen die aus westlichen, gebildeten, industrialisierten , reichen und demokratischen ländern kommen. diese menschen sind nicht repräsentativ für die weltbevölkerung- das kann die gültigkeit von testergebnissen einschränken )
• Optimal: möglichst repräsentativ für
Grundgesamtheit
(die stichprobe sollte die grundgesamtheit gut abbilden. problem: in der praxis ist das leider selten umsetzbar, zb wegen aufwand oder kosten )
➜ in der Praxis leider selten
antwort karteikartenfrage zsmgefasst;
probabilistische stichproben basieren auf zufallsauswahl (zb geschichtet, zufällig) und sind meist repräsentativer. nicht-probabilistische stichproben (zb quoten, gelegenheitsstichproen ) wählen gezielt oder bequem aus, sind aber oft verzerrt).
Schritt 1: Inferenzstatistische Prüfung, ob differenzierte Normen
möglich bzw. nötig sind
wann sollte man bei der normierung eines tests gruppennormen statt gesamtnormen verwenden ?
(man prüft statistisch , ob sich gruppen so stark unterscheiden, dass es sinnvoll ist, eigene normen für sie zu machen )
• Gruppennormen vs. Gesamtnorm
(gruppennormen = jede gruppe (zb männer /frauen ) hat eigene vergleichswerte.
(gesamtnorm= alle personen werden mit denselben normen verglichen )
• Gibt es signifikante Unterschiede in den Mittelwerten relevanter Merkmale?
(man schaut, ob zb männer und frauen unterschiedliche durchschnittswerte im test haben- und ob dieser unterschied statistisch bedeutsam ist )
relevante merkmale:
- Geschlecht, Alter, Bildung, Bundesland, etc.
man prüft das zb mit:
- T-Test, ANOVAs etc.
- Effektstärke beachten bei großen Stichproben
(in großen stichproben wird fast alles signifikant, deshalb schaut man zusätzlich auf die effektstärke (also: wie groß ist der unterschied wirklich ?)
• Eigentlich alles erst nach Prüfung der Invarianz…
(invarianz bedeutet: misst der test in allen gruppen dasselbe? nur wenn das gegeben ist, macht ein vergleich überhaupt sinn).
antwort auf die karteikartenfrage zsmgefasst:
wenn es signifikante unterschiede in den mittelwerten relevanter merkmale (zb geschlecht, alter bildung ) gibt. das prüft man mit inferenzstatistischen verfahren wie t-tests oder ANOVAs. wichtig: bei gropen stichproben muss zusätzlich die effektstärke beachtet werden. voraussetzung ist die prüfung der invarianz, also ob der test in allen gruppen dasselbe misst.)
Schritt 2: Transformation der
Rohwerte in Normwerte
• Prüfung auf Normalverteilung
anhand des Histogramms
( man schaut sich die verteilung der rohwerte an, zb mit einem histogramm. ideal wäre eine glockenförmige , symmetrische verteilung (normalverteilung)
• Auswahl einer Normskala, je nach
Verteilung, Testart und Reliabilität
(je nachdem wie die daten verteilt sind und welcher test verwendet wurde (zb intelligenztest ) wählt man eine passende skala (zb IQ-skala , T-werte , stanine etc)
• Umrechnung der Rohwerte in
Normwerte
(die rohwerte (zb richtige antworten ) werden mithilfe einer formel in normwerte umgerechnet, damit man sie mit anderen vergleichen kann )
• Lineare Transformation bei
Normalverteilung der Testwerte
(wenn die verteilung normal ist, nutzt man eine einfache umrechnungsformel : (zwert mal standardabweichung der skala plus mittelwert der skala)
auf der folie sind noch beispielhafte formeln drauf
zusammenfassung;
was passiert beim zweiten schritt der normwerterstellung , und welche rolle spielt daei die verteilung der rohwerte?
im zweiten schritt werden die rohwerte in normwerte transformiert. zuerst prüft man die verteilung (zb per histogramm ) bei normalverteilung werden z-werte berechnet und linear in normskalen wie t-werte oder IQ werte umgerechnet, um einen normorientierten bezugsrahmen zu schaffen )
erkläre , wie ließt man die Grafik
Was ist auf der folie überhaupt zu sehen ?
( die glockenkurve stellt eine normalverteilung dar. sie zeigt, wie häufig bestimmte werte in einer gruppe vorkommen (zb bei einem intelligenztest). die meisten menschen liegen in der mitte, wenige ganz weit rechts oder links).
(was ist ein rohwert?= ein rohwert ist einfach der ursprüngliche testwert. zum beispiel 18 von 30 punkten im mathetest. aber : dieser wert allein sagt nichts , solange du man ihn nicht vergleicht. man weiß ja noch nicht ob 18 gut oder schlecht ist
2.warum brauchen wir normwerte ?
weil wir sagen wollen: wie gut ist jemand im vergleich zur gruppe (normstichprobe)?
dazu rechnen wir den rohwert um - in zb z-werte, iq-werte , stanine usw.
was sind die einzelnen normwerte)
z wert = wie viele standardabweichungen ein wert vom durchschnitt entfernt ist. z= 0 ist genau der durchschnitt.
z= +1 heist: eine standardabweichung besser als der durchschnitt
standadrabweichung sd= gibt an wie weit die werte in einer gruppe streuuen
t wert= umgerechneter z wert , mittelwert 50, sd = 10
iq wert = intelligenzskala :
mittelwert =100 , sd=15 , iq=115 besser als der durschnitt
sw wert= auch eine skala , mittelwert = 100, sd = 10
c-wert (centile)= skala von 1-11 (meist in schule oder diagnostik)
stanine wert = skala von 1-9 standard -nine
5= mitte , 9 = sehr gut
wie lese ich die grafik?
nimm zum beispiel den z wert =0 (mitte der kurve)
z=0 heißt durchschnitt
t wert = 50
iq wert = 100
sw = 100
c wert = 5
stanine =5
ein z wert von +2 bedeutet: du bist 2 standardabweichungen besser als der durchschnitt. das entspricht zb IQ= 130 , t=70
stanine = 9 —> sehr überdurchschnittlich
was zeigt die grafik?
in der mitte ist die statistische norm (=durchschnitt)
links davon : unterdurchschnittlich
rechts davon: überdurchschnittlich
die glockenkurve zeigt die normalverteilung - die meisten leute sind im mittleren bereich.
was bedeuten die zahlen ?
alle skalen messen dasselbe nur mit unterschiedlichen zahlen
erklärung der brgiffe
z wert = wie viele standardabweichungen eine person vom durchschnitt entfernt ist
t wert = standardisierte skala mit mittelwert 50, sd =10
iq wert= mittelwert 100, sd= 15 - typische intelligenzskala
sw (standardwert) : mittelwert 100 , sd=10 oft bei schuleignungstests
c wert (centile wert)= skala von 1 bis 11 , um grob einzuordnen.
stanine wert : skala von 1-9 vor allem im bildungsbereich genutzt
( das ist eine normtabelle für den CFT 20-R (ein intelligenztest) speziell für die altersgruppe 8,5-9,0 jahre)
die atbelle zeigt);
rohwerte (also die anzahl korrekt gelöster aufgaben )
dazugehörige IQ-werte, die durch normierung berechnet wurden
unterteilt nach testzeitbedingungen : normale testzeit (linke hälfte)
verlängerte testzeit (rechte hälfte)
wie ließt man das ?
beispiel: ein kind hat in der normalen testzeit 10 punkte (rohwert) im teil 1 erzielt
laut tabelle entspricht das einem iq wert von 73
dh: der rohwert allein ist nicht aussagekräftig - erst durch die umrechnung in einen normwert (hier iq) kann man das ergebniss sinnvoll interpretieren )
warum verschiedene spalten (teil 1, teil 2..)
weil der test aus mehreren untertests besteht, die unterschiedlich bewertet werden können. die normierung berücksichtigt diese teilbereiche jeweils einzeln und kombiniert. )
garfik:
die zahl 69 (Links unten ) ist ein IQ wert
dieser liegt zwischen -2s und -3s also deutlich unter dem mittelwert
in worten: das ist eine unterdurchschnittliche abweichung (steht auch rot makiert links oben )
einordnung des werts 69:
mittelwert (IQ): 100
standardabweichung s: 15
1s unter dem mittelwert = 100-15 = 85
2s unter dem mittelwert = 100 -30 = 70
IQ 69 liegt noch unter 70 also z wert ungefähr bei -2, 1
liegt links außen in der verteilung
mit dieser darstellung sieht man sofort: wo ein wert liegt (unter-über, durchschnittlich)
wie stark er abweicht vom mittelwert
was das bedeuet für die interpretation (zb hochbegabung)
Transformation der Rohwerte in
Normwerte bei Abweichungen von der
Normalverteilung
wie erfolgt die transformation von rohwerten in normwerte, wenn keine normalverteilung vorliegt?
(dh wenn die verteilung der rohwerte nicht normalverteilt ist (zb schief oder gestaucht ), kann man nicht sinnvoll mit z-werten , iq-werten usw. rechnen. dann nutzt man prozentränge als alternative)
• Häufig: Prozentränge (zeigen wie viel prozent der vergleichsstichprobe schlechter abgeschnitten haben )
- Nicht-lineare Transformation der Rohwerte
(die abstände zwischen den werten sind nicht gleich groß)
- (beispiel) PR80 = Testperson „besser“ als 80% der
Vergleichsstichprobe
- Vorteil: (vermeintliche) Verständlichkeit auch
für Laien
(alltagslogik: ich bin besser als x)
- Problem mit prozenträngen: Keine Angabe von
Konfidenzintervallen möglich (zb 95% sicherheit)
➜ notwendig in der Einzelfalldiagnostik!
PR daher ungeeignet! (aber konfidenzintervalle sind wichtig in der einzelfalldiagnostik , um unsicherheiten zu berücksichtigen, daher sind prozentränge für die diagnostik ungeeignet!)
• Stanine-Werte besser geeignet für einzellfaldiagnostik
(skala von 1-9 eignen sich besser für einzellfallanalysen , da sie auf der normalverteilung beruhen )
Einzelfalldiagnostik
Beim normorientierten Testen werden die
Rohwerte in Normwerte transformiert, um
einen Bezugsrahmen für deren
Interpretation zu haben
(ein rohwert allein zb 23 punkte in einem test sagt nichts aus. erst durch die umrechnung in normwerte zb iq 110 wird er vergleichbar mit anderen testpersonen )
Ja nach Verteilung, Testart und Reliabilität
können unterschiedliche Normskalen
gewählt werden
(wenn zb eine normalverteilung vorliegt, kann man z werte , iq werte , t werte etc. verwenden. Bei nicht-normalverteilten daten nutzt man zb prozentränge. auch der testzweck spielt eine rolle)
Die Interpretation individueller Testwerte
orientiert sich an der statistischen Norm
bzw. Abweichungen hiervon (in der Regel
+/- 1 SD)
(normwerte zeigen, wie stark ein ergebnis vom durchschnitt (mittelwert) abweicht plus minus 1 standardabweichung (sd) ist der bereich in dem ca 68% der menschen liegen (also “normal”)
Die Qualität der Normen und die Validität
von Schlussfolgerungen steht und fällt mit
• dem Vorliegen,
• der Repräsentativität, und
• der Aktualität der Normen
(normwerte sind nur dann sinvoll wenn normdaten vorhanden sind, sie repräsentativ für die zielgruppe sind zb alter bildung, sie aktuelle sind (nicht zb 30 jahre alter)
Last changed12 days ago