Was ist Varianz? Beschreiben sie was Sie unter Varianz verstehen
Bitte erklären Sie anhand eines Beispiels was man unter der Streeung genau versteht, also wie drückt sich die streuung in der Realität aus?
Bitte erklären sie einmal die gute / schlechte Varianz in der psychologie, wo ist der unterschied? man könnte auch sagen die varianz die einem hilft und die varianz die einem nicht hilft
!!!!!!! MERKSÄTZE LERNEN
Unter Varianz versteht man grundsätzlich die Streuung und wir schauen uns an wie sich die Datenmenge im Bezug zum Mittelwert verhält. Die Streuung drückt sich in der Realität wie folgt aus am beispiel erklärt: zb man hat einen fragebogen der das selbstbewusstsein abfrägt und man hat mehrere items. Man schaut sich ein item an, zu diesem item hat man 4 ausprägungen wie man auf das item antworten kann und ein beispiel für eine breite streuung wäre zb wenn alle 4 ausprägungen beantwortet werden von mehreren teilnehmern. und wenn jetzt zb viele teilnehmer nur eine ausprägung ankreuzen dann wäre das ein beispiel für eine geringe streuung.
!!!!!! Bezogen auf die Varianz: Letzlich geht es darum zu sagen, menschen sind unterschiedlich. Darum studieren wir ja auch psychologie, damit wir sagen können warum der eine so ist und der andere so. !!!!! das heißt Varianz bedeutet übersetzt nur “UNTERSCHIEDE IN DEN AUSPRÄGUNGEN” !!! Dh Menschen sind bezogen auf eine Eigenschaft unterschiedlich, nur wenn Menschen auf eine eigenschaft unterschiedlich sind gibt es varianz und letztlich gibt es nur dann diese eigenschaft sozusagen wenn : zb wir wohnen in einem zweidimensionalen raum alles hat also nur x und y achse. wir sind also nur wie ein blattpapier. da braucht man ja nicht fragen wie groß bist du, weil jeder von uns wäre gleich groß nänmlich 0. dann hat es keine relevanz für unsere beschreibung. und genauso ist es in der psychologie wenn sich menschen auf irgendeine eigenschaft nicht unterscheiden dann gibt es dieses ding nicht. Deswegen: wenn wir zb ein verfahren entwickeln mit verschiedenen items und wir finden heraus das unsere teilnehmer/-innen immer dieselbe punktzahl bekommen, sie unterscheiden sich also alle nicht dann gibt es dieses ding wie sie es messen (wie das beispiel davor mit dem fragebogen ) nicht.
Anderes Beispiel: Man möchte wissen was bedingt den herzinfakt risiko. und man findet heraus das eine ist körpergewicht, das andere ist wie viel sport jemand treibt dann gibt es einen genetischen einfluss, und dann gibt es rauchen. und wenn man jetzt rausfindet jeder von uns raucht am tag 20 zigaretten oder die ganze welt raucht am tag 20 zigaretten dann braucht man es ja nicht untersuchen weil dann sind wir alle gleich dann hat es keinen relevanten einfluss das bedeutet es kann sogar etwas geben, was da ist “also wir rauchen alle” allerdings weil wir das alle im selben maße machen ist es irrelvant.
!!!!!!was wir also in der testtheorie und in der diagnostik brauchen sind eigenschaften auf denen wir uns unterscheiden. und das sind ja auch die eigenschaften warum ich zb psychologie studiere, weil man eben zb verstehen will warum hat der eine 20 beziehungen und der andere eine und bleibt bei der. etc.
!!!!!! dh wir brauchen immer unterschiede damit wir ein thema relevant finden. !!!! DIE KLASSISCHE TESTTHEORIE UNTERSUCHT NUR VARIANZEN !!!! DIE KÜMMERT SICH NUR UM VARIANZEN DH DIE SCHAUT NUR WIE VIEL UNTERSCHIEDE BESTEHEN ZWISCHEN PERSONEN. UND VARIANZ IM NORMALEN SPRACHGEBRAUCH SIND EINFACH DIE UNTERSCHIEDE.
!!!!!! Es gibt ja die Gute Varianz und die schlechte Varianz:
man könnte auch sagen die Varianz die einem hilft / und die Varianz die einem nicht hilft:
unterschied= die Klassische Testtheorie nennt man auch noch MESSFEHLERTHEORIE und das bedeutet man teilt die Varianzen zumindest in zwei gro0ße blöcke auf. man teilt sie in wahre varianz auf : das sind die unterschiede die bestehen weil dahinter ECHTE UNTERSCHIEDE in der Realität sind und dann gibt es Unterschiede aufgrund der Messung selbst dh es sind KEINE ECHTEN unterschiede sondern das sind Unterschiede die einfach nur passieren, weil unsere Messinstrumente unscharf sind oder weil eine Situationen einfluss haben usw. Und in der ANOVA das instrument der allgemeinen psychologie, und die allgemeine psychologie möchte den einfluss von situationen untersuchen dh global den einfluss von irgendetwas untersuchen. Wenn eine bestimmte einzelne dichotome eigenschaft auf eine gruppe homogen wirkt dann unterscheiden sich die gruppen und der unterschied zwischen den gruppen ist die gute varianz oder die die man möchte wenn sich die gruppe aber innerhalb nicht homogen verhält zb die gruppe der frauen , die gruppe der männer , die gruppe die am morgen kaffee trinken etc. wenn sich die innerhalb nicht homogen verhalten dann ist das die schlechte varianz oder die varianz die wir nicht wollen. dh es gibt immer wenn wir unterschiede messen einen teil der unterschiede der größere unterschiede die wir als passend definieren und teile der unterschiede die wir als nicht passend definieren oder teil des unterschieds der nicht auf die real in der realität bestehenden unterschiede der eigenschaft zurückgehen.
!!!! wir müssen also immer unterscheiden zwischen dem was wirklich ist und dem was wir messen könnten. und das drückt sich eben aus in der varianz. dh wie sich die varianz aufteilt in die gute und in die schlechte.
Inhalte der Vorlesung
1. Einführung: Definitionen und Grundkonzepte
2. Rekapitulation Ergebnisse von Tests [Wiederholung/Exkurs]
3. Konstruktdefinition
4. Item-Entwicklung und Testentwurf
5. Empirisch/statistische Überprüfung des Testentwurfs:
1. Itemanalyse
2. Exploratorische Faktorenanalyse und deren Berechnung in BlueSky und R
3. Testrevision
6. Testvalidierung
7. Testevaluation
8. Normierung
9. Zusammenfassung und Fragen
1. Einführung: Definitionen und Grundkonzepte Übersicht1.1
1.1 Inhaltsbereich und Anwendungsfelder
1.2 Datenbasis und grundlegende Klassifikationen 1.3 Fähigkeits- und Leistungsdiagnostik
1.4 Persönlichkeitsdiagnostik
1.5 Interpretation von Testwerten
1.6 Kriterien zur Beurteilung von Testverfahren (normorientiertes testen, kriteriumsorientiertes testen, fairness, faken?)
§ Lernziel
• Kenntnisse über Grundkonzepte und Methoden der Psychologischen Diagnostik
Bitte nennen Sie anhand Beispieler Anwendungsfelder der psychologischen diagnostik in der gesellschaft
beispiele erklären , anwendungsfelder bennen
Bild mit Mädchen in der Schule Schuleignungsverfahren, schulübertrittsverfahren
—>Ein großes Anwendungsfeld der diagnostik ist eben: festzustellen wo denn die Passung ist für eine person bezogen auf erstmal ausbildung dann aber auch beruf.
—>Selektion: = ich wähle aus einem überhang an passenden kandidaten die wenigen aus die ich dann nehmen möchte dh das ist ein wettbewerb. Die Platzierung dagegen verwendet alle die da sind und versucht für jede person die da ist den best möglichen kontext oder die best mögliche stelle , den best möglichen platz zu finden. es ist also keine auslese und auch kein wettbewerb sondern eben die beste passung die man hier sucht. für zb schulempfehlungen oder auch in den kitas wo es darum geht die sprachkompetenz festzustellen da geht es nicht darum jemanden zu selegieren sondern da geht es darum zu entscheiden was ist für das nächste jahr der beste ort den eine person haben kann.
2. Bild auto
—>Auch ein wichtiges Feld ist die eignung die eine person zb hier im straßenverkehr hat , das ist jetzt ein beispiel für den Fahreignungstest
dh wann darf jemand zb ein bestimmtes fahrzeug lenken, zb mit lastfahrzeugen darf man nicht fahren wenn man nur auto führerschein hat
zb auch anwendbar auf psychologie: Nach absolvierung des bachelors ist man erst berechtigt einen test bei hogrefe kaufen und anwenden kann. vorher dürfte man einen test nicht kaufen und die testung wäre nicht zulässig.
Also auch die uni oder der eigene studiengang ist eine art eignungsdiagnostik ob man denn in der lage ist nach dem aktuellen wissensstand und nach den aktuellen kriterien eine testung durchzuführen.
Beispiel: Anders Behring Breivik = Norwegischer Massenmörder der 2011 77 menschen umgebracht hat. Da ging es vor gericht darum ob er den schuldfähig war oder nicht. dasselbe phänomen trifft auch bei zb häuslischer gewalt wenn meist männer angeklagt sind, wenn es darum geht ob menschen zb im straßenverkehr jemanden getötet haben , dann geht es darum wie zurechnungsfähig ist jemand also wie schuldfähig ist jemand.
Das Phänomen “sense of agency” aus der allgemeinen Psychologie : also mein bewusstsein das ich handlungen ausführe und das ich tätig bin in der welt, da ist es ja so das grade täter von häuslicher gewalt sich gerne antrinken vor der tat nicht weil sie die tat dann nicht ausführen oder weil sie dann erst die tat ausführen wollen sondern weil sie dann wissen das ihre sense of agency geringer eingeschätzt wird und deswegen ihre schuldfähigkeit als geringer eingeschätzt wird. dh wenn du dich selber als wenig zurechnungsfähig hinstellst oder in so einen zustand bringst dann kann das rechtssystem jemanden weniger hart bestrafen als bei einer anderen person wo man sagen kann die hat auf jeden fall 100% sense of agency gehabt. hier gab es auch verschiedene gutachtern: 1. hatte ihm paranoide schizophrenie diagnostiert und als folge dieser diagnose ihn als unzurechnungsfähig eingestuft, damit wäre keine schuldfähig und urteil wäre das er in die psychatrie kommt. 2. gutachten: diagonstizierte ihm eine anti soziale und narzisstische persönlichkeitsstörung, aber keine psychose also keine wahnhaften vorstellungen und ist damit zurechnungsfähig.
—>!!!!!! Was man hier erkennen kann ist das diagnostik wahrscheinlichkeitsbehaftet ist und das wir niemals mit einer 100% sicherheit irgendwas sagen können. !!!!!!!!!!!
Wir machen immer NUR WAHRSCHEINLICHKEITSAUSSAGEN NICHTS IST 100% SICHER. Zb jemand der ein mathe genie ist kann trotzdem 2 plus 3 mal falschen rechnen vlt weil er kurz vorm koma ist.
°!!!!!!-es gibt als niemals die absolute sicherheit, wie groß die sicherheit ist muss man immer bestimmten und wenn wir korrekt sein müssen , müssen wir abwegen auf welcher seite wir bereit sind eher einen fehler zu machen. bezogen auf ALPHA UND BETHA FEHLER: dh es gibt immer wenn wir ja von eigenschaften sprechen, es gibt immer eine höhere ausprägung oder das vorhanden sein einer ausprägung oder das nicht vorhanden sein einer ausprägung und im grenzbereich ist es so das ich manchmal nicht sicher bin ist der nun hoch ausgeprägt oder nicht hat der die eigenschaft oder nicht und dann wenns im grenzbereich ist dann stellt sich die frage was mache ich denn wenn ich unsicher bin auf welche einschätzung falle ich den zurück. falle ich eher auf die negative einschätzung zurück zb jemand ist nicht träge oder falle ich eher auf die positive einschätzung zurück jemand ist träge. da kann man niemals eine absolute empfehlung geben sondern man muss im jedem fall abwägen was denn wichtiger ist, was ist denn für die vorliegende entscheidung wichtiger. es hängt also von der perspektive ab. zb man bewirbt sich an der HSD , es ist jetzt an der grenze ob sie geeignet sind an der HSD Psychologie zu studieren oder nicht, was ist für sie denn die perspektive? ihre perspektive ist ja ich bin geeignet, denn sie möchte es ja. Es gibt immer ein für den einen ist es besser so, für den anderen besser so. also nie global richtig oder falsch. HSD könnte jetzt auch denken, dass es ein schüler ist der die anderen eher runterzieht. —> als diagnostikerin muss man immer abwägen was denn aus der eigenen sicht die beste entscheidung ist. klar hat man auftraggeber, gesellschaftliche verpflichtung, ethische verpflichtungen, aber sie müssen entscheiden was für sie selbst am wichtigsten ist.
beispiel
Andreas Lubitz= Er war ein ko Pilot der das flugzeug in den berg rein fliegen lies (german wings) weil er psychische probleme hatte. Hier ist widerum die frage der eignung, eignungsdiagnostik heißt ja jemand ist in der lage eine bestimmte aufgabe auszuführen und auch hier muss man abwägen was ist der wunsch des einzelnen und was ist der wunsch der gesellschaft. der wunsch des einzelnen könnte zb sagen das er eben pilot sein möchte und ich würde zb eher milder umgehen mit manchen aspekte die dagegen sprechen würden und umgekehrt wenn ich die perspektive der gesellschaft habe dann sag ich naja 200 leute die da im flugzeug sitzen, denen es ist egal ob man grade einen schlechten tag hatte die wollen einfach lebend ans ziel kommen.
!!!!! Eignungsdiagnostik hat also nicht nur die tragweite für die einzelne person sondern eben die tragweite für die gesellschaft . für einen größeren rahmen.
—>!!!!! Wie auf dem schulbeispiel haben wir eine prognostische diagnostik: dh wir gehen in die zukunft. wir machen voraussagen wie wird sich jemand in ähnlichen situationen aber auch in völlig anderen situationen verhalten, wird er in diesen anderen neuen situationen genauso stabil sein,sich genauso korrekt verhalten, genauso richtig agieren ; richtig heißt zielführend problemlösungsorientiert) sodass er geeignet ist diesen beruf auszuführen (oder sie).
-prognosen sind noch sehr viel schwieriger als statusdiagnostik. Prognosen haben eine haltbarkeit und diese haltbarkeit ist nicht linear sondern sie nimmt mit der dauer ab dh wenn ich eine prognose abgebe für eine woche, habe ich eine höhere verlässlichkeit eine höhere wahrscheinlichkeit richtig zu liegen als wenn ich eine prognose abgebe für ein jahr, 5 jahre , 10 jahre.
deswegen sollte man immer wenn man verfahren auswählt überlegen welche prognose diese verfahren zumindest statistisch geben können. also welche prognose dauer dieser ihnen statistisch geben kann. zb lisa studium wurde an der hsd angenommen, was für eine prognosedauer hätte ich denn gebraucht? wovon machen sie die prognosedauer fest?= also die uni sagt ja mit ner zusage: ich bin der meinung das sie dieses studium erfolgreich beenden werden. also prognosedauer wäre die regelstudienzeit für das studium. schule wär zb 8 jahre.. so lange gilt meine einschätzung.
—>Man muss immer gucken wie lange man brauchen würde wenn es einen abgeschlossen zeitpunkt gibt = prognosedauer im anderen fall: man bewirbt sich für ein unternehmen= da schaut das unternehmen ab wann bist du mindestens profitabel für das unternehmen . also ab wie viel monaten oder jahren kann die person für das unternehmen zu mindest einen mehrwert oder einen nullwert erbringen und das ist dann der zeitpunkt für den man die prognose machen würde. zb ab 3 jahre bekomme ich etwas raus von der mitarbeiterin dann würde man für 3 jahre ansetzen. oder nach dem halben jahr lohnt sich schon für unternehmen dann halbes jahr.
bei einem pilot= also jeman der hinter menschenleben steht, wo ein einziger fehler fartal ist dann reicht eine einmalige diagnostik nicht aus. zb ja der ist momentan psychisch gesund dann ist es vlt in einem jahr nicht so, und das wäre nicht gut für einen pilot. dh ich brauche bei solchen berufen immer wiederkehrende diagnostik.
(zb verfahren die 3 wochen prognosedauer angeben sind schlecht.)
letztes beispiel:
steuerungszentrum / kontrollraum : wenn man jemanden diagnostizieren für so einen beruf also einen kontrolltechniker der beaufsichtigt wie so ein reaktor funktioniert oder das er funktioniert dann kann man nicht sagen ja der war mit 25 jahren völlig stabil und mit 50 jahren ist er es auch noch. sondern da braucht man klein marschige diagnostik weil eine einmalige eignung nicht dafür sprechen kann das diese wirklich bleibt. dh !!!! Diagnostik muss manchmal wiederholt werden es ist nicht für jeden beruf so aber es gibt berufe (mit hoher belastung usw) das es wiederholte diagnostik notwendig ist. Nicht nur von der fertigkeit sondern tatsächlich auch von der belastung her.
—>!!!!! es gibt diagnostik von denen der diagnostiker wenig ahnung hat. zb man muss eine diagnostik machen im kernkraftwerk zu arbeiten… da hat man zb keine ahnung wie belastend ist. zwar kann ich es übertragen allerdings ist es so das wir diese konkrete belastung nicht kennnen. wir können es uns nur unzureichend vorstellen wie es ist da zu arbeiten. das problem der Diagnostik der sogenannte critical inzident: dh eine gute diagnostik untersucht nicht den alltag wenn der alltag von der aufgabenstellung her sehr niederschwellig ist dh wenn die aufgaben die man hat einfach sind dann brauch ich hier für keine diagnostik für die fertigkeiten. bei niederschwelligen berufen wie beim bäcker geht es eher um motivation und gibt es weniger den kreativen inhaltlichen indizenz. und soziales mehr gefragt.
(niederschweligge berufe= berufe mit einfachen aufgaben. kassieren zb)
!!!! entscheidend ist das ich den schlimmst möglichen fall also den critical indizent also situationen die selten auftreten aber wenn sie auftreten entscheidend sind ob ich die in meinem diagnostischen prozess möglichst gut antizipieren kann (zb stress situation flugzeug) und dann darauf aufbauend entscheiden kann obs jemand hinkriegt oder nicht.
Inhaltsbereiche und anwendungsfelfer Diagnostik
die psychologische diagnostik ist ein zwischending in der anwendung und den reinen grundlagefächern dh wir verwenden wissen zu bestimmten eigenschaften wie zb wie intelligenz funktioniert, also wir verwenden dieses wissen und wenden es an auf die anwendung um zu schauen wie kann ich dieses wissen verwenden um vorherzusagen wie sich jemand in der anwendung zeigen wird. ob jemand in der lage ist hier gut sich zurecht zu finden oder ob es jemand ist der es nicht so schafft. dh die diagnostik als bindeglied zwischen der grundlage und anwendung natürlich gehören die methoden da auch noch dazu das ist einfach wie ich die grundlagen in der diagnostik verrechne.
wann immer etwas kritisch ist wann immer etwas unsicher ist müsste die diagnostik wieder tätig werden eine person zu helfen einzuschätzen wie es ihr geht ( wir testen ja nicht jeden tag )
eine gute diagnostik in der klinik die findet heraus was denn der schwachpunkt einer person ist. depressiv oder panikstörung, dh differenzialdiagnostik ist extrem wichtig da wir nur dann die passenden interventionen vornehmen können. ganz wichtig wenn es eigenschaften sind die undifferenziell sind zb schlafmangel . (symptome die ganz vielen störungen auftreten)
Was sind Psychologische Testverfahren?
Psychologische Testverfahren gehören, neben Verhaltensbeobachtung und dem explorativen Gespräch, zu den wichtigsten diagnostischen Informationsquellen für Psychologinnen und Psychologen.
Die Psychologische Diagnostik nimmt je nach Anwendungsfeld zwischen 24.4% (klinische Psychologie) und 44.1% (forensische Psychologie) der Gesamttätigkeit eines Psychologen ein
(-Testverfahren kann man auch aufteilen in leistung, persönlichkeit oder speed tests
-insgesamt haben wir 5 verschiedene informationsquellen
-Diagnostik ist fast 50% der tätigkeit bei der forensik für psychologen. )
Definieren Sie Diagnostik
Definition
• dia-gignōskein [griech.] = gründlich kennen lernen, entscheiden, beschließen
Psychologische Diagnostik ist nach Jäger und Petermann (1995) -….. DAS SYSTEMATISCHE SAMMELN VON INFORMATIONEN mit dem Ziel, ENTSCHEIDUNGEN und daraus resultierende Handlungen zu BEGRÜNDEN, zu kontrollieren und zu optimieren.
-….. EIN SYSTEM VON REGELN, Anleitungen und Algorithmen zur Bereitstellung von Instrumenten mit dem ZIEL: psychologisch relevante Charakteristika von Merkmalsträgern zu gewinnen, daten zu einem diagnostischen urteil zu integrieren und entscheidungen sowie prognosen und deren evaluation vorzubereiten.
Merkmalsträger: Einzelpersonen, Personengruppen, Institutionen, Situationen, Gegenstände
(dh diagnostik muss immer systematisch sein. dh wir müssen bevor wir los legen uns eine liste erstellen mit dingen die wir überhaupt erheben wollen, die wir unbedingt erheben müssen dh, informationen die wir brauchen daraus bilden wir eine entscheidung und diese bildet die grundlage für eine intervention.
eine intervention ist es auch wenn man nichts tut: zb patient denkt er ist depressiv, test zeig nicht depressiv , dann kann auch eine intervention sein das gehen sie nachhause alles ok und kommen in halben jahr wieder.
wir haben ein sysmten von regeln und es gibt algorhytmen wir wir dinge berechnen.
!!!!! was sind: psychologisch relevante charakteristika von merkmalsträgern also von menschen die ich untersuche sind zb : wenn man mit irgendeiner eigenschaft zb resilienz ein verhalten vorhersagen kann nennt man das = kriteriumsvalidität . zb wenn ich heut elisa einen intelligenztest durchführen lasse dann sollte ich dieses ergbeniss verwenden können um vorherzusagen welchen beruf sie mal ausüben wird ob technischen, sozialen beruf oder so…
wie nennt man es womit wir es hervorsagt: der Prädiktor , wir messen die prädiktoren und das sind unsere tests also unsere verhaltensbeobachtungen. interviews , um dann etwas vorherzusagen . für die anwendung essenziell.
ich messe ein kriterium weil es mir jetzt noch nicht zugänglich ist.
DIaganostik ist immer zielgerichtet niemanden einfach so testen
Ein psychologisches kriterium muss mindestens eines sein welches ein prädiktor ist für die jeweilige fragestellung dh etwas ist nicht immer psychologisch relevant sondern es ist für den fall psychologisch relevant und zwar nur dann wenn ich mit dem ding was vorhersagen kann was ich vorhersagen möchte. zb beim schuleignungstest frage ich nicht magst du lieber pizza oder pasta weil es keine relevanz für die vorhersage wie gut man hinterher auf dem gymnasium zurecht kommt. psychologisches kriterium wär es wenn man so denkt: ich könnte dadurch schauen ob du eher zur fritten bude gehst oder in ein gourmet restaurant.
psychologisch relevante Charekteristika:
Die Relevanz hängt also davon ab was ich vorhersagen will
psychologisch bedeutet das etwas inner psychisches ist , wie denkst du , wie motiviert bist du zb
es muss varianz bestehen zwischen den personen (unterschiede) (zb in einer kohorte der uni muss ich nicht erhebn ob jeder abi oder abi gleiches hat weil sonst dürften die nicht studieren. also keine unterschiede. keine varianz also. hat also keine relevanz.
Wann ist keine varianz = in sogenannten präselektierten stichproben. dh stichproben bei denen schon eine vorauswahl getroffen worden ist. zb man bittet leute für masterarbeit in einem forum das sie mitmachen = wurde schon vorausgewählt weil welches forum, vlt nur studenten etc. also ist die stichprobe präselektiert = vorauswahl.
zb auf der straße verteilt man flyer= auch präselektiert, wo stelle ich mich, es machen nicht alle mit sondern leute die da irgendwie interesse haben und dadurch auch leistungsmotiviert sind, hängt auch mit sozialer sicherheit zsm: wenn ich zum beispiel kämpfe um über die runden zu kommen dann habe ich keine zeit für einen idioten der irgendwelche flyer verteilt
artockstichprobe= kümmert sich wenn sie kriegen (wen man zb flyer gibt) also ist sie willkürlich aber willkürlich eben nicht das jeder gleich dran kommen kann ( zb an die flyer) also dh hinter dieser willkür findet keine gleichverteilung statt
zufallsstichprobe ist nur dann gegeben wenn alle personen ihrer population die gleiche wahrscheinlichkeit haben das sie mitmachen. und das ist eben nicht gegeben bei einer atockstichprobe.
eine völlige zufalsstichrobe zu erhalten ist extrem schwierig.
MERKEN SIE SICH:
RELEVANT HEIßT KRITERIUMSVALIDITÄT
PSYCHOLOGISCH HEIßT ES MUSS ETWAS SEIN WAS EINE PSYCHOLOGISCHE EIGENSCHAFT IST
DIE EIGENSCHAFTEN MÜSSEN VARIANZ ENTHALTEN. DIE VARIANZ KANN EIGESCHRÄNKT SEIN WENN WIR PRÄSELEKTIERTE STICHPROBEN HABEN ZB weis man psychologie studierende überdurchschnittliche neurotizismus werte (ängstlichkeit) im vergleich zur bezogen auf die gesamtbevölkerung. wenn ich also nur psycholofie studierende hätte dann hätte ich automatisch bei diesen eigenschaften weniger varianz. wir würden also weniger vorhersagen machen können wenn zb ängstlichkeit ein guter prädiktor wäre welche besser funktionieren würde wenn ich die gesamte popultation vor mir hätte.
-die intuitive verrechnung= KLINISCHE verrechnung und e sgibt die statistische verrechnung
die statistische methode für die statistische verrechnung bei mehreren prädiktoren um eine eigenschaft vorherzusagen ist die regression.
linerae / logistische regression dienen dazu eine vorhersage zu machen, die lineare regression dient dazu die höhe einer ausprägung vorherzusagen die logistische dient dazu das ja oder nein das vorhanden sein oder nicht vorhanden sein einer eigenschaft oder des verhaltens vorherzusagen.
evaluation= wenn wir das nächste mal so vorgehen dann hätten wir eine trefferrate von…. sind wir zufrieden mit so einer treffer rate oder sollten wir das ändern…
einzellfalldiagnostik ist die schwierigste diagnostik, da muss realibilität und validität am höchsten sein vom testverfahren.
personengruppen= da kann die realibilität etwas niedriger ausfallen , ich kannd as kompensieren durch die anzahl der personen die ich untersuche , ich kann aber auch situationen , institutionen diagnostieren dh ich kann schauen welche psychlogische eigenschaften hat grade ein gegenstand zb fahrzeug , ich kann auch einen raum diagnostizieren auf verschiedenen dinge. )
Definition: Psychologischer Test nach Lienert und Ratz (1998)
was ist ein test ?
• Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung
(test= also immer gleich mit demselben ziel
zb selbstwert wär ein test wo sie nur eine domäne messen global oder die big 5 wären 5 persönlichkeitsmerkmale
in der diagnostik versuchen wir immer quantitative abstände auszudrücken also wir versuchen varianz dh unterschiede zwischen den personen in zahlen umzuwandeln oder in abstände umzuwandeln. abstände sind dann standardabweichungen zb. wir können in der psychologie nur relative aussagen machen es gibt zb keine absolute intelligenz. wir wissen es gibt intellligenz aber wie hoch sie ist können wir nur im vergleich zu anderen sagen. dh die psychologie ist relativ und deswegen ist das ergbenis eines testverfahrens , ist nur das ergebnis eines testverfahrens und niemals die realität. es ist immer nur ein spiegel der gebrochen ist von dem was eigentlich die realität ist weil wir nicht absolut nicht etwas messen können- weil wir die eigenschaft die wir messen in der psychologie nie direkt sehen könnnen. es geht darum zu sagen eine einzelne person ist so und so viele punkte über oder unter dem durchschnitt . dh meine vergleichs oder referenz population die wiederum aus 100.000 80 millionen menschen besteht. je nachdem wie ich diese referenzpopulation wähle kann ein und dieselbe person sehr viel höhere oder sehr viel niedrigere ausprägungen diagnostiziert bekommen. hängt eben davon ab welches verfahren verwendet wird.
zb intellugenztest: WISE = hier wird man höhere intelligenzwert erhalten als den IST = weil der ist schwerer und die referenzpopulation (vergleichspopulation) besser ist)
Psychologische Tests….
§ Psychologische Tests...
• im engeren Sinne Leistungstests, psychometrische Persönlichkeitstests und
Persönlichkeits-Entfaltungs-Verfahren
—>diese drei bereiche haben wir wobei in der diagnostik bei jugendlichen bis erwachsenen projektive verfahren selten angewand werden (validität unsicher)
• im weiteren Sinne gehören auch standardisierte Interviews und standardisierte Verhaltensbeobachtungen dazu
• erfassen Fähigkeiten, Eigenschaften, Fertigkeiten und Zustände (= nicht direkt beobachtbare Konstrukte = latente Variablen) einer Person
• beinhalten eindimensionale Testwerte, um die Konstrukte und deren Facetten abzubilden
(—>fähigkeiten sind etwas wo es ein gut oder schlecht oder richtig oder falsch gibt, eigenschaften da gibt es nur ein so oder so oder anders oder irgendwie, fertigkeiten sind fähigkeiten die ich mir anlernen kann und zustände sind eigenschaften die temporär sind. all diese konstrukte können wir nicht direkt messen in der psychologie und deswegen sprechen wir von latenten variablen. Die psychologie hat die theorie der latenten variable also der verborgenen eigenschaften dh alles was wir messen oder sehen können sind sogenannten proxis oder genikatoren. also stellvertreter die widerspiegeln wie es in mir oder in einer person aussieht. daher sind alle items in der psychologie wenn sie denn proxis oder stellvertreter sind für diese inneren zustände oder inneren variablen sogenannte REFLEXIVE indikatoren. die reflektieren also wie es innen aussieht die spiegeln also wieder wie es innen aussieht im gegensatz zu formativen indikatoren das wären zb indikatoren aus der physik oder wenn jemand aus der psychologie sich nicht so gut auskennt sodass er dann glaubt das seine items formativ sind. !!!!!!!!!)
idealerweise haben wir tests die eindimensionale teswerte wiedergeben.
wie können testverfahren klassifizieren
Formale klassifikationskriterien von Testverfahren
§ Formale Klassifikationskriterien von Testverfahren
• Anzahl diagnostisch verwertbarer Scores (eindimensional vs.
mehrdimensional) (zb selbstwert = eindimensionale, big 5 =mehrdimensional) wir können also auch testverfahren nachsem klassifizieren wie viele datenpunkte sie liefern)
• Sprachgebundenheit („culture fair“) =(cluture fair wurde früher dafür verwendet um verfahren zu bezeichnen die nicht sprachgebunden sind dh wo es keine texte gibt aber wir wissen aus der Diafnostik das es sowas nicht gibt: weil zb wenn man zb eine Grafische Darsrellung vor sich hat dann wird man sich schon vorstellen was man hier sieht zb zwei Punkte , eine Linie etc und dann wird die Lösung mit Sprache manipuliert dh man wird sich überlegen wie kann ich den hier einen Zusammenhang erkennen dh diese cluture fair tests sind nicht sprachfrei sondern sie sind auch wenn sie selbst keine sprache verwenden so das menschen sprache einsetzen und wenn jemanden die sprache grundsätzlich nicht so geläufig ist zb wenn er mhersprachig aufwächst und deswegen in mehreren sprachen zwar ein sehr gutes niveau hat aber zb in einer sprache in der er sonst denkt gewisse ausdrücke nicht kennt dann haben diese Personen einen nachteil. Und das ist dann eben unfair auch wenn die auf der oberfläche culture fair sind.)
• Durchführungsmodalitäten (ich kann sie klassifizieren wie sie durchgeführt werden zb einzel, gruppentest) (gibt kein verfahren was nur als gruppentest durchgeführt werden kann, einzelverfahren können aber als gruppe auch )
- Einzeltestvs.Gruppentest
- PapierundBleistift-vs.computergestützteVerfahren
• Speed-Tests vs. Power-Tests (fähigkeitstests)
• antwortabhängig vs. antwortunabhängig (antwortunabhängig= dh die laufen immer nach dem selben muster ab da gibts keine anpassung on the fly dh die sind frage 1-50 ist immer 1-50 und antwort gibts 1-50.
antwortabhängingen verfahren= da kann es sein das frage 2 ganz anders ausfällt, abhängig halt von der antwort.
(also die antwortabhängigen und unabhängingen verfahren geben einfach an nur wie die verzweigung von items ist oder wie die reihenfolge von items ist. antwortunabhängige verfahren die haben eine feste reihenfolge also ein festes set von items, also die bekommt jede person vorgegeben, ganz gleich wie sie den antwortet. Antwortabhängige verfahren die überlegen sofort auf der antwort nach dem ersten item was wäre den das nächste möglichst passende items das ich dieser person vorgebe. zb wenn jemand bei ner aufgabe 3 mal drei schon scheitert ist es wahrscheinlich ungünstig der person jetzt als nächstes die wurzel von 372 vorzugeben sondern dann stelle ich der person eher ein item vor welches leichter ist als 3 mal drei. dh ich reagiere auf die antwort und gebe dann ein item vor wo ich denke es passt besser bei antwortabhängigen tests. Vorteil antwortabhängiger test: Ökonomie dh ich versuche mich sehr schnell an die wahre leistungsfähigkeit anzunähern dieser person. Nachteil antwortabhängiger Verfahren: wenn ich zb zufälligerweise einen fehler mache dann werde ich sofort quasi “bestraft” mit einem Item welches dann leichter ist als ich eigentlich lösen könnte. Und es steht ein jojo-effekt weil wenn ich etwas kann kriege ich eine schwere aufgabe automatisch und wenn ich eine nicht lösen kann kriege ich eine leichtere dh motivational können diese verfahren schwierig sein. )
SPEED VS POWER TESTS: Andere karteikarte extra
Unterschied SPEED VS POWER TESTS
Hausaufgabe
-Speed Tests: Geht es um die Bearbeitungsgeschwindigkeit zb: Rechenaufgaben mit Zeitlimit: schaut man wie viele geschafft haben in der Zeit. Diese Rechenaufgaben müssen alle von der Schwierigkeit konstant einfacher eher sein also keine steigerung der schwierigkeit. Weil testkriterium ist: wenn ich nur die Bearbeitungsgeschwindigkeit von Personen vergleichen möchte dann muss die aufgabe so aussehen das auch der langsamste sie zumindest lösen kann. Sonst wird nämlich nicht nur Geschwindigkeit sondern auch Können ab. Dh Speed Aufgaben müssen für die gesamte Population die man sich vorstellt lösbar sein also es darf keiner diese aufgabe nicht lösen können. es gibt aber auch kombinierte Speed und Powertests da kann man sagen ich möchte schauen wie schnell bist du bei leichten aufgaben und wie schnell bist du bei schwierigen aufgaben. dann kann es auch sein das jemand die aufgaben nicht mehr lösen kann.
aber ein echter speed test hat aufgaben die jeder aus der population lösen kann.
bei power ist es im gegensatz dazu so, das sich die aufgaben vom schwierigkeitsgrad her steigern. da ist es auch notwendig das es eben aufgaben gibt die keiner oder fast keiner lösen kann aus der jeweligen population und es eben auch aufgaben gibt die fast alle oder alle lösen können aus der Population.
(aufgaben die alle lösen können oder eben keiner löst haben keine varianz also diese liefern uns keine informationen darüber ob jemand besser oder schlechter ist, da es im vergleich zu anderen aus der population dann keine unterschiede gab.) also differenzialdiagnostisch liefern diese keine Unterschiede. solche aufgaben plant man trotzdem ein da man sich denkt das es irgendwann doch eine person gibt die solche aufgaben nicht löst oder doch lösen kann.
Klassifikation von Testverfahren nach Brähler et al. (2002):
- Leistungstests: z.B. Entwicklungstests, Intelligenztests, allgemeine Leistungstests, Schultests, spezielle Funktionsprüfungs- und Eignungstests
- Psychometrische Persönlichkeitstests: Persönlichkeitsstrukturtests, Einstellungstests, Interessentests, klinische Tests
- Persönlichkeits-Entfaltungs-Verfahren: Formdeuteverfahren, zeichnerische- und Gestaltungsverfahren, Verbal-thematische Verfahren
Tests of maximum performance vs tests of typical response (Cronbach, 1990).
(cronbach hat tests of maximum performance vs typical response eingeführt.
Grob gesagt ist es so, dass wir in unserem normalen leben selten an unsere leistungsgrenze gehen sondern in den meisten fällen verhalten wir uns so wie wir uns immer verhalten dh wir werden zb in einer vorlesung nicht sagen ich muss mich jetzt maximal anstrengen, weil es geht hier um wahnsinnig viel. Sondern man sitzt eher hier und man wird eher seine typische response zeigen dh in diesem typical response set sind vor allem eigenschaften wichtig wie ihre motivation, ihre ängstlichkeit oder wie ihre aufmerksamkeit aber sehr viel weniger wie ihr logisches denken also man wird jetzt nicht sein logisches denken auf maximum fahren sondern man wird eher nur versuchen zuzuhören, mit zu notieren , sich zu überlegen kann ich das verknüpfen mit bisherigen wissen etc aber es ist eher eine situation von typical response.
Meistens unterteilt man Persönlichkeits- und Leistungstests in diese beiden bereiche dh ein Leistungstests möchte herausfinden was ist deine maximal Performance dh ein intelligenztest will ja wissen wie viel kannst du denn beim denken erreichen , wie hoch ist deine logische denkfähigkeit ausgrpägt
Persönlichkeitstests dienen dazu spontan zu antworten, nicht zu viel drüber nachzudenken also die antwort nehmen die einen als erstes in den sinn kommt, da geht es darum zu erfahren wie man denn in den meisten situationen reagieren wird. nicht in extremsituationen.
beispiele für maximale performance sind also intelligenztests / Leistungstests, Kreativität und Konzentrationstests
Bei leistungstests folgende instruktion: ihr bestes geben, möglichst schnell / genau viele aufgaben lösen
bei persönlichkeitstests insturktion: spontan antworten, es ibt kein richtig oder flasch, also so wie du bist ist in dem fall dann das richtige )
-
Tests of maximum performance vs. tests of typical response (Cronbach, 1990): mögliches Modell
Das mögliche Modell um diese beiden bereiche zu veranschaulichen:
(Besagt das die Maximum performance am stärksten abhängt von der ability (=knowledge= ist einfach wissen und wissen ist kristalinie intelligenz, dh alles was ich akummuliert habe an statischen wissen das können auch sets sein von handlungen also zb ich muss nicht logisch denken , wenn ich an der ampel stehe und die ampel geht von rot auf grün, ich weiß dann bei grün darf ich los. Ist also ein gespeicherter automatismus.) ( ability vs skills= fähigkeiten und fertigkeiten. Fertigkeiten sind dinge die man erlernen kann zb Mit exel umgehen, das ist eine fertigkeit also ein SKILL. das man logisch denken kann ist eine ability alos eine fähigkeit.) skills haben später ihren höhepunkt weil man ja immer trainieren, lernen kann und man dann später besser wird, ability also fähigkeiten eher früher weil sowas wie die denkkraft zb ja im alter abnimmt.) ability also fähigkeiten die mir ziemlich vorgegeben sind klar kann man zb als kind noch einiges verändern aber ab einem gewissen zeitpunkt ist die veränderungsmöglichkeit eher gering).
(Regression ist es eine statistische überlegung die sagt, eine variable bedingt eine andere variable. ist also die ursache einer ausprägung einer anderen variable. wir zeichnen es grafisch dardurch ein das die eine variable einen pfeil zeigt auf die andere variable. also einen einfachen pfeil keinen doppelpfeil oder einen pfeil der in beide richtungen eine spitze hat. wir sehen hier im modell zeigt die general mental ability auf die ability. dh meine allgemeine fähigkeit zeigt auf meine spezifische fähigkeit. spezifisch weil zb es gibt eine rechen oder sprachfähigkeit. dh meine spezifische fähigkeit hängt ab von meiner globalen fähigkeit. die ability ist also auch die ursache für meine taskknowledge und ursache auch für meine practical intelligence. dh wie ich zb handtiere zb ich stehe vor dem geldautomat und möcht geld abheben dann heißt es das die denkfähigkeit irgendwann mal einen beeiflusst das man weiß welche aufgabe man grade vor einem hat. das man verstanden hat ich muss jetzt mit einem automaten interagieren. Die practical intelligence sagt dann darüber aus wie setze ich das dann um , also wie kann den mein denken sich manifestieren in verhaltensweisen also fingerbewegung etc. dh meine inneren fähigkeiten bedingen wie ich den außen handle. bedingen was ich den weiß wie den bestimmte aufgaben zu erledigen sind. hier in dem modell hat die ability einen pfeil auf die motivation das beduetet menschen also hier gehts viel mehr um leistungsmotivation primär die sich leicht tun beim denken haben meistens auch mehr motivation zu denken. dh meine fähigkeit bewirkt das ich mehr motivation habe. die motivation hängt also meistens mit den fähigkeiten ab. und ability beeifnlusst oder motivation . motivation bewirkt dann auch typical performance und ability bewirkt auch typical performance. normal ist es so das meine motivation bewirkt viel stärker wie ich mich im normalen leben verhalte als meine fähigkeit. bei maximum performance wenns darum geht irgendein komplexes problem zu lösen ist die motivation im verhältnis (deswegen ist da kein pfeil von motivation auf maximum performance hoch) deutlich weniger relevant. )
FADMODEL
!also merken: PFADMODELLE VERKNÜPFEN REGRESSIONSDENKEND VERSCHIEDENE VARIABLEN UNTEREINANDER (EINE REINE REGRESSION HÄTTE NUR EINEN PFEIL ALSO HÄTTE IMMER NUR EINE ABHÄNGIGE VARIABLE , DIE ABHÄNGIGE VARIABLE IST DIE AUF DIE EIN PFEIL ZEIGT) PFAD MODELLE GEHEN ABER WEITER IN DEM SIE VIELE REGRESSIONEN GLEICHZEITIG ODER HINTEREINANDER ZEICHNET. PFADMODELL VERKNÜPFEN ALSO MEHRERE VARIABLEN ZUEINANDER , ALSO SIE SETZEN SICH IN BEZIEHUNG ZUEINANDER SODASS MAN WEIß WIE SIE GEGENSEITIG AUFEINANDER WIRKEN UND DAS MAN WEIß WAS KOMMT DEN VORHER WAS KOMMT DEN NACHHER.)
ELIPSEN ODER KREISE WERDEN ALS LATENTE EIGENSCHAFTEN ANGESEHEN NORMALERWEISE UND RECHTECKE ODER QUADRATE GELTEN ALS MANIFESTE VARIABLEN. (HIER IN DEM BSP NICHT DIREKT DURCHGEZOGEN )
Grundlegende Klassifikation:
Psychometrische Persönlichkeitstests
Persönlichkeits-Entfaltungsverfahren
§ Psychometrische Persönlichkeitstests:
• spezifische, klar strukturierte Stimuli, um ein ganz spezifisches Verhalten direkt oder indirekt zu erfassen (z.B. durch Selbstauskunft in einem Fragebogen)
• Gütekriterien meist erfüllt
• Beispiele: NEO-FFI, 16PF, AAS-R
(psychometrische persönlichkeitstests sind die verfahren die die hauot und nebengütekriterien nachweisen können. ich kann zb auch nachweisen warum ich dieses item verwenden. kann es begründen. (theorie dahinter)
§ Persönlichkeits-Entfaltungs- Verfahren:
• unspezifische, wenig strukturierte Reize und globale Aufgabenstellungen, großer Freiraum für Testpersonen (Reaktionen) und Diagnostiker (heterogene, qualitative Interpretationsmuster)
• Gütekriterien oft nicht erfüllt oder schwer prüfbar
• Beispiele: Rohrschach, TAT, Familie in Tieren
(die aufgabenstellung hat bei persönlichkeits-entfaltungsverfahren interpretationsspielraum das bedeutet ich kann nicht für jede person hat dieses item der ich es vorgebe diese eigenschaft (zb rohrschaft test) diese antwort, oder diese denkweise kommt da hervor, sodass ich weiß wann den eine antwort bedeutet. dh solche items sind multivalent. und dadurhc ist die inhaltsvalidität nicht mehr eindeutig dh sie wechslet von person zu person. ) unbekannt ist hier also die testperson und das utem, da wir schauen was den dieses item für diese person ausscjaut. ) nicht vergleichbar weil interpretation so ist.
beispiel für psychometrische Persönlichkeitstest vs Persönlichkeitsentfaltungsverfahren
(psychometrische verfahren sind meistens mit einer likert skala welche gestiuft ist gekennzeichnet und danben ist der rohrschachttest.
bei rohrschafttest interpretiert ja jeder anders, was ich hier sehe hängt ja von ganz vielen variablen ab, blickabstand, erfahrung etc.
Fähigkeit , Fertigkeit , Performanz , Bewertung der Performanz, Kompetenz-Performanz-Problem einmal definieren
Fähigkeit:
• psychische und physische Bedingungen, die es ermöglichen eine Leistung zu
erbringen
• latent, d.h. kann nur über Beobachtungen erschlossen werden
• z.B. Intelligenz, Konzentration, Vigilanz
§ Fertigkeit: Bezeichnet die zu einer Leistung notwendigen Techniken und Kenntnisse, die durch Übung erworben werden
§ Performanz: Aktuelle Leistung aus der auf die zugrunde liegenden Fähigkeiten und Fertigkeiten geschlossen wird.
(performance oder performanz ist etwas was beide vermischt, daher würden wir diesen begriff in der psychologie vermeiden solange wir können. also performance oder performanz ist in einer spezifischen aufgabe eine für den moment geltende leistung die von unterschiedlichen variablen abhängen kann eben von der fähigkeit aber auch von der motivation aber auch davon wie verstädnlich, wichtig mir die aufgabe war etc). also performance oder performanz ist eher ein begriff der außerhalb der psychologie gerne verwendet wird. aber innerhalb der psychologie nicht so gern verwendet wird. )
Bewertung der Performanz:
• Richtigkeit (korrekt vs. falsch)
• Qualität (mehrere, unterschiedlich gute Lösungen möglich)
• Schnelligkeit (Tempo, mit dem Lösung generiert wird)
häufig auch kombinierte Leistungsmaßstäbe
Kompetenz-Performanz-Problem: Performanz ist nur dann Indikator für eine Fähigkeit (Kompetenz), wenn die Testperson die Leistungsmaßstäbe versteht und übernimmt
Bennen sie die unterschiede zwischen Speed tests und Power Tests auch Niveautests
Schnelligkeitstests (speed tests):
• Schnelligkeitsmaßstab im Vordergrund
• leichte oder mittelschwere Aufgaben; ohne Zeitbegrenzung könnten alle Aufgaben gelöst werden
• innerhalb kurzer Zeit viele Aufgaben lösen
• z.B. Tests zur Messung der Konzentration, motorischer Geschicklichkeit etc.
• Testscore: geht nur um die anzahl der richtig gelöste Aufgaben bzw der prozentuale anteil von richtig zu falsch gelösten aufgaben , Testzeit, Anzahl bearbeiteter Aufgaben
Niveautest (power tests):
• Qualitäts- oder Richtigkeits-
maßstab im Vordergrund
• Aufgaben in der Regel aufsteigend nach ihrem Schwierigkeitsgrad geordnet
• keine oder großzügig bemessene Zeitbegrenzungen
- selbstohneZeitbegrenzung können Probanden nicht alle Aufgaben lösen
• Testscore: wie viele löse ich richtig aus dem pool von maximal lösbaren aufgaben. keine zeitbegrenzung
Fähigkeits- und Leistungstests können den Testpersonen auf unterschiedliche Arten vorgegeben werden:
• konventionelle Testvorgabe (= jede person bekommt dieselben items vor es gibt keine unterschiede für die vorgabe, häufig ist es so bei zb leistungstests das die leichten aufgaben am anfang stehen und die schweren später. Vorteil der konventionellen Testvorgabe: wir können personen auch dann vergleichen wenn unsere items nicht rasch konform sind dh wenn unsere items nicht äquivalent sind weil ja alle personen alle Items kriegen kann ich am ende die scores vergleichen).
• antwortabhängige Testvorgabe (= da gibt es eben die unterscheidung zwischen sequentielle / adaptive vorgabe:
(adaptiv = das ich in abhängigkeit der antwort entscheide wie man weiter geht (ist ja die grundidee von antwortabhängingen tests)
(bei sequenzieller vorgabe= ist es so das wir immer eine bestimmte sequenz von items vorgeben und dann überlegen wie wir weiter gehen, bei sequentiellem testen geht es immer darum ab wann kann ich eine terminale entscheidung treffen.)
(terminal vs investigatorische entscheidung)= zb ist celin geeignet mit kindern zu arbeiten= globale fragestellung, die finale entscheidung sollte lauten ja oder nein, dh eine terminale entscheidung hat am ende eine aussage die schwarz oder weiß ist. eine ivenstigatorische aussage dagegen ist eine in der man sagt wofür ist denn celin besonders geeignet? und dann würde inverstigatorisch sein indem ich frage ja was ist denn einer der wichtigsten kriterien um zu entscheiden welche berufe du gehen möchtest, zb. mit menschen abreiten oder nciht. dh investigatorishc ist wie ist denn das verhältnis von celine mit anderen menschen. dh ich hab am ende eine entscheidung ja sie mag menschen gerne. dh ich habe investigativ überprüft wo steht sie denn im vergleich zu anderen menschen und hab dann herausgefunden ja sie mag menschen. )
terminal also passt meine hypothese ja oder nein. ) also (terminal bedeutet ich habe eine gerichtete hypothese und die kann ich mit ja oder nein beantworten. beim sequenziellen test will ich zb herausfinden liegt eine zwangsstörung vor udn wenn ich nach dem ersten item frag “fühlst du dich manchmal unsicher” und man mit ja antwortet dann ist es ein indiz dafür das eine vorliegen könnte aber ich kann nicht sicher sein mit diesem einem item. also wird weiter gefragt. man geht so lange vor bis man eine gewisse sicherheit hat das man die hypothese positiv oder negtaiv beantworten kann). so eine sequenzielle vorgabe kann nur computergestützt fast nur erfolgen weil im hintergrund ja eine auswertung erfolgen muss).( es wird ja ausgerechnet welches item liefert mir im folgenden die meiste information) Vorteil: brauche viel weniger items , ökonomischer also allerdings ich kann nicht vergleichen, weil die items nicht rashc konform sind. )
- sequentielle Vorgabe - adaptive Vorgabe
1.3 Fähigkeits- und Leistungsdiagnostik
Konventionelle Testvorgabe
• jeder Proband bearbeitet den gleichen Itemsatz, selbe Reihenfolge
• fixierte Itemmenge
• oft Staffelung nach Schwierigkeit: leichte Items zuerst
• für hohe Messpräzision in allen Bereichen des Merkmalskontinuums ist eine große Itemmenge mit unterschiedlichen Schwierigkeiten nötig
• adaptive Elemente:
- in manchen Tests,z.B.Hamburg-Wechsler-Intelligenztest für Kinder III - Abbruchkriterien bzw. UmkehrregelnzuleichterenItems
- spezifische Einstiegsitems (nach vermutetem Fähigkeitsniveau)
- Ziele: Steigerung der Ökonomie,Vermeidung von Demotivation
Antwortabhängige Testvorgabe
• gegebene Antworten entscheiden über den weiteren Verlauf des Testens
• flexible Strategie der Informationserhebung
• Grundidee: es werden nur die Items verwendet, die einen deutlichen
Informationsgewinn versprechen
• Einsatz bei Selektions- oder Klassifikationsaufgaben
• Unterscheidung von sequentiellem und adaptivem Testen
1.3 Fähigkeits- und Leistungsdiagnostik
Sequentielles Testen
• Grundgedanke: Abbruch des Tests, sobald genügend Informationen vorliegen,
um die Testperson einer Gruppe zuzuordnen
• Bsp.: Hat ein Klient eine Angststörung?
• Einsatz bei Selektions- oder Klassifikationsaufgaben, z.B. Entscheidungsbäume nach DSM, Symptom-Checklisten
• Entscheidungsregeln: nach jeder Aufgabe erfolgt Prüfung, ob genug Informationen vorliegen, um terminale Entscheidung treffen zu können
• Vorgabe meist am PC
• Vorteil: in der Regel kürzer und ökonomischer als konventionelle Tests
• Nachteil: keine Binnendifferenzierung innerhalb der Gruppen (A besser als B in der Gruppe der angenommenen Kandidaten)
Adaptives Testen
• Ziel: quantitative Messung von
Personenmerkmalen optimieren
• Grundgedanke: Erstellung eines individuellen Itemsatzes für jede Testperson, optimal abgestimmt auf sein Fähigkeitsniveau
• Konstruktionsgrundlage: Item- Response-Theorie (IRT)
• Nach jedem Item wird entschieden, welches Item der Testperson als nächstes vorgelegt wird (geringe, mittlere oder hohe Schwierigkeit)
• Informative Items = Items mit mittlerer Lösungswahrscheinlichkeit für die
Testperson
• Testperson pendelt sich während der Testung auf Niveau der Itemschwierig- keit ein, das ihrem Fähigkeitsniveau entspricht
• Achtung! Testpersonen können nicht über die Anzahl gelöster Items verglichen werden,da jede Testperson einen individuellen Itemsatz bekommt
—>Außer wenn Rasch-homogene Items!
- Vergleich der Testpersonen nur über ihren Fähigkeitsparameter
• 2 Arten adaptiven Testens
- festverzweigte(branched)Tests und
- variable,maßgeschneiderte(tailored)Tests
Verzweigtes Testen
Maßgeschneidertes Testen
Verzweigtes Testen:
• festgelegte Verzweigungen entweder nach jedem Item oder nach jeder Aufgabengruppe
• Itemanordnung und Zahl der Schritte a priori festgelegt
• Bsp.: Aufgabengruppen im AID-3 (Adaptives Intelligenz Diagnosti- kum 3)
Maßgeschneidertes Testen:
• variable/maßgeschneiderte Verzweigungen: Itemanordnung und Zahl der Schritte nicht a priori festgelegt
• nach jedem Item wird das Fähigkeitsniveau der Testperson geschätzt und das nächste Item ausgewählt, das für die geschätzte Fähigkeit den höchsten Informationszuwachs erwarten lässt
• gleichzeitige Ermittlung des Schätzfehlers (loop)
• Vorgabe computergestützt
Vorteile des adaptiven Testens
Nachteile des adaptiven Testens
Vorteile des adaptiven Testens:
• höhere Testökonomie
• höhere Messpräzision
• evtl. höhere konvergente und diskriminante Validität
• Effekte auf Testmotivation umstritten
Nachteile des adaptiven Testens:
• aufwändige Testkonstruktion
• IRT-konformer Itempool
• großer Itempool (Gleichverteilung der Itemschwierigkeiten notwendig)
Adaptives testen
(beim adaptiven testen wird wirklich jedes item völlig frei ausgewählt dh nach der antwort des ersten items wähle ich völlig frei aus wie das nächste item aussehen wird passend auf die ausprägung der person. Etwas einfacher ist es wenn man pyramidal testet, das bedeutet wir haben nach jedem item zwei alternativen , wir können netweder nach links oder nach rechts gehen.) also die alternativen aus denen wir auswählen können welches item als nächstes komtm sind nur 2. VORTEIL. ZUM BEISPIEL GEHT DAS AUCH MIT PAPIER BLEISTIFT)
Nennen sie mir einen maßgeschneiderten test
MERKEN?
(AID von Kugelmöhr Intelligenztest = adaptives intelligenzdiagnostikum ist rasch konform und ist eine methode mit möglichst wenigen items herauszufinden wie das intelligenzniveau einer person ist. ansonsten gibt es sehr wenige maßgeschneiderte tests die von haus aus schon so sind.
MERKEN!!: DIE MESSGENAUIGKEIT STEIGT MIT JEDEM ZUSÄTZLICHEN ITEM.
DIE MINIMIERUNG EINES SCHÄTZFEHLERS IST DANN BESONDERS GROß WENN DIE ITEMS DEN PERSONEN DIE ICH DAMIT TESTEN WILL GUT ENTSPRECHEN. )
Persönlichkeit
Persönlichkeit (lat. Persona, Maske, Rolle, Person) ist die Gesamtheit aller überdauernden individuellen Besonderheiten im Erleben und Verhalten (= Persönlichkeitseigenschaften) eines Menschen (Asendorpf, 2014)
• Bsp. Intelligenz, Aggressivität Geselligkeit, Leistungsmotivation
• „Überdauernd“ bezieht sich auf die zeitliche Stabilität dieser Besonderheiten
• Dispositionen, d.h. Tendenzen bestimmte Situationen in einer bestimmten Weise zu erleben und sich dort in bestimmter Weise zu verhalten (dh bestimmte situation ähnlich interpretiere und daann ähnlich verhalte= disposition dann )
• Mit „individuellen Besonderheiten“ ist gemeint, dass es sich um Merkmale handelt, die zwischen den Mitgliedern einer Bezugsgruppe variieren (dh persönlichkeit ist nur dann persönlichkeit wenn unterschiede vorhanden sind)
( persönlichkeit ist ein trait und im gegensatz dazu haben wir den stait. also die eigenschaften die durch die situation ausgelöst werden oder mitbedingt werden.)
denken sie an die glauschische normalverteilung
(67% DER MENSCHEN SIND DURCHSCHNITTLICH)
1.4 Persönlichkeitsdiagnostik
Welche Datenquellen werden in der Persönlichkeitsdiagnostik unterschieden?
Klassifikation nach Cattell (1957):
• Questionnaire-Daten (Q-Daten): Selbstauskünfte im Interview, Exploration
oder Fragebogen
• Test-Daten (T-Daten): indirekte Verfahren, z.B. physiologische Daten, objektive und projektive Tests (daten die man nicht beeinflussen kann zb ruhepuls bei physiologischen daten oder leistungstests gehören auch dazu, projektive verfahren da kennen die testpersonen ja den sinn nicht davon also können sie diese nicht manipulieren)
• Life-Daten (L-Daten): Fremdbeurteilungen, biographische Merkmale ( können aus verhaltensbeobachtungen raus kommen, oder daten aus dokumenten wie abinoten etc) oder zb man wüllt im müll, dann findet man raus was man am tag weggeworfen hat und das kann man nicht verändern). hier eingeschränkte range an variablen die wir erheben können).
Welche Informationen können mit Fragebögen/Q-Daten erfasst werden? Nach Angleitner, John und Löhr (1986):
wie schauen unsere q data aus
• Beschreibungen eigener Reaktionen („Es ist mir wichtig, nicht nervös zu erscheinen“)
• Eigenschaftszuschreibungen („Ich bin ein geselliger Mensch“)
• Wünsche und Interessen („Ich würde gerne um die Welt segeln“)
• Biographische Fakten („In meiner Jugend bin ich schon mal mit dem Gesetz in Konflikt gekommen“)
• Einstellungen und Überzeugungen („Wenn ich starkes Herzklopfen verspüre, befürchte ich einen Herzanfall zu bekommen“) (=sind meistens kausalannahmen, wenn dann annahmen, oder weltsichtannahmen)
• Reaktionen anderer gegenüber der eigenen Person („Meine Familie ist mit meinem Beruf nicht einverstanden“)
• Bizarre Items („Man wollte mich schon mal vergiften“) (zb MRPI laufen die) (die idee hinter so einem item ist das sowas in der regel sleten passiert)
Welche Arten von Items werden in Fragebögen verwendet?
• Gebundenes Format:
(in quantitativen auswertungen muss ich sie gebunden verwenden )
- Rating/Likert-Skalen
- binäreItems (dh dichotome items)
- Mehrfach-Wahlaufgabe - ... oder (multiple choice aufgaben)
• Ungebundenes Format
(=hier würde man offene antworten kriegen , sinnvoll wenn man explorativ vorgeht oder wenn man am anfang einer diagnose steht) kann man dann aber nicht quantitativ auswerten
Vorteile von Persönlichkeitsfragebögen/Q-Daten
Nachteile von Persönlichkeitsfragebögen/Q-Daten
• Vorteile:
Ökonomie hinsichtlich Durchführung, Auswertung und Kosten (ich kann in kurzer zeit sehr viele items vorgeben, sind schnell zu beantworten )
• Akzeptanz (diese art von items hat eine hohe akzeptanz weil man als testperson denkt das man die möglichkeit hat sich so darzustellen wie man den wirklich ist und weil man die möglichkeit hat vlt ausnahmeverhalten so darstellen kann wie man immer ist, man denkt also man hat einfluss drauf was man denn antworten kann)
• Zugang zu vielen Informationen
• weitgehende Standardisierung (kann also sehr schnell auswerten auch) (es gibt ganz klare durchführungs, interpretationsregenln) brauch mich alos nicht drum kümmern)
• Anwendbarkeit der Methoden der Testtheorie
(ich kann eine person damit alles fragen)
Nachteile von Persönlichkeitsfragebögen/Q-Daten:
• absichtliche Verfälschung möglich (Faking) - Simulation (kann absichtlich sein / ich summuliere oder unbeabsichtlich sein das ist dann dissmulation= also ich stelle mich schlechter dar als ich bin)
- Dissimulation
• unbeabsichtigte (?) Verfälschung (=zb rassismusforschung zeigt das sie gewisse kombinationen von wörtern verwenden obwohl sie von sich sagen das sie nicht rassistisch sind) paasiert also unbewusst) auch möglich unbabsichtliche verfälschung )
- Soziale Erwünschtheit
- Zustimmungs tendenz bzw.Ablehnungstendenz - Tendenz zur Mitte bzw. zu extremen Antworten ( BSP AUF EINER SKALA VON 1-10 sagen 60 bis 70% MIT EINER 6,7,8 ANKREUZEN, das ist tendenz zur mitte!!!!!!!)
• Fluktuationen der Motivation
• Reihenfolgeeffekte
• spezielle Kontexteffekte
• teilweise geringe Prädiktionskraft für spezifisches Verhalten
Vorteile von T-Daten
• Vorteile von T-daten:
Problem von Q-Daten:
Manche Testpersonen wollen oder können keine
adäquaten Selbstberichte abgeben
• Gewinnung von Persönlichkeitsdaten aus Fähigkeits-, Wahrnehmungs- und Handlungstests
• Bsp.: Stroop-Test, Implicit association test (IAT), Dot probe
• Vorteile: Messintention ist nicht evident
➜ kann Verfälschungstendenzen entgegen wirken
• Nachteile:
- T-Daten stimmen oft nicht mit Q-Daten überein (niedrige konvergente Validität) - T-Daten sind wenig stabil
Wie interpretiert man die Testwerte eines psychologischen Tests?
Testscore wird meist gewonnen durch simples Aufsummieren der Antworten auf die Testitems („trivial scoring function“)
Zwei Arten von Bedeutung:
• „allgemeine Bedeutung“: Testwert eignet sich als formale Beschreibung einer Persönlichkeitseigenschaft ➜ Belege zur Konstruktvalidität notwendig
• „besondere Bedeutung“ für Testperson ➜ ergibt sich erst durch einen sinnvollen Bezugsrahmen für den Testscore
- Unterpunkt. Wie stark ist das Persönlichkeitsmerkmal bei der Testperson ausgeprägt?
- Ist der individuelle Testwert einer Person irgendwie besonders, auffälligoder hoch/niedrig?
Bezugsrahmen für die Interpretation individueller Testergebnisse – drei Arten: Wir können den individuellen Testwert vergleichen mit...
• vorangegangenen Werten, z.B. am Anfang des Schuljahres (individuelles Bezugssystem)
• einem Kriterium, z.B. Führerscheinprüfung, Abi (kriterienorientiertes Bezugssystem)
• den Werten einer relevanten Vergleichsgruppe, z.B. Realschüler im selben Alter (normorientiertes Bezugssystem)
1.6 Kriterien zur Beurteilung von Testverfahren
Was ist ein „guter“ Test?
Es gibt über 6000 veröffentlichte psychologische Testverfahren
➜ Test, der für die Untersuchung einer bestimmten diagnostischen Fragestellung geeignet ist, d.h.
dessen Eignung anhand psychometrischer Gütekriterien belegt werden kann!
Wir brauchen die psychometrischen Gütekriterien für
• Testvalidierung • Testauswahl
Psychometrische Gütekriterien
nach Kemper, Ziegler, Krumm, Heene & Bühner (2015)
DA SIND HAUPT UND BENEGÜTEKRITERIEN
Objektivität / arten
• Definition: Grad der Unabhängigkeit des Testergebnisses von der Person des Testleiters (Bühner, 2011)
• Eine Testwertinterpretation ist dann objektiv, wenn die Durchführung und Auswertung eines Tests sowie die Interpretation einer Testleistung nicht variiert, auch wenn unterschiedliche Testleiter den Test durchführen (Ziegler, 2017)
Durchführungsobjektivität:
• Standardisierung der Untersuchungssituation
• Verhalten, Kommunikation, Fragen, Antwortmöglichkeiten
Auswertungsobjektivität:
• Schablonenauswertung, Computerdiagnostik
• Fragebogen und Ratingskalen: Festlegung der Antwortmöglichkeiten, Ratertraining, Beobachterschulung etc.
• Projektive Tests: Festlegung exakter Auswertungsregeln
Interpretationsobjektivität
• Festlegung der Interpretationsmöglichkeiten, Konfidenzintervall, Beispiele
merken !!! 1.6 Kriterien zur Beurteilung von Testverfahren
Reliabilität
• Definition: Unter Reliabilität versteht man den Grad der Genauigkeit, mit dem
ein Testwert ein bestimmtes Merkmal misst
• Auch Zuverlässigkeit, (Messpräzision)
• Es gibt unterschiedliche Reliabilitätsschätzer/ Reliabilitätskoeffizienten
-( Höhere reliabilität bedeutet nicht das ich das richtige messe sondern ich messe etwas genau. kommt also nicht drauf an was ich messe sondern auf die genauigkeit. )
(!!die Reliabilität setzt zwei varianzen in beziehung nämlich die true score varianz und die fehlervarianz. und weil wir den truescore niemals kennen wir können ja nicht die wahre varianz erkennen weil wir in der psychologie latente eigenschaften haben also unsere konstrukte sind alle verborgen können wir diese true score varianz nur schätzen und deswegen sind alle berechnungen bezogen auf die reliabilität nur schätzer!!!!!!!!!!!!!!!!)
§ Testhalbierungs-Korrelation und interne Konsistenz
§ Testhalbierungs-Korrelation und interne Konsistenz:
• Schätzung anhand testinterner Informationen
• Testhalbierungsreliabilität
- Teilung des Tests in möglichst „gleiche“ Testhälften
- Ermittlung der Korrelation zwischen den Testhälften und Aufwertung des
Reliabilitätskoeffizienten
• Interne Konsistenz
- jedes Item wird als eigenständiger Testteil angesehen
- z.B. Cronbachs Alpha
- berücksichtigt den Zusammenhang zwischen Items und Testlänge
Test-Retest-Korrelation / Paralleltest-Korrelation
Test-Retest-Korrelation:
• Testdurchführung zu zwei verschiedenen Testzeitpunkten
• Ermittlung einer Korrelation zwischen den Testleistungen
• Korrelation kann in Abhängigkeit vom Zeitintervall variieren
• Merkmalsstabilität
(die testretest reliabilität zeigt an wie stabil die messung ist die ich gemacht habe, stabil heißt wie sehr ist den der wert noch heute vorhanden wenn ich diesselbe person in drei wochen nochmal testen würde).
-Paralleltest-Korrelation:
• Berechnung einer Korrelation zwischen zwei Tests, die dieselbe Eigenschaft
oder Fähigkeit messen
• Wie invariant sind die Testergebnisse gegenüber einer inhaltlichen oder zeitlichen Variation?
• Bedingungsstabilität
(schwierige form der berechnung, das bedeutet ich brauche von einem verfahren das zb 10 items, ein paralles verfahren was ebenfalls 10 items hat die ich als äquivalent ansehe und nun lasse ich jede person die variante a und variant b ausfüllen und dann korreliere ich diese beiden varianten und wenn die beiden varianten zu einem sehr ähnlichen ergebnisse kommen dann habe ich eine sehr hohe reliabilitätsschätzung. weil ich eben behaupte die items sind gleich gut und gleichwertig. )
verschiedene arten von schätzer
(es gibt zwei arten von schätzern
es gibt schätzer die für den status die für den querschnitt gut sind so wie die interne konsistenz oder testhalbierung
dann gibt es schätzer die für die prognose / die für die zukunft gut sind das ist die retest reliabilität )
Konstrukt-Reliabilität
• Über faktorenanalytische Verfahren (dadurch wird erstmal überpürft wie groß den das jeweilige item ist)
• Ermittlung des jeweiligen Tau-Anteils/Item
• Gewichtung des jeweiligen Itemeinflusses auf Gesamtreliabilität
• Weniger Voraussetzungen als interne Konsistenz/Testhalbierungskorrelationen
(ist der beste schätzer für die querschnittliche realibilitätsschätzung.
Validität
• Definition: Das Ausmaß, in dem ein Test auch tatsächlich das Merkmal misst,
das er zu messen vorgibt (Kemper et al., 2015)
• Auch: Gültigkeit
• Zentrales Gütekriterium: Ein valider Test erlaubt die Generalisierung des im Test beobachteten Verhaltens auf Verhalten außerhalb der Testsituation
- Achtung:Analogie-vs.Induktionsschluss
➜ Ziel des psychologischen Testens: menschliches Verhalten erklären und
vorhersagen können
• Es gibt unterschiedliche Validitätsarten / Validitätsschätzungen
cronbachs alpha
wo ist das problem?
(cronbachs alpha macht zwei annahmen:
cronbachs alpha überprüft wie sehr die varianz die die items teilen im verhältnis steht zu der varianz die die items nicht teilen. dh nicht geteilte varianz ist die varianz die jedes item für sich hat . also die spezifität eines items ist der teil der itemvarianz die dieses item mit den anderen items der skala nicht teilt. es gehört nur dem item selbst aber etwas das nur dem item selbst gehört und nicht geteilt wird kann nicht zu dem konstrukt dazu gehören.
und cronbachs alpha überprüft also wie hoch ist den der anteil der varianz die sie teilen zu dem anteil der varianz die sie nicht teilen. und wenn dieser anteil hoch ist dann ist die realiabilität laut cronbachs alpha hoch. dh es kommt zb raus das alpha 80 ist dann heißt es die teilen 80% der varianz im schnitt. was ja gut wäre.)
Problem: die annahme gilt nur dann wenn die items 1. tau äquivalent sind und wenn die items 2. eindimensional sind.
—>eindimensional heißt= die messen zb nur extraversion. dann kann ich sagen die getilte varianz misst auch extravsersion. wenn ich jetzt aber 10 items habe die extraversion und sprachliche intelligenz gleichzeitig messe dann erkennt cronbachs alpha es nicht weil die teilen jetzt sowie die extraversions varianz als auch die sprachliche intelligenz varianz. cronbachs alpha denkt aber das ist alles diesselbe varianz. damit wird die realibilität überschätzt. weil cronbachs alpha nicht erkennen kann woher die geteilte varianz kommen kann.
alpha geht auch davon aus das die wertigkeit der items gleich ist. das ist aber nicht immer so. zweites problem.
Inhaltsvalidität
• Ist dann gegeben, wenn ein Testwert bzw. die zugrunde liegenden Items das
zu messende Merkmal hinreichend präzise erfassen
• [Repräsentative Ziehung aus dem Itemuniversum]
• Beispiel Ängstlichkeit
- Aufgeregtheit (affektiveKomponente) -
-Besorgnis (kognitiveKomponente)
• Bestimmung der Inhaltsvalidität:
- Expertenbefragung
- Analyse bestehender Verfahren
- fundierte theoretische Modelle
Kriteriumsvalidität
Testwert und Kriterium sollen in Zusammenhang stehen
Vorhersagevalidität: Korrelation mit zeitlich später (z.B. Intelligenztestleistung vor Beginn der Lehre wird mit Abschlussnote der Ausbildung korreliert)
- Übereinstimmungsvalidität:Korrelation mit zeitgleich erhobenen Kriterien(z.B. Konzentrationsleistung vor Klausur wird mit Klausurnote korreliert)
- Retrospektive Validität:Korrelation mit zeitlich vorher ermittelten Kriterien(z.B. Intelligenzleistung während Studium wird mit Abiturnoten korreliert)
- Inkrementelle Validität:Bezeichnet den Beitrag eines Testwerts zur Verbesserung der Vorhersage eines Kriteriums (z.B. Persönlichkeitstestwert als Inkrement zu Leistungstests bei Vorhersage des Schulerfolgs)
Konstruktvalidität
• Wird das interessierende Merkmal (seine Struktur/seine Außengrenzen)
abgebildet?
• Man unterscheidet verschiedene Arten der Konstruktvalidität:
- Konvergente Validität:Wie hoch hängt der Testwert mit einem Testwert aus einem anderen Verfahren (das dasselbe Konstrukt erfassen will) zusammen?
➜ Erwartung einer hohen Korrelation
- Diskriminante Validität:Wie hochh ängt der Testwert mit einem Testwert aus einem anderen Verfahren (das ein anderes Konstrukt [nahe im nomologischen Netz] erfassen will) zusammen?
➜ Erwartung einer niedrigen Korrelation
- Faktorielle oder strukturelle Validität:Faktorenanalytische Untersuchung der testinternen Struktur und/oder von Zusammenhängen des entwickelten Tests mit anderen Tests
Skalierbarkeit des Tests
• Klassische Testtheorie (KTT):
- trivial scoring function
- Testwert als Summe der Itemantworten einer Skala
-Annahme: Jedes Item trägt gleichermaßen zum Testwertbei (Einheitsgewichtung)
• Probabilistische Testtheorie (PTT)/ Item-Response-Theorie (IRT) - Überprüfung der Gültigkeit der Verrechnungsvorschrift
Zusammenhang zwischen Objektivität, Reliabilität und Validität Testwert ist nicht objektiv!
Nebengütekriterien (Bühner, 2011; Kemper et al., 2015)
• Ökonomie
• Nützlichkeit
• Normierung
• Vergleichbarkeit
• Zumutbarkeit
• Fairness
• Nicht-Verfälschbarkeit
Normierung:
Über den Test müssen Normen vorliegen, die eine Einschätzung der individuellen Testleistung ermöglichen. Nur dann ist ein Rückschluss auf die Ausprägung der einzelnen Probanden möglich.
Vergleichbarkeit:
Ein Test ist vergleichbar, wenn eine oder mehrere Parallelform/en oder Tests mit demselben Gültigkeitsbereich vorhanden sind.
Ökonomie:
Ein Test ist ökonomisch, wenn er kurz, einfach zu handhaben, für eine Gruppentestung tauglich, wenig materialintensiv und schnell auswertbar ist.
Nützlichkeit:
Ein Test ist nützlich, wenn er ein Merkmal misst oder vorhersagt, für dessen Untersuchung ein praktisches Bedürfnis besteht.
Zumutbarkeit:
Ein Test ist zumutbar, wenn er die getestete Person in zeitlicher, psychischer und körperlicher Hinsicht schont.
Fairness:
Ein Test ist fair, wenn die aus einem Test resultierenden Messwerte einzelne für die Testung relevante Gruppen nicht diskriminieren.
Nicht-Verfälschbarkeit:
Ein Test ist nicht verfälschbar, wenn eine Person die Testleistung nicht willentlich oder unwillentlich beeinflussen kann, so dass sie daraus ungerechtfertigt einen Vorteil zieht.
Testhalbierungs-Korrelation und interne Konsistenz
Testhalbierungs-Korrelation und interne Konsistinenz:
schätzung anhand testinterner informationen
Testhalbierungsreliabilität:
—>teilung des Tests in möglichst “gleiche” Testhälften
—>ermittlung der korrelation zwischen den testhälften und aufwertung des reliabilitätskoeffizienten
Interne konsistenz:
jedes item wird als eigenständiger testteil angesehen
zb cronbachs alpha
berücksichtigt den zusammenhang zwischen items und testlänge
MERKEN!!!!! KEMPER DIAGRAM MIT HAUPT UND NEBENGÜTEKRITERIEN
!!!!!!ES GIB NICHT DIE REALIBILITÄT ODER DIE VALIDITÄT SONDERN ES GIBT SCHÄTZER FÜR EINE BESTIMMTE RELIABILITÄT UND SCHÄTZER FÜR EINE BESTIMMTE VALIDITÄT. WEIL DIE VALIDITÄT ZB SICH AUS VERSCHIEDENEN FACETTEN ZUSAMMENSETZT DIE NICHT ÜBERTRAGBAR SIND. ALSO DIE INHALTSVALIDITÄT IST NICHT ÜBERTRAGBAR AUF DIE KONSTRUKTVALIDITÄT ETC.
INHALTSVALIDITÄT
was ist das besondere daran? definieren sie mal
(dh inweit ein messinstrument das repräsentiert welches es vorgibt zu messen.
das besondere an der inhaltsvalidität: ist das einzige hauptgütekriterium wofür wir keine zahl angeben können dh es ist ein experten/-innen urteil , es ist eine theoretische betrachtung.eine qualitative evaluation die wir aufgrund unseres vorwissens wissen aufgrund unseres austausches mit anderen expert/-innen aus dem feld generien. also die inhaltsvalidität ist nicht messbar sondern nur beschreibbar.
also man muss am anfang ganz klar festmachen was denn das konstrukt ist, zb was versteht man unter extraversion, und diese definition wird dann verwendet um zu schauen passt dieses item rein. )
varianz
(varianz heißt unterschiede
jedes item hat varianz
es gibt die fehlervarianz und die wahre varianz
guter varianz= nennen wir true score
schlechter varianz= fehlervarianz
tau kombinerische items haben zwar varianz die sich ähnelt
die tau varianz ist die varianz die in allen items gleich ist und die eine einheitliche struktur hat. wenn die gleich ist dann kann ich diese bündeln und das sind dann tau kombinerische items.
dh etwas was identisch ist und was ein ganz klares wiederholbares muster hat.)
Last changeda month ago