Nenne verschiedene Erhebungsverfahren, um Verhalten und Denken systematisch zu untersuchen und mittels quantitativer Methoden zu beschreiben
Testen: Leistungs- und Persönlichkeitstests
Randomized-Response-Technik
Datenerhebung im Internet
Biopsychologische und neurowissenschaftliche Messungen
Definition psychologische Test
Ein Test ist ein wissenschaftliches Routineverfahren zu Untersuchung eines oder mehrerer empirisch unterscheidbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.
Wie sieht ein psychologischer Test aus?
Üblicherweise mehreren Aufgaben oder Fragen (Items), die in Abhängigkeit von unterschiedlichen Fähigkeiten oder Eigenschaften unterschiedlich gelöst oder beantwortet werden können.
Aggregation der Antworten zu einem (oder manchmal mehreren) Testwert/en.
In was für einem Rahmen werden psychologische Test häufig eingesetzt
im Rahmen der Diagnostik („psychological assessment“)
Was sind typische Formen des psychologischen Tests?
Paper-Pencil Tests
Computer/Internet-basierte Tests
Persönliche Interviews
Physiologische Messungen
Reaktionszeiten (Wahrnehmungsforschung oder Sozialpsychologie; Implicit Association Test)
Intelligenztest
-> kein wissenschaftlicher test
„Intelligenz“ – als geistige/kognitive Leistungsfähigkeit – ist ein Merkmal, dessen exakte Ausprägung man einer Person nicht direkt ansehen kann und das sich im Alltag auch schwer über Verhaltensbeobachtungen erschließen lässt.
Leistungstests
-> setzen (kognitive) Merkmale in Beziehung zu einem objektiven Gütestandard.
Ziel: Beurteilung der Güte der Anworten
Speed-Tests: Knappe Bearbeitungszeit, die üblicherweise nicht zur vollständigen Lösung aller Aufgaben reicht.
Power-Tests: Keine oder wenig Beschränkung der Bearbeitungszeit; Items mit unterschiedlicher Schwierigkeit, die sukzessiv gesteigert wird
Persönlichkeitstests
->zielen auf die Erfassung der Ausprägung stabiler Eigenschaften (z.B. Extraversion) – kein externer Standard für Items.
z.B. NEO Five Factor Inventory (NEO-FFI) umfasst 5 Persönlichkeitsdimensionen (Neurotizismus, Extraversion, Offenheit, Gewissenhaftigkeit, Verträglichkeit)
d2 Speed Test
verbreiteter Test der Konzentrationsfähigkeit
Einsatz bspw. In klinischer Diagnostik, Verkehrespsychologie
In sog. Eichstichproben werden Normbereiche pro Altersgruppe erfasst
Anweisung: 20 Sekunden pro Zeile: ”Streichen Sie alle d durch, die zwei Striche haben”
Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE/WAIS)
Besteht aus verschiedenen Subskalen, die unterschiedliche Aspekte von Intelligenz erfassen sollen.
Verbalteil (sprachliche Intelligenz)
Handlungsteil (praktische Intelligenz)
Für Kinder:
Dimensionalität
Die Dimensionalität eines Test bestimmt, wieviele Konstrukte erfasst werden
Unidimensionaler Test:
Es werden alle Testaufgaben zu einem einzigen Testwert zusammengefasst, der die Ausprägung des interessierenden Konstruktes (z. B. allgemeine Intelligenz) erfasst.
Ein mehrdimensionaler Test
misst verschiedene Unterdimensionen des Konstruktes (z.B. sprachliches, numerisches und räumliches Denken oder verschiedene Facetten der Persönlichkeit) und läuft auf die Bestimmung mehrerer Subtest-Werte hinaus
Unterschied Fragebogen und Test
Tests zeichnen sich üblicherweise durch eine Normierung aus; differenzierte Beurteilung eines Individuums (Diagnostik)
Testgüte ist sehr gründlich evaluiert (Validität und Reliabilität); Fragebögen sind oft ad-hoc
Wenn es Richtig/Falsch-Aufgaben gibt, spricht man nicht von Fragebogen, sondern von einem Test
Trennschärfe von Testitems
Trennschärfe eines Items gibt an, wie gut ein einzelnes Item den gesamten Test repräsentiert, d.h. wie gut das gesamte Testergebnis aufgrund der Beantwortung dieses einzelnen Items vorhersagbar ist (d.h. Korrelation zwischen Item und Gesamtwert).
Schwierigkeit von Testitems (v.a. bei Leistungstests)
Prozentsatz aller untersuchten Personen, die das Item gelöst bzw. positiv beantwortet haben.
Oft wird eine breitere Streuung der Schwierigkeiten angestrebt, damit über das gesamte Merkmalsspektrum zwischen Personen differenziert werden kann
Retest-Reliabilität (Stabilität)
die Korrelation zweier wiederholter Anwendungen
Interpretierbar als Anteil der wahren Unterschiede an den gemessenen Unterschieden zwischen Personen
Problem: ungewollte Retest-Effekte
Paralleltest-Reliabilität (Äquivalenz)
mittels Konstruktion zweier paralleler Testformen; sehr aufwendig
oft im Leistungsbereich für Gruppentestungen erstellt
Testhalbierungs-Reliabilität
ist eine Sonderform der Paralleltest-Reliabilität durch zufällige Halbierung des Tests
Validität der Testhälften muss sichergestellt werden
unterschätzt typischerweise die wahre Reliabilität durch den verringerten Item-Pool (theoretische Korrekturfaktoren anwendbar)
Interne Konsistenz
Die interne Konsistenz ist die Erweiterung der Idee der Testhalbierung
Idee: Wir behandeln jedes einzelne Item als parallelen Test
Gebräuchlichster Index: Cronbachs Alpha (eigentlich veraltet; besser die Erweiterung McDonalds Omega)
Für unidimensionale Tests entspricht dies (unter strengen Annahmen) der mittleren Testhalbierungs-Reliabilität über alle möglichen Aufteilungen (sollte in etwa >0,7 sein)
Wie können Leistungs- und Persönlichkeitstests verfälscht werden?
können durch das Erraten der richtigen Antwort verfälscht werden.
Gegenmaßnahme z.B. Ratekorrekturen:
Bei einem Test mit dichotomen Items (Ja/Nein) erreicht man durch Raten im Schnitt 50% der Punkte; Ratekorrektur hieße dann, dass 50% korrekte Antworten 0 Punkten entsprechen
Persönlichkeitstests können verfälscht werden durch:
das Bemühen um positive Selbstdarstellung (Bsp: VP möchte nicht in einer klassischen
Frauenrolle erscheinen ➝ Reaktivität)
die Orientierung an sozialer Erwünschtheit (➝ Reaktivität)
schematische Antworttendenzen der untersuchten Personen (Ja-Sage-Tendenz).
Gegenmaßnahmen für Verfälschungen in Tests
Ausbalancierte Antwortvorgaben
Unterschiedlich gepolte Items. Beispiel:
„Motivation für Studium“
„Mit meinem Studienfach beschäftige ich mich täglich mehrere Stunden“ „
“Ich finde es wichtig, neben meinem Studium auch andere Interessen nicht zu vernachlässigen“
Aufforderung zu korrektem Testverhalten
Explizite Aufforderung, wahrheitsgemäß zu antworten ➝ Anonymität und Datenschutz hervorheben etc.
Kontrollskalen („Lügenskalen“)
Zielen darauf ab, die Tendenz zu sozial erwünschten Antworten zu erfassen.
Je häufiger jemand angibt, noch nie ein gesellschaftlich negatives (aber häufiges) Verhalten angegeben zu haben (z.B. eine Notlüge benutzen), desto eher verhält sich die VP sozial erwünscht
Bogus Pipeline
Idee: Befragung mit Lügendetektor führt zu ehrlicheren Antworten, da die VP nicht beim Lügen erwischt werden wollen
Elaborierte Täuschung durch realistische Instrumentierung und Demonstration des Lügendetektors (basierend auf Informationen, die man bpsw. In der Voruntersuchung erhoben hat; Lügendetektor wird dann von VL enstprechend gesteuert)
Frühe Studien (1970er) demonstrierten höhere rassistische Vorurteile bei weißen, männlichen Jugendlichen bei Verwendung der bogus pipeline
Meta-Analysen zeigen, dass die Verwendung von Bogus Pipelines prinzipiell in die richtige Richtung funktioniert
Welche Techniken können eingesetzt werden für mündl. Befragungen in denen heikle Themen angesprochen werden sollen?
Wording/Framing-Technik: Ein als heikel wahrnehmbarer Sachverhalt wird in der Formulierung entschärft, etwa indem man darauf hinweist, dass es sich um ein weit verbreitetes Phänomen handelt
Technik des vertraulichen Kuverts: Heikle und sensible Themen werden separat schriftlich beantwortet und in ein Kuvert gegeben, dass der Interviewer nicht öffnen darf, sondern nur das „Institut“
Random(ized)-Response-Technik:
Indem sozusagen nicht die Person, sondern die gestellte Frage anonymisiert wird, können in derselben Befragung persönliche Details wie Namen, Alter und Adresse erfasst werden, ohne dass die (wahre) Antwort einer bestimmten Person zugeordnet werden kann.
Direkte und indirekte Abfragen
Was sind die Vorteile der Datenerhebung mittels eines Iphones?
Ökologische Validität: Teilnehmende im Alltag befragen
Große Stichproben möglich: kostenloser Vertrieb über App Stores
Vielfalt an Sensorik nutzbar, die „digital traces“ liefert, die mit Umfragedaten verknüpft werden können:
GPS-basierte Positions- und Mobilitätsdaten
(gesundheitsbezogene) Tracking- und Prozessdaten (z.B. Herz- und Atemfrequenz,
Blutdruck, Körpertemperatur, Schrittleistung, Kalorienverbrauch)
Kommunikationsverhalten (Anrufe, Nachrichten)
Situative und kontextuelle Merkmale (Geräuschpegel, Umgebungslicht) oder Art der Umgebung (durch Verknüpfung von GPS-Daten oder Kamera mit Metadatenbanken)
Was sind die Vorteile der Datenerhebung im internet?
Erleichterung und Effizienzsteigerung (quantitativer Aspekt)
Große Stichproben möglich (Mturk, ca. 500.000 Nutzer:innen)
Geringer Zeitaufwand
Wegfall von Versuchsleitereffekten
Kostengünstig im Vergleich zu traditionellen Umfrageunternehmen
Diversifizierung der Stichproben
Vergleiche mit traditionellen (Labor-basierten) Studien zeigen häufig ähnliche Befunde
Neuartige Forschungsmöglichkeiten und -themen ergeben sich (qualitativer Aspekt)
Erweiterung des Gegenstandsbereichs (Kommunikation, globale soziale Netze, Identität, ...)
Verringerung des Reaktivitätsproblems (verdeckte Form der Datenerhebung möglich)
Bessere Erreichbarkeit von Stichproben mit spezifischen Merkmalen (Bsp: Ecstasy- Konsumenten)
Was sind die Risiken und Nachteile der Datenerhebung im Internet?
Gefährdungen der Güte der Untersuchung
Erschwerte Kontrolle über die Bedingungen der Datenerhebung
Keine repräsentativen Stichproben (Selbstselektion der Worker in die Studien => geringe Repräsentativität)
Potentiell geben Teilnehmer mehr Information Preis als gewollt (IP-Adresse etc.), ethisch und datenschutzrechtlich problematisch!
Erschwerte Prüfung des Verständnisses wichtiger Informationen (Instruktions- oder Aufmerksamkeitstests als Gegenmaßnahme)
Bots
Es müssen Mechanismen eingebaut werden, die doppelte Teilnahme verhindern
Teilnehmer kommunizieren z.T. in Foren untereinander (z.B. https://turkopticon.ucsd.edu/)
Mögliche Ausnutzung durch Auftraggeber durch geringe Entlohnung (manche Websites erzwingen deswegen Mindestlohn; MTurk Durchschnittsverdienst: 3.24$/h).
Non-Naiveté der Versuchsteilnehmenden (Doppelte Teilnahme i.d.R. ausgeschlossen; aber mglw. haben Teilnehmende bereits ähnliche Studien/Paradigmen gesehen)
Unehrliches Verhalten oder geringe Motivation der VP (Teilweise werden absichtlich falsche Verhalten/Identitäten angenommen mit dem Ziel schneller Geld zu verdienen)
Fehlendes Sprachverständnis
Hohe Abbruchraten
Messungen von Indikatoren außerhalb des zentralen Nervensystems (ZNS)
Elektrodermale Aktivität (Hautleitfähigkeit)
Elektromyogramm / EMG (Muskelaktivität)
Elektrookulogramm / EOG (Aufmerksamkeit und Zuwendung kognitiver Ressourcen)
Messungen der Augenaktivität (Lidschlag,
Pupillendurchmesser) Elektrokardiogramm / EKG (Herztätigkeit)
Messung des Blutdrucks und des peripheren Blutvolumens Messung des Hormon- und Immunsystems
Methoden zur Messung der Aktivität des zentralen Nervensystems (ZNS)
Aufzeichnung elektrischer Potenziale, die durch elektrochemische Aktivität entstehen (z.B. Elektroenzephalogramm, EEG)
Registrierung von schwachen Magnetfeldern, die bei neuronaler Aktivität im Kortex entstehen (z.B. Magnetenzephalogramm; MEG)
Bildgebende Verfahren, die die Struktur und Aktivität des Gehirns wiedergeben (CT, PET, (f)MRT)
Last changeda year ago