Was ist die Etymologie des Wortes “Diagnostik”?
Gründlich Kennenlernen
Entscheiden/Beschliessen
Griechischer Ursprung
Wozu dient die Zwecksgebundene Messung bzw. die Bedeutung von Psychologischer Diagnostik im weiteren Sinne?
Beschreiben von Personen
Selektion und Platzierung von Personen
i.e. Eignungsdiagnostik in unterschiedlichen Bereichen
Modifikation von
Verhalten
Erleben
Eigenschaften
Braucht einerseits einen Ist-Zustand, andererseits einen Soll-Zustand (welcher durch Diagnostik erhoben wird)
Wird auch immer mehr für andere Bereiche relevant als nur bei Menschen, z. Bsp. bei der Beschreibung, Modifikation und Selektion einer Situation
Was ist und was macht die Psychologische Diagnostik?
Teildisziplin der Psychologie
Beantwortung zu Fragestellungen bezüglich der
Beschreibung von menschlichem Verhalten und Erleben
Kategorisierung von menschlichem Verhalten und Erleben
Erklärung von menschlichem Verhalten und Erleben
Vorhersage von menschlichem Verhalten und Erleben
Schliesst die gezielter Erhebung von Informationen über Verhalten und Erleben von einem oder mehreren Menschen und relevanten Bedingungen ein
Die erhobene Information wird für die Beantwortung der Fragestellung interpretiert
z. Bsp. 30 Punkte in einem IQ Test sagen nichts aus, wenn sie nicht in Relation gesetzt werden können (wie schneiden Menschen durchschnittlich ab?)
Diagnostisches Handeln wird von psychologischem Wissen geleitet
Zur Erhebung der Informationen werden Methoden verwendet, die wiessenschaftlichen Standards genügen
Wie unterscheidet sich die psychologische Diagnostik von den folgenden Bereichen:
Testen
Medizinische Diagnostik
Evaluation
Testen: PD beinhaltet nicht ausschliesslich Tests, sondern auch andere Erhebungsmethoden wie Verhaltensbeobachtung und Interviews
Medizinische Diagnostik: Fokus auf körperliche Merkmale
Evaluation: Fokus auf Massnahmen (Training, Interventionen)
Wieviel der Gesamttätigkeit macht die psychologische Diagnostik in unterschiedlichen Arbeitsfeldern aus? Wie findet die psychologische Diagnostik in diesen Bereichen Anwendung?
Psychologische Diagnostik ist eine Querschnittsdisziplin, da bei jeder psychologischen Fragestellung Erfahrungsdaten erhoben werden
24% Klinische Psychologie
Diagnostik psychischer Störungen
Therapiebegleitende Diagnostik
26% Gesundheitspsychologie
Erfassung von Stress- und Krankheitsbewältigung
29% Pädagogische Pschologie
Messung von Leistungsständen und -fähigkeiten
Diagnose von Verhaltensproblemen
30% A&O
Personalauswahl
Hilfe bei der Berufswahl
44% Forensische Psychologie
Schuldfähigkeit Täter:innen
Glaubhaftigkeit Zeug:innen
44% Verkehrspsychologie
Feststellung der Fahreignung nach Entzug Fahrerlaubnis
31% andere Bereiche
Neuropsychologie: Erhebung der Leistungsfähigkeit nach Gehirnschädigung
Gerontopsychologie: kognitive Funktionsfähigkeit
-> Bereichsübergreifend 27%
Was ist der Szondi Test?
Veraltete Methode der psychologischen Diagnostik
Probandinnen müssen Bilder von Gesichter nach Sympathie anordnen
Je nach Anordnung unterschiedliche Diagnose
Was kann zum Gebrauch von psychologischer Diagnostik in der Wirtschaft (spezifisch bei der Personalauswahl) in der Schweiz gesagt werden?
Es werden vorallem Referenzen genutz, auch wenn diese nicht vielsagend sind
Weitere Auswahlmethoden, welche nicht sehr vielsagend sind, werden (viel) genutzt (z. Bsp. unstrukturiertes Interview, Graphologie)
Arbeitsproben gutes mittel, aber sehr aufwendig (zeitlich und finanziell)
Leistungstests sind eigentlich sehr gut (praktisch so gut wie Arbeitsproben) aber werden sehr wenig genutzt
-> Clash zwischen Empirie und Praxis (Menschen denken, sie können ein gutes Gespür für Dinge entwickeln, aber Statistik ist praktisch immer besser)
Welche Meilensteine zur Geschichte der psychologischen Diagnostik gibt es?
Vor 3000 Jahren: Testentwicklung und -einsatz in China zur Auswahl von Beamten (Testung von Wissen, Loyalität, physischen (Kriegs)-fähigkeiten)
Multimetodaler Ansatz
beeinflusst noch heute die Personalauswahl in China
Ende 19. Jahrhundert: Beginn der Wissenschaftlichen Psychologie
1879, Wilhelm Wundt, Universität Leipzig: Gründung des ersten Labors zur Erforschung psychologischer Phänomene
1884, Interantionale Gesundheitsausstellung London, Sir Franics Galton: erstes psychometrische Labor wird vorgestellt, umfasst auch kongnitive Tests
1901, Clark Wissler: erste Validierungsstudie zu kognitiven Tests
1905: Binnet und Simon veröffentlichen den esten Intelligenztest
1912: William Stern schlägt den Begriff Intelligenzquotient vor
1917: Personal Data Sheet -> erster moderner Persönlichkeitstest
1918: erster Einsatz Gruppen-Intelligenztest: Army Alpha und Beta Test
1921: Erfindung des Rorschach-Tests
1939: erster Wechsler Intelligenztest erscheint
1943: MMPI erscheint
1952: erstes DMS erscheint
1962: Erstes Computerauswertungsprogramm für einen Test (MMPI)
1976: Gründung der International Test Commission
2000: Erste Erhebung im Rahmen der PISA Studie
2015: Psychologische Diagnostik auf Basis von sozialen Medien
2020: Psychologische Diagnostik auf Basis von Daten aus mobile Sensing (Apps auf Smartphones und deren Nutzung) -> Versuch, objektivere Methoden zu finden
-> Nach 2. WK Papier-Bleistift Tests
Beginn des 20. Jh Blütezeit der Psychotechnik
Gustav A. Linert als Pionier der Testkonstruktion
Was kann über die Varianzaufklärung durch psychologische Diagnostik gesagt werden?
Varianzaufklärung durch diagnostische Verfahren scheint gering
z. Bsp. Korrelation zwischen Studierfähigkeitstest und Studiumerfolg ist .39 (15% Varianzaufklärung)
Aber: andere akzeptierte Verfahren haben bedeutend tiefere Varianzaufklärung, z. Bsp.
Wert in MMPI Validitätsskale (“Lügenskala”) und Simulation von Psychopathologie: r = .74, höher als
Immunglobulin-g Test und Entdeckung von rheumathider Arthritis (r = .68)
Neuropsychologische Tests zur Differenzierung zwischen Demenzpatient:innen und Kontrollproband:innen (r =.68)
Geschlecht und Körpergrösse bei Erwachsenen (r=.67)
Nähe zum Äquator und Tagestemperatur in USA (r = .6)
MRI Befunde und Differenzierung zwischen Demenzpatientinnen und Kontrollprobandinnen (r = .57)
Intelligenztestleistung und Berufserfolg (r = .51) ist höher als
Körpergrösse und Gewicht bei US Erwachsenen (r = .44)
Ergebniss Studierfähigkeitstest und Noten im College (r = .39) höher als
Viagra und verbesserte sexuelle Funktion bei Männern (r = .38)
Schlaftabletten und verbesserung Schlaf bei chronischen Schlafstörungen (r = .30)
Wert in Psychopathiecheckliste und Rückfall bei entlassenen Straftätern = .28, höher als
Aspirin und Sterberisiko durch Herzinfarkt: r = .02
Effekt von Alkohol auf aggressives Verhalten: r = .23
Was ist der Nutzen von valide psychologischen Diagnoseverfahren?
Wirtschaftlicher Nutzen: mehr Ertrag durch bessere Berufsdiagnostik
Mit jedem Validitätsgewinn um 10 Punkte ist eine durchschnittliche Produktivitätssteigerung von ca. 4% bei de MA zu erreichen
Der zusätzliche Gewinn an Vorhersagekraft durch den Einsatz von eignungsdiagnostischen Instrumenten gegenüber üblichen Einstellungsgesprächen mind. 15 Validitätspunkte -> Steigerung von Produktivität um mind 6% = 30 Mrd. Euro
Individueller Nutze: effektivere Behandlung von psychischen Störungen
Gesellschaftlicher Nutzen
valide Rückfalldiagnose bei Straftäter:innen, Schutz vor gefährlichen Verkehrsteilnehmer:innen durch Verkehrseignungsdiagnostik
Wie verhält sich die Psychologische Diagnostik zu anderen psychologischen Disziplinen?
Wechselwirkung zwischen den zwei (beeinflussen sich gegenseitig)
Differentielle Psychologie:
Theorie/Modell:
5-Faktoren-Modell der Persönlichkeit
Relevanz für Psychologische Diagnostik:
Strukturmodell als Grundlage für Fragebogenentwicklung
5-Faktoren-Modell gut für Validierung von anderen Modellen
Entwicklungspsychologie
Piagets Stadienmodell der kognitiven Entwicklung
Relevanz für Psychologische Diagnostik
Stadienmodell als Grundlage für Entwicklugnstests
Sozialpsychologie
Theorie/Modell
Impression Management
Beachtung des Einflusses von Impression Management auf Beantwortung von Diagnostikinstrumenten
Biologische Psychologie
Physiologische Stressreaktionen (z. Bsp. Kortisolausschüttung)
Validierung von Stressfragebögen an stresskontingenten physiologischen Massen
Methodenlehre
Welche gesetzlichen Rahmenbedingungen müssen von Psycholog:innen/Diagnostiker:innen beachtet werden und wie sind diese Gesetze aufgebaut?
Diagnostik unterglieg wie andere Bereiche des öffentlichen und beruflichen Lebens gewissen rechltlichen Bestimmungen
Alle Psycholog:innen unterstehen gesetzlich dem…
Berufsgeheimnis (StGB Art 321)
Datenschutzgesetz (DSG)
Informationen dürfen prinzipiell nur mit dem Einverständnis der Klient:innen weitergegeben werden
Ausnahmen (Auskunftspflicht) in wenigen Fällen, z. Bsp. bei hinweis auf geplante Straftat
Klient:innen müssen aber davor informiert werden
Recht der Europäischen Gemeinschaft: Artike 8(1) (Europäische Menschenrechtskonvetion)
Jede Person hat das Recht auf Achtung ihres Privat- und Familienlebens, ihrer Wohnung und ihrer Korrespondenz
Was versteht man unter “gesetzliche Hierarchiebenen”?
Es gibt ranghöhere und rangniedrigere Gesetze
Ranghöere Gesetze sind allgemeiner formuliert als rangniedrige (welche konkrete Regelungen beinhalten)
Bei Wiederspruch zweier Ebenen ist immer das ranghöhere Gesetz entscheidend
Welchen ethischen Richtlinien Unterliegen Psychonolg:innen/Diagnostiker:innen?
Besondere Verantwortung gegenüber Klient:innen
Vertrauensverhältnis
Aufklärung und Einwillungung (Transparenz)
Gewisse Faktoren bei der Gutachtenerstellung und Berichten
Welche ethische Richtlinien müssen Psychonolg:innen/Diagnostiker:innen bei der Gutachtenerstellung beachten?
Sorgfaltspflicht
Einsichtnahme gewähren
Transparenz für Adressanten
Keine Gefälligkeitsgutachten
Stellungnahme zu Gutachten von Kolleg:innen zulässig
Wie lauft eine diagnostische Untersuchung grob ab?
Man erhält einen Auftrag
Abwägen, ob man den Auftrag annehmen will/soll/kann
Aufstellen einer klar beantwortbaren Fragestellung
Falls nicht möglich, nochmals mit Auftraggeber:in Anliegen präzisieren/modifizieren oder Auftrag ablehnen
Hypothese: psychologische Fragen aus Fragestellung ableiten
Geeignete Verfahren auswählen
Diagnostische Untersuchung durchführen
Falls Frage dadurch nicht beantwortet, anderes Verfahren wählen
Falls gesamte Fragestellung nicht beantwortet, nochmals an Hypothese arbeiten
Bericht schreiben & an Auftraggeber:in rückmelden
Wann soll man einen diagnostischen Auftrag ablehnen?
Mangelnde Sachkunde (z. Bsp. man ist als klinische psychologin ausgebildet, es geht aber um eine arbeitspsychologische Diagnostik)
Auftrag mit eigenem gewissen oder gesetzlichen Vorschriften nicht vereinbar
Diagnostiker:in steht Fragestellung nicht neutral gegenüber (z. Bsp. Diagnoseanfrage von Freund:innen -> zu viele kognitive Verzerrungen)
Erkenntnisgewinn für Auftraggeber:in ist gering verglichen mit Kosten oder Belastung für Proband:in
Wie läuft eine Differenzierung in Teilfragen ab (bei einem Diagnostischen Auftrag)?
Fragestellung in mehrere Teilfragen herunterbrechen, welche beantwortet werden müssen
Z. Bsp. Allgemeine Fragestellung: Soll Schüler:in in Förderklasse für Begabte kommen? -> Herunterbrechen in
Hat Schülerin einen IQ von > 130?
Hat Schülerin eine überdurchschnittliche Leistungsmotivation?
Nutzen von Expertise, um zu diesen Fragen zu kommen
Damit im Einklang auch Hypothesenformulierung
Wie wählt man geeignete Verfahren für eine psychologische Diagnostik aus?
Orientierung an Güterkriterien
Objektivität
Reliabilität
Zuverlässigkeit
Validität
Kommt einem einzelnen Verfahren für bestimmte Fragestellung eine grosse Bedeutung zu, werden höhere Ansprüche an dessen Güterkriterien gestellt
Am besten mind. zwei Verfahren pro Frage (Messfehler minimieren)
Bei randständigen Fragen kann ein kurzes Verfahren ausreichen
Auch ökonomische Aspekte beachten
Beachten, dass Verfahren aktuell ist
Auch beachten, dass das Verfahren für die zu untersuchende Person sinnvoll ist (z. Bsp. kein Kindertest an erwachsener Klient:in)
u.a. kann die Sequenzielle Suchstrategie angewendet werden
An welchen Fragen kann man sich bei der Auswahl eines geeigneten diagnostischen Verfahrens orientieren?
Was soll das Verfahren messen?
Ist das Verfahren für die Person angemessen?
Ist das Verfahren für die Fragestellung geeignet?
Was ist die Sequenzielle Suchstrategie und wie läuft sie ab?
Strategie, um geeignete Verfahren zu finden für bestimmte Fragestellung bei psychologischer Diagnostik
Anforderungen and as benötigte Verfahren aufschreiben
Anforderungen, die unbedingt erfüllt weerden müssen, markieren
Unter den unbedingt erforderlichen Anforderungen die wählen, die am leichtesten überprüfbar ist
Verfahre suchen, welches diese Anforderung erfüllt
Für diese Verfahren die am leichtesten überprüfbare Anforderung aussuchen
Schritt 4 und 5 so lange wiederholen, bis alle unbedingt erforderlichen Anforderungen abgearbeitet sind
Was muss bei der Planung der Durchführung einer diagnostischen Untersuchung entschieden und beachtet werden?
Durchführung online oder in Untersuchungsräumen?
Bei klinischen Störungen eher vor Ort
Gruppen- oder Einzeltesting
Gruppentesting ökonomischer
Bei sensiblen Themen/Daten Einzeltesting
Computer- vs. Papier-Bleistifttest
Abfolge der Verfahren festlegen (z. Bsp. Faking, Ermüdungseffekte -> auch abhängig von untersuchter Person)
Bei der Planung Orientierung an:
Wünsche der Institution
Wünsche der Klient:in
Eigene Präferenz
ökonomischen Aspekten (in der Praxis sehr wichtig)
Was soll bei der Durchführung einer diagnostischen Untersuchung beachtet werden?
Aufklärung und informierte Einwilligung
Zweck der Untersuchung
Durchführungsmodalität
Datenverarbeitung und Speicherung
Personenbezogene Daten
besonders schutzwürdige Daten
Standardisierung der Durchführungsbedingungen
Testmanual beachten (aber sich auch an individuelle Bedürfnisse der Klient:in orientieren)
Gute und personenorientierte Arbeitsbedingungen (z. Bsp. nicht lauter Raum bei Person mit Konzentrationsstörungen)
Akkurate Testauswertung (wenn möglich standardisiert)
Am besten Computerauswertung -> objektiv
Wenn Computerauswertung nicht möglich ist, auf andere Arten Objektivität erhöhen
Vier-Augen Prinzip: andere Person resultate durchschauen lassen
Unterschiedliche Reihenfolge (zuerst Auswetung von oben nach unten, danach von unten nach oben)
Wie sollen die Ergebnisse einer diagnostischen Untersuchung interpretiert werden?
Einordnung der Testrohwerte anhand von (passender) Vergleichsgruppe oder Kriterien
Oftmals weiterführende Interpretation anhand von Wertebereich
“durchschnittlicher”/”unterdurchschnittlicher” Wert kann je anch Instrument anders ausfallen
Durchschnitt oftmals +/- 1 SD (sehr grosser Bereich, 68%)
Was ist das Marburger Modell und was ist daran speziell?
Institut, welches IQ diagnostiziert(e?)
Hier bereits bei halber Standardabweichung über dem Durchschnitt Hochbegabung -> viel mehr Hochbegabte
Normalerweise bei 2 SAW über Durchschnitt erst Hochbegabung
Wie sollen die Messwertbereiche im Bericht einer diagnostischen Untersuchung dargestellt werden und was ist dabei zu beachten?
Zu Beachten: Werte für Nicht-Diagnostikerinnen verständlich machen
Merkmal benennen und ggf. definieren
Psychologische Begriffe haben in Alltagssprache oft etwas andere Bedeutung
Ausprägung des Merkmals auf einheitliche Weise sprachlich einorden
z. Bsp. Hochbegabung nach Malburger Modell
Referenzgruppe erwähnen (z. Bsp. Frauen zwischen 20 und 40 Jahren)
Bei falscher Referenzgruppe ist auch die Interpretation falsch
Konfidenzintervall mitteilen und darauf aufmerksam machen, dass zufällige Messfehler bei solchen Messungen dazugehören
Auch etwas näher erklären, da Allgemeinbevölkerung nicht ein klares Bild von Konfidenzintervallen hat
Wie sollen die Ergebnisse einer diagnostischen Untersuchung exakt dargestellt werden?
Angemessene und einheitliche Benennung der Merkmale
Klare und angemessene Angabe der Testergebnisse
Angemessene Interpretation der Testergebnisse
Interpretation der Ausprägung der Merkmale nach festem Schema
Berücksichtigung Konfidenzintervalle
Einheitliche Benennung und Erläuterung der Wertebereiche
Tabellarische Darstellung bei vielen Einzeltestergebnissen
Verständliches Abfassen von Text und Tabellen für Laien
Für Expertinnen und Experten Angabe aller nötigen Informationen in Klammer und Tabellenerläuterungen
Was ist ein Gutachten?
Beantwortet eine von einer Auftraggeberin vorgegebene Fragestellung
Fragestellung betrifft bestimmte Aspekte des Verhaltens und Erlebens einer Person oder mehrerer Personen
Nachvollziehbare Darstellung eines Prozesses und der Beantwortung einer Fragestellung
Dokumentiert ein wissenschaftliche fundiertes Vorgehen
Fragestellung wird ihm Rahmen des wissenschaftlichen Prozesses beantwortet
Eingesetzte Methoden werden so beschreiben, dass sie nach wissenschaftlich akzeptierten Güterkriterien beurteilt werden können
Welche allgemeinen Gestaltunsghinweise müssen bei der Erstellung eines Gutachtens beachtet werden?
Äussere Form (Tippfehler, Grammatikfehler)
Klient:in oder Patient:in anstatt Proband:in oder Versuchsperson
Verständlichkeit:
klare, verständliche Sprache
Eindeutige Begrifflichkeit
Erläuterung der verwendeten Fachbegriffe
Intervention/Empfehlung konkret beschrieben
Transparenz und Nachvollziehbarkeit
Eindeutige Quelle von Aussagen
Sachlichkeit, Objektivität, Unparteilichkeit
Keine subjektiven Bewertungen vornehmen
Wie ist ein Gutachten aufgebaut?
Titelseite
Inhaltsverzeichnis (bei langem Gutachten)
Zusammenfassung (bei langem Gutachten)
Untersuchungsanlass
Fragestellung
Eventuell Vorgeschichte
Psychologische Fragen
Untersuchungsmethoden
Untersuchungsergebnisse
Interpretation der Ergebnisse/Befund
Stellungnahme
Eventuell Empfehlung
Unterschrift, Literatur, evtl. Anhang
Was gehört auf die Titelseite eines Gutachtens?
Überschrift “Psychologisches Gutachte”, Information über Gegenstand des Gutachtens (z. Bsp. “zur Feststellung der Berufseignung”)
Information, wer in wessen Auftrag von wem begutachtet wurde
Spezifisierung der begutachteten Person (voller Name, Geburstdatum und Ort)
Name des Gutachter/der Gutachterin ink. Unterschrift
Datum
Was gehört zum Untersuchungsanlass-Abschnitt eines Gutachtens?
Hintergrund, von dem sich Gutachten ergeben hat
Ziel
Zweck der Begutachtung wird ersichtlich
Fragestellung wird verständlich
Was gehört zum Fragestellung-Abschnitt eines Gutachtens?
Entspricht dem Auftrag des/der Auftraggeber:in
Formulierung muss exakt mit Vereinbarung zwischen Gutachter:in und Auftraggeber:in übereinstimmen
Was gehört zum Vorgeschichten-Abschnitt eines Gutachtens?
Auch “vorliegende Information”
Nicht von Gutachter:in selbst erhoben
Für beantwortung der Fragestellung relevante Informationen
Verschiedene Quellen:
Vorgutachten
Gerichtsakten
Arbeitszeugnisse etc.
Was gehört zum Psychologische Fragen-Abschnitt eines Gutachtens?
Übersetzung der allgemeinen Fragestellung in konkrete, mit empirischen Methoden beantwortbare Unterfragen
Zusammenhang zur allgemeinen Fragestellung erklären
Geordnete Darstellung nach Inhaltsbereich -> wichtigstes immer zuerst
Festlegung von Anforderungsmerkmalen (kompensierbar vs. nicht kompensierbar, stabil vs. veränderbar)
Was gehört zum Untersuchungsmethode-Abschnitt eines Gutachtens?
Voller Testnahme, Autor:innen, Jahr, Auflage, Verlag
verständliche Beschreibung der einzelnen Verfahren
Was kann mit diesem Verfahren erfasst werden und wie (Aufgabenart, Besonderheit bei der Durchführung, Struktur)
Angabe, welche Informationen mit jeweiligem Verfahren erhoben wurden um zur Beantwortung der Fragestellung beizutragen
Begründung der Verfahrensauswahl (z. Bsp. aktuelle Normen, hohe Messgenauigkeit, ökonomisch)
Durchführungsbedingungen (Ort und Zeit, Einzel- oder Gruppensitzung, enventuelle Vorkommnisse)
Was gehört in den Untersuchungsergebnis-Abschnitt eines Gutachtens?
Geordnete Darstellung nach psychologischen Fragen oder Untersuchungsmethoden
Verbalisierung der erreichten Standardwerte in Vergangenheitsform
Nennung der Referenzgruppe
Nennung des Konfidenzintervalls
“Herr M. erzielte ein im Vergleich zu etwa gleichaltrigen Männern durchschnittliches Ergebnis (IQ=107).
Unter Berücksichtigung der Messgenauigkeit des Tests kann seine Intelligenz in diesem Bereich liegen: KI = 99 –
115.“
Auch Beschreibung des Verhaltens der Proband:in während der Untersuchung (Erscheinungsbild, Testverhalten etc.)
Noch keine Interpretation
Was gehört in den Befund-Abschnitt eines Gutachtens?
Interpretation der Ergebnisse
Ziel: Beantwortung der psychologischen Fragen
Integration und Bewertung aller verfügbarer Informationen (ink. Informationen aus Vorgeschichte)
Erwähnung von übereinstimmenden aber auch wiedersprüchlichen Ergebnissen
Mögliche Erklärung für wiedersprüchliche Ergebnissen finden und erörtern
Aufbau richtet sich nach psychologischen Fragen
Trennung von Fakten und deren Bewertung
Was ist ein Befundbogen?
Überblick über vorliegende Ergebnisse
Nicht Teil des Gutachtens, bleibt bei Unterlagen des Gutachters/der Gutachterin
Was gehört in den Stellungsnahme-Abschnitt eines Gutachtens?
Klare und vollständige Antwort auf die Fragestellung
nicht über Fragestellung hinausgehen (z. Bsp. keine Empfehlung, wenn nicht so im Auftrag vereinbart)
Transparenz: für sich allein verständlich, in dem Erkenntnisse, auf die sich Schlussfolgerung sützt, genannt werden
Begründung, wieso mögliche alternative, naheliegende Antwort abzulehnen ist
Unentscheidbares kenntlich machen
Persönliche Prädiktion verwenden („Frau X ist überdurchschnittlich erregbar.“)
Welche qualitativen Anforderungen müssen bei der Erstellung eines Gutachtens beachtet werden?
Richtigkeit nicht zur Beurteilung der Qualität geeignet
Erkenntnis erst, wenn schon wichtige Entscheidungen gefallen sind
Wissenschaftliche Fundierung
Nachvollziehbarkeit und Transparenz
Weitere nachrangig wünschenswerte Qualitätsmerkmale
Was muss beim Abschlussgespräch nach einer Diagnostik beachtet werden?
Zu einem Sachgemässen Umgang mit psychologischen Befunden gehört auch das ausführliche Gespräch des/der Untersucher:in mit dem/der Klient:in über die Testresultate
-> Klient:in soll prinzipiell über Resultate informiert werden
Gilt auch bei Kindern
Es muss sichergestellt werden, dass alle Informationen richtig verstanden werden -> Gutachten einfach aushändigen nicht ratsam
Was gehört in den Anhang-Abschnitt eines Gutachtens?
Unterschrift Gutachter:in mit Zeit und Ort
Exakte Angaben zu verwendete Literatur
Materialen, die Verwendung gefunden haben (z. Bsp. Interview mit Wortlaut)
Welche Aspekte der Qualitätssicherung gibt es?
Verwendete Tests: Haupt- und Nebengüterkriterien
Qualifikation des/der Diagnostiker:in -> sollte durch Studium der Psychologie und Aubsildung in psychologischer Diagnostik gesichert sein
Tansparenz und Normierung des diagnostischen Prozesses
Was sind Testgüterkriterien und welche Haupt- und Nebengüterkriterien gibt es?
Anforderungen an Tests
Dienen der Qualitätssicherung
Basieren auf international vereinheitlichten Standards
Hauptgüterkriterien:
Nebengüterkriterien:
Testökonomie
Fairness
Zumutbarkeit
Nützlichkeit
Normierung
Skalierung
Unverfälschbarkeit
Was ist Objektivität und welche verschiedenen Formen der Objektivität gibt es?
Hauptgüterkriterium
Objektivität = Unabhängigkeit vom Testanwender
Sichert Vergleichbarkeit von Testleistungen verschiedener Personen
Drei Aspekte
Durchführungsobjektivität
Auswertungsobjektivität
Interpretationsobjektivität
Was ist Reliabilität und welche verschiedenen Formen der Reliabilitätsmessung/-sicherung gibt es?
Wie zuverlässig ist das Verfahren? (“Misst es richtig”)
Vier klassische Verfahren zur Bestimmung der Reliabilität:
Retest-Reliabilität
Paralleltest-Reliabilität
Testhalbierungs-Reliabilität
Interne Konsistenz
Am meisten benutze Form für die Reliabilitätssicherung -> nicht zwingend gut, weil
Items auch niedrige interne Konsistenz haben können und trotzdem reliabel sein können, z. Bsp. wenn unterschiedliche Items unterschiedliche Aspekte/Dimensionen des gleichen Konstrukts erheben
Oft Cronbachs Alpha genutzt wird, welches alle Items gleich gewichtet (was aber nicht für alle Tests sinnvoll ist) -> hier Cronbachs Omega gute Alternative
Was ist Validität und welche verschiedenen Formen der Validiitätsmessung/-sicherung gibt es?
Gegeben, wenn Test Mermal misst, welches es messen soll (und nicht irgend ein anderes Merkmal)
Validität nicht generell gültig, sondern auf spezifische Kontexte zugeschnitten
4 Quellen für Belege der Testvalidität
Inhalt des Tests
Testprozess
Strukturanalyse
Korrelation mit anderen Variablen
Was ist Normierung/Eichung und wie wird diese gesichert?
Nebengüterkriterium
Gegeben, wenn Bezugsnorm vorliegt, anhand der individuelle Testwerte verglichen und eindeutig interpretiert werden können
Hierzu Test in einer möglichst grossen und repräsentativen Eichstichprobe anwenden
Je nach Merkmal (und wie stark sich dessen Ausprägung tendenziell über die Zeit verändert) muss Eichung in kleineren oder grösseren zeitlichen Abständen erneuert werden
Zur Relativierung eines Testergebnisses an der Eichstichprobe gibt es unterschiedliche Techniken, z. Bsp.:
Prozentrangnormen
Standardnormen (IQ, z-Werte)
-> Auch wenn als Nebengüterkriterium angegeben eines der wichtigsten Kriterien, da selbs bei erfüllten Hauptgüterkriterien die Aussagekraft nicht gegeben ist bei mangelnder Normierung
Was ist Skalierung und wie wird diese überprüft?
Hängt von Skalenniveau des Tests ab und macht Aussagen darüber, welche Aussagen basierend auf Ergebnisse zulässig sind
Nur Unterscheidung “grösser/kleiner als” (Ordinalskala) oder Beurteilung der Grösse von Unterschieden (mind. Intervallskala)?
Wird anhand von Messmodellen überprüft
Was ist Testökonomie und wie wird diese überprüft?
Gegeben, wenn Test im Verhältnis zum diagnostischen Erkenntnisgewinn relativ wenig Kosten verursacht
Zwei Arten von Kosten
Finanzieller Aufwand
Zeitlicher Aufwand
Oft nur im Vergleich zu ähnlichen Tests bestimmbar
Was ist Nützlichkeit des Tests und wie wird diese bestimmt?
Gegeben, wenn
das vom Test gemessene Merkmal praktisch relevant ist
Die vom Testergebnis abgeleiteten Massnahmen mehr Nutzen als Schaden erwarten lassen
Kann mitunter berechnet werden (z. Bsp. bei Personalauswahlverfahren), wird aber selten gemacht
Was ist Nützlichkeit des Konstrukts und wie wird diese bestimmt?
Muss auch für neue psychologische Konstrukte belegt werden
Kriterien, welche Tests mind. erfüllen müssen, um als neue Konstrukte aufgefasst und etabiliert zu werden:
Messtheoretisch fundierte Messung
Wissenschaftlicher Zugang, wie Test funktioniert und ausgewertet werden soll
Hohes Mass an Allgemeinheit (Konstrukt kann über verschiedene Aufgaben hinweg operationalisiert werden): konvergente Validität
Teilautonomie im nomologischen Netwerk etabilierter Konstrukte, d.h. die gemeinsame Varianz in verschiedenen Aufgaben kann nicht durch etabilierte Konstrukte erklärt werden -> diskriminante Validität
Hinweise auf inkrementelle Kriteriumsvalididät bzgl. relevante Gegebenheit im realen Leben im Vergleich zu etabilierten Konstrukten
Erhebliche zeitliche Stabilität
Was ist Zumutbarkeit und wie wird diese bestimmt?
Gegeben, wenn der Test im Verhältnis zu seinem Nutzen die zu testende Person nicht über Gebühr belastet
Unterscheidung von Belastungen in Bezug auf
Physische Aspekte
Psychologische Aspekte
Zeitliche Aspekte
Oft schwierig zu beurteilen
Abhängig von Einschätzung des Nutzens sowie gesellschaftliche Normen zu Zumutbarkeit
Was ist (Test)Fairness und was muss hier besonders beachtet werden?
Gegeben, wenn Testwerte zu keiner systematischen Benachteiligung bestimmter Personengruppen führen
Unfairness hat häufig mit Inhalten der Testitems zu tun
Itembias: Wenn Item für bestimmte Personengruppe trotz gleicher Merkmalsausprägung schwieriger ist
Zu berücksichtigen:
Geschlecht
Alter
Kultureller Hintergrund
Sprachliche Kompetenz
Routine im Umgang mit Tests
etc.
Was ist Einzelfalldiagnostik und was kann zum Zusammenhang zwischen Güterkriterien und der Einzelfalldiagnostik gesagt werden?
Einzelfalldiagnostik: Messung individueller Ausprägung von Merkmalen
Ziel: inter- oder intraindividuelle Vergleiche von latenten Merkmalen
Latente Merkmale werden über manifeste Werte der Itemvariablen erfasst
Nur reliable Messungen führen zu aussagekräftigen Punktschätzungen
Was sind Konfidenzintervalle?
Konfidenzintervalle grenzen den Bereich ein, in dem der wahre Wert sich mit einer bestimmten Wahrscheinlichkeit befindet
Wichtig, weil Unreliabilität von Testwerten (Anteil der Fehlervarianz an Gesamtvarianz) auch bein einzelnen Messungen berücksichtigt werden sollte
-> Statt einzelnen Ergebnissen sollten in der Diagnostik Konfidenzintervalle berichtet werden
Wie können Konfidenzintervalle berechnet werden?
Beispielaufgabe:
Testwert Person A (Xi): 120
Mittelwert Test (M): 100
Standardaabweichung (sx): 15
Reliabilität (rtt) von .9
Regressionsanalytische Schätzung des wahren Wertes einer Person
Xp = rtt x Xi + M x (1 - rtt)
= 120 x 0.9 + 100 x 0.1 = 118
Berechnung des Standardschätzfehlers
sx x Wurzel(rtt x (1 - rtt)
= 15 x Wurzel (0.9 x 0.1) = 4.5
z-Wert für gewünschte Irrtumswahrscheinlichkeit bestimmen
Bei .95 = 1.96, .99 = 2.58
Hier Wahl von .95
Obere und untere Grenze des Konfidenzinertvalls bestimmen
Xp +/- z x sx x Wurzel (rtt x (1 - rtt))
118 + 1.96 x 4.5 = 126.82
118 - 1.96 x 4.5 = 109.18
-> Wahre Wert liegt zwischen 109.18 und 126.82
Was sind kritische Differenzen und wie werden sie berechnet?
Sagen aus, wie hoch der unterschied zwischen zwei Testwerten mindestens sein muss, damit man ausschliessen kann, dass Unterschied auf den Messfehler zurückzuführen ist
Kann sich auf vergleich zweier Testwerte bei einer Person oder beim vergleich der Testwerte zweier Personen genutzt werden
Beispiel:
Test A mit
SD = 10
Rel = 0.9
Test B
Rel = .8
Berechnung der kritischen Differenz von einem Test (z. Bsp. ab wann kann man sagen, dass eine Person eine stärkere Ausprägung im von Test A gemessenen Merkmal hat als eine andere?)
Dkrit = za x SD x Wurzel(2 x [1 - Rel (Y)])
= 1.96 x 10 x Wurzel (2 x [1 - .9]) = 8.76
Berechnung der kritischen Differenz zwischen Test A und B
Dkrit = za x SD(y) x Wurzel (2 - [(Rel(Y1) + Rel (Y2)])
1.96 x 15 x Wurzel (2 - [0.9 + 0.8]) = 16.1
Welche Reliabilität soll ein Test mindestens haben und weshalb?
Schwer zu bestimmen, abhängig von der Anwendung (Kontextspezifisch bestimmen)
Bei Individualdiagnostik auf Tests mit weniger Reliabilität als .80 verzichten
-> mit sinkender Reliabilität werden
die Konfidenzintervalle sehr breit
Die Punktschätzungen sehr ungenau
Was ist Validierung?
Prozess, mit dem Evidenz zur Interpretation von Testwerten generiert wird
Was kann zur Analyse des Testinhalts/der Testitems (im Zusammenhang mit dem Güterkriterium von Validität) gesagt werden?
Itemuniversum eines Tests soll möglichst represäntativ abgedeckt werden
D.h. z. Bsp. Intelligenztest soll nicht nur jristalline Intelligenz erheben
Analyse erfolgt i.d.R. durch
Sichtung des Vorgehens, mit dem Item in Test aufgenommen wurde
Analyse der finalen Itemauswahl
Soll durch Expertinnen und Experten erfolgen
Was kann zur Analyse von Antwortprozessen gesagt werden?
Manche Teste beinhalten Annahmen über psychologische Prozesse, die das Antwortverhalten tatsächlich beeinflussen soll
z. Bsp. geht man in Mathetest davon aus, dass Menschen Resultate nicht eifach wissen sondern richtig berechnen -> geht eigentlich um das Rechnen (Prozess) und nicht um das Resultat
Kann aber sein, dass dies nicht der Fall ist, z. Bsp. wenn Antwort geraten wird
Dies kann durch gewisse Methoden, z. Bsp. “Think Aloud” Methode, korrigiert werden
Wird in der Praxis wenig angewendet
Was geschieht bei der Analyse der Teststruktur grob?
Überprüfung der angenommenen Teststruktur
Ein- vs. Mehrdimensional
Konfirmatorische Faktorenanalyse = Faktorielle Validität
Was kann am Beispiel der Big 5 zur Faktorenanalyse gesagt werden?
Faktorenanalyse kann genuzt werden, um viele Items in Persönlichkeitsinventaren auf möglichst wenige Faktoren (hier: 5) zu reduzieren
Items lassen sich aus Faktoren wiederrum annähernd reproduzieren
Faktoren lassen sich als Eigenschaftsdimensionen interpretieren
Erlauben sparsame Beschreibung der Persönlichkeit anhand weniger Dimensionen
-> ABER: Korrelation zwischen einzelne Big 5 Tests .6 -> relativ niedrig, weit davon entfernt, dass alle das Gleiche messen
Was geschieht bei der Normorientierten Testwertinterpretation?
Zu einem individuellen Testwert (Rohwert) wird ein ein Normwert (Art “Vergleichswert” mit Referenzgruppe) bestimmt
Anhand dessen kann Person hinsichtlich Merkmalsausprägung innerhalb der Referenzgruppe positioniert werden
Welche zwei Formen von Testwerttransformationen gibt es?
Lineare Test-/Rohwerttransformationen
Normwert wird durch Transformation des Testwerts erreich
z-Werte
Nichtlineare Test-/Rohwerttransformationen:
Normwert wird durch Transformation der Testwertverteilung der Bezugsgruppe erreicht
Was sind Prozentrangnormen?
Nichtlineare Test-/Rohwerttransformation (Normwert wird durch Transformation der Testwertverteilung der Bezugsgruppe erreicht)
Relative Position des Testwerts Y wird ind er aufsteigend geordneten Rangreihe der Testwerte in der Bezugsgruppe ermittelt
Prozentrang gibt an, wie viel Prozent der Bezugsgruppe einen Testwert erzielt hat, der niedriger oder ebenso hoch ist, wie der Testwert Y der Testperson v
Ordinalskalenniveau ist für Bestimmung der PRN ausreichend
ACHTUNG: PRN können NICHT intervallskaliert interpretiert werden, Prozentrangdiffernzen können NICHT für Vergleiche herangezogen werden (Prozentrangunterschied zwsichen 50 und 60 hat andere Bedeutung als Prozentrangunterschied zwischen 80 und 90)
Was sind zv-Normwerte?
Lineare Test-/Rohwerttransformation
Geben an, wie stark der Testwert einer Person vom Mittelwert der Verteilung der Bezugsgruppen in Einheiten der Standardabweichung der Testwerte abweicht
Fromel:
Zv = Yv -Mittelwert(Y) / SD(Y)
Voraussetzung: Intervallskalierung
zv-Normwerte haben einen Mittelwert von 0 und eine Standardabweichung von 1
z-Wert kann weiteren linearen Transformationen unterzogen werden um Normwerte mit positive Vorzeichen und ganzzahliger Abstufung zu erhalten
Bei normalverteilter Testvariable wird die transformierte z-Norm als Standardnorm bezeichnet
Bei Standardnormen kann entsprechender Prozentrang aus tabellisierter Verteilungsfunktion abgelesen werden
Was sind Stanine Normen?
Test-/Rohwerttransformation
Anhand der Wertverteilung werden Werteverteilungen in 9 Abschnitten erstellt:
Häufigkeiten von 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%
-> ergibt für normalverteilte Variablen gleiche Intervalle von der Breite von 0.5 Standardabweichungen
Mittelwert ist 5, SD ist 2
Wie können Informationen über die Güterkriterien von Tests gewonnen werden?
Manuale
Enthalten (oder sollten zumindest) ausführliche Informationen zu
Hauptgüterkriterien
Von Testautor:innen verfasst
Rezensionen
Unabhängige Beschreibung und Beurteilung eines Verfahrens -> Gehen über Sicht der Testautorinnen und Verlages hinaus -> tragen zur Qualitätssicherung bei
Zur Einschätzung der Qualität und Anwendungsbereich von Testverfahren
Enthalten Empfehlungen für Praxis
Erscheinen in Zeitschriften, Büchern und Online
Wie werden Tests im deutschsprachigem Raum beurteilt?
Im Auftrag von Diagnostik-/Testkuratorien werden Tests
systematisch
von zwei unabhängigen Gutachter:innen beurteilt
Grundlage ist jeweils das Testmanual, welches alle relevanten Informationen zur Erfüllung von Testgüterkriterien enthalten soll
Was kann zum Thema Testchutz gesagt werden?
Testschutz: Damit psychologische Tests so funktinieren, wie sie sollten, dürfen Laien den Inhalt der Tests nicht kennen
Tests könne nicht ohne weiteres weitergegeben oder veröffentlicht werden
Tests funktionieren nur dann, wenn sie nicht verändert werden (kein Items hinzufügen, übersetzen etc.)
Auswertung & Normierung basierend auf genau dieser Version
Beachtung des Urheber:innenrechts
Was ist Leistung und wie wird sie gemessen?
Leistung = Arbeit pro Zeiteinheit
Leistung messen daran…
Wieviele Aufgaben eine Person in einer bestimmten Zeit löst
Wiviel Zeit Testpersonen zur Lösung eines Tests brauchen (Speed Test)
-> Erfassung unterschiedlicher Konstrukte
Wofür ist eine Testleistung ein Indikator?
Fähigkeiten: schwer erlernbar, eher biologische Grundlagen (z. Bsp. Intelligenz)
Fertigkeiten: Kompetenzen, könne erlernt und z. Bsp. in Schultest erhoben werden
Wissen: Produkt von Fähigkeiten und Fertigkeiten
-> Grenze zwischen Fertigkeiten, Fähigkeiten und Wissen ist fliessend
Was kann zu Leistungstests gesagt werden?
Test, in dem man das maximal Mögliche Verhalten erhebt
Nur möglich, wirklich bestes Verhalten zu erheben, wenn Testperson sich auch Mühe gibt -> Motivation zentral
low stakes vs. high stakes Tests
Verwendungszwecke:
Auswahl von Bewerber:innen
Fahtüchtigkeitsprüfung
Platzierung/Selektion
Testpersonen wollen möglichst gute Leistungen erzielen und bereiten sich auf Test vor
Verfälschung (Faking) nur nach unten möglich
Welche Arten von Leistungstests werden in der Praxis am meisten verwendet?
Schultestts: 37%
Intelligenztests: 30%
Spezielle Funktionstests: 15%
Entwicklungstests: 9%
Allgemeiner Leistunsgtest: 9%
Wie stark hängen Übungseffekte (i.e. Übung haben mit Tests) mit Testresultaten zusammen?
Gemittelter Effekt von Testerfahrung (ink. Coachin Studien) auf Testleistung: d = .24
Gemittelter Effekt von Testerfahrung (ohne Coachin Studien) auf Testleistung: d = .33
-> Moderater Effekt
Durch Coaching verbessert sich Testleistung um 6.4 Standardwertpunkte (d = z = .64)
Welche Bedingungen begünstigen Übungseffekte?
Durchführung desselben Tests > Durchführung ähnlicher Test
Dritte Testdurchführung > zweite Testdurchführung
Gezieltes Training
Verbale, figurale, gemischte Aufgaben > numerische Aufgaben
Kürzere Retestintervalle > längere Retestintervalle (Effekte können bis zu 8 Jahren bestehen bleiben)
Wie kann Übungseffekten entgegengewirkt werden?
Klare und einfache Testanweisung
Festes Antwortformat
Alles Teilnehmer:innen erhalten selbe Info
Gezieltes Coaching
Was kann zum Zusammenhang zwischen Testangst und Leistung gesagt werden?
Metaanalyse: r = -.23 zwischen Testangst und verschiedenen Leistungsmassen
Defizithypothese: Menschen haben Angst vor Tests wenn sie nicht gut genug vorbereitet sind und dies auch selbst erkennen -> Das schlechte Resultat ergibt sich aus der schlechten Leistung und nicht aus der Angst
Konnte bestätigt werden: Testantworten sind invariat gegenüber Testangst
Woraus setzt sich die allgemeine Leistungsfähigkeit zusammen?
Konzentration + Aufmerksamkeit
Viele Leistungen verlangen nicht nur ein mindestmass an Intelligenz, Wissen oder Fertigkeite sondern auch Grundfähigkeit, sich Aufgaben effizient zuzuwenden
Leistung fällt gegenüber Normalzustand stark ab, wenn Grundfähigkeiten eingeschränkt sind
Was ist Aufmerksamkeit?
Fähigkeit, ganz bestimmte Reize/Ereignisse unter vielen willentlich oder nicht willentlich wahrzunehmen
Erfassen, wie schnell und genau Proband:innen kritische Reize entdecken
Wie unterscheiden sich die unterschiedlichen Tests zur Erhebung der unterschiedlichen Aufmerksamkeitsarten?
Tests unterscheiden sich in
Art der kritischen Reize
Bedingungen, unter denen die Reize Angeboten werden
Bedingungen sind ausschlaggebend dafür, welche Form der Aufmerksamkeit gemessen wird
Welche unterschiedlichen Arten von Aufmerksamkeit gibt es und wie werden sie erhoben?
Alertness
Prinzip: einfache Reize schnell und zuverlässig beantworten
Test: TAP Alertness -> klicken, wenn Kreuz auf dem Bildschirm erscheint
Fokussierte/Selektive Aufmerksamkeit
Prinzip: Beachtung eines bestimmten Reizes bzw. einiger wengier Reize innerhalb einer Reizklasse
Test: TAP Go/No Go
Einzeldarbietung von ähnlichen Reizen von ähnlichen Mustern, wobei zwei Muster davon kritische Reize sind
Geteilte Aufmerksamkeit
Prinzip: Beachtung von mindestens je einem Reiz aus zwei deutlich unterschiedlichen Reizklassen
Test: TAP Geteilte Aufmerksamkeit, sowohl visuelle als auch akustische Reize die beachtet werden müssen
Daueraufmerksamkeit
Prinzip: Fokussierte oder geteilte Aufmerksamkeit über längere Zeite
Test: DAUF -> 5 - 7 ständig wechselnde Dreiecke mit Spitze nach oben oder unten, vorher definierte Anzahl von Dreiecken mit Spitze nach oben oder unten
Vigilanz
Prinzip: Beachtung seltener Reize über längere Zeit
Test: VIGIL
Hell aufleuchtender Punkt springt auf einer Kreisbahn um eine Schritt -> Doppelsprung
Was ist Konzentration?
Fähigkiet, unter Bedinugngen schnell und genau arbeiten, die das Erbringen einer kongitiven Leistung normalerweise erschweren
Erschwerende Arbeitsbedingungen: Zeitdruck, lange Arbeitszeiten, Störungen
Konzentration d.h. erst unter erschwerten Arbeitsbedingungen am Zustandekommen von Leistung beteiligt und messbar
Welche Kennwerte gibt es, um Konzentration zu Messen?
Arbeitstempo (Anzahl bearbeitete Aufgaben)
Reaktionszeit (bei Darbietung von Einzelreizen)
Auslassungsfehler (Zielreiz nicht beantwortet)
Verwechslungsfehler (Fehlreaktion auf Distraktor)
Was ist der Test d2-F und was erhebt er?
Brickenkamp et al
Paper-Pencil & Computerbasierte Version vorhanden
Unsprünglich zur Feststellung der Kraftfahreignung
Durchstreichtest -> nur ds mit zwei Strichen durchstreichen
Erfassung von fokussierter/selektvier und Daueraufmerksamkeit
Konzentrationstest: Aufmerksamkeitsleistung muss kontinuierlich, schnell und richtig erbracht werden
Wie wird der Test d2-R durchgeführt?
Paper-Pencil Test & Computerversion vorhanden
798 visuelle Reize in 14 Zeilen
20 Sek Bearbeitungszeit pro Zeile
Testdurchführung ohne Instruktion: 4 min und 40 Sek
Einzel- oder Gruppentestung möglich
Wie wird der Test d2-R ausgewertet?
Durchstreichbogen und Auswertungsbogen
Erste und letzte Zeile werden nicht berücksichtigt
Arbeitstempo: BZO (Anzahl der Bearbeiteten Zielobjekte)
Fehlerprozent (F%) als Mass für Sorgfalt: Auslassfehler + Verwechslungsfehler/BZO x 100
Konzentrationsleistungswert (KL): BZO - Auslassfehler - Verwechslungsfehler
BZO und F% informieren über
Arbeitsverhalten bei Testbearbeitung
Welches Bedeutung das Tempo und die Sorgfalt für die Konzentrationsleistung haben
Wie sollen Fehler beim Test d2-R interpretiert werden?
Fehler können bedeuten
Instruktion nicht richtig verstanden
Tatsächliche Auslassung oder Verwechslung
Versuch, niedrige Konzentrationsfähigkeit vorzutäuschen
Doppelfehler (Buchstaben UND Anzahl Striche falsch) selbst bei hirnorganisch gestörten Patient:innen selten
Hinweise auf Simulation
Bester Indikator für Faking: p mit zwei Strichen vermehrt durchgestrichen
Verwechslungsfehler viel seltener als Auslassungsfehler
Verfälschung der Testleistung nach oben nicht möglich
Wie ist die Reliabilität des Tests d2-R?
Interne Konsistenz/Cronbachs Alpha der vier Testteile sehr hoch (aber sagt wenig aus da es praktisch immer die gleich Aufgabe ist)
Konzentrationsleistung, Tempokennwert und Sorgfaltkennwert alle zwischen .8 und .95
Retest-Reliabilität nach 10 Tagen
Konzentrationsleistung: .94 vs. 85 (10 Tage)
Tempokennwert: .91 vs. 92
Sorgfaltkennwert; .84 vs. .47
Was kann zur Validität des Tests d2-R gesagt werden?
Hohe positive Korrekationen mit unterschiedlich langen Konzentrationstests für Konzentrationsleistungswert und Tempowert
Kovergente Validitätsbelege für Fehlerprozentwerte vorsichtiger zu bewerten-> geringe Korrelation mit Fehlerprozentwerten von anderen Konzentrationstests
Niedrige Korrelationen mit INtelligenztestleistungen, meist unter r = .30
Zahlreiche Belege in
Eignungsdiagnostik
Verkehrsdiagnostik
Tempokennwert korreliert .52 mit Erfolg in Führerscheinprüfung
Sportauswahl
Diskriminiert auch zwischen gesunden und verschiedenen psychiatrischen Gruppen
Was kann zu den Normen des Tests d2-R gesagt werden?
Ende 2007/2008 Normierung an über 4000 Personen
Normen für Altergruppen von 9-10 Jahren bis zu 40-60 Jahren und auch kulturspezifische Normen
Erneute Normierung in 2022
-> Bemerkenswerte Grösse & Aktualität der Normen
Was kann zur Comptuerversion des Tests d2-R gesagt werden?
Auf Bildschirm können theoretischgesehen alle Reihen gleichzeitig dargestellt werden, aber Anforderung an die Feinmotorik für Durchstreichen immens
Lösung: Darstellung etwa so vieler Items (60) auf Bildschirm, wie sich in der Papierversion in einer Zeile befinden
Für Bearbeitung einer Bildschirmseite gleich viel Zeit zur Verüfung wie für eine Testzeile in Papierversion
Keine Perfekte Äquivalenz mit Papier-Bleistifttest
Personen erzielen tendenziel höhere Werte in Computertets -> Neunormierung
Ansonsten hohe Korrelation mit Papier-Bleistift Version und gute psychometrische Qualität
Vorteil Computerversion: erhöhte Auswertungsobjektivität
Wie kann insgesamt der Test d2-R bewertet werden?
Einfache Durchführung
Kurze Dauer
Gewisse Unabhängigkeit von verbalen oder numerischen Fähigkeiten
Hohe reliable Kennwerte
Verfahren weit verbreitet
Viele positive Befunde zur Valitiät -> Test wird auch gerne zur Validierung anderer Konzepte herangezogen
Was ist das Frankfurter Aufmerksamkeitsinventar (FAIR)?
Moosburger & Öhlschlägel (2011)
Ähnliches Prinzip wie Test 2d-R (Alternativer Test mit Suchaufgaben)
Probandinnen müssen gewisse Formen mit Anzahl Punkte identifizieren
Vier Itemarten, zwei Zielitems
Vollständiges Markierungsprinzip: VPN geben Zeile für Zeile ihre Urteile in Gestalt einer durchgehenden Linie ab
Was ist das Frankfurter Adaptiver Konzetrationsleistungstest (FAKT-II)?
Computerversion des FAIR
Adaptive Ermittlung individueller Konzetrnationsfähigkeiten
Schwierigkeitsniveau der Items wied an individuelles Konzentrationsvermögen angepasst
Höhere Konzentrationsleistung = raschere Vorgabe der Items
Beurteilung des Leistungsverlaufs
Konzentrationsergebnisse werden für Zeitabschnitte berechnet
Was ist mit dem Validierungsdilemma von Konzentrations- und Aufmerksamkeitstets gemeint?
Für vergleich von Validität von Aufmerksamkeits-/Konzentrationtests wären Leistungen im Alltag naheliegend
Problem: Meisten Aufgaben im Alltag nicht alleine von Konzentration/Aufmerksamkeit abhängig (sondern auch von Intelligenz, Motivation, Gewissenhaftigkeit etc.)
Neue Test werden daher oft an existierenden Tests validiert
Was ist das Ziel von Entwicklungstests? Wie funktionieren sie und was ist dabei wichtig?
Definition: Feststellung, ob sich ein Kind allgemein oder in einem spezifischen Bereich altersgemäss entwickelt
Meistens eher einzelne Subklassen als gesammte Entwicklungsspanne
Subtests für mehrere Entwicklungsbereiche
Ideal Items, welche hoch mit Lebensalter korrelieren
Differenzierung zwischen benachbarten Altersstufen
Hinweise auf Entwicklungsverzögerung durch den Vergleich individueller Ergebnisse mit den Leistungen Gleichaltriger
Präzise Normierung ist von kritischer Bedeutung
Was sind die Griffiths Entwicklungsskalen (GES)?
Original: Griffiths Mental Development Scale
Deutsche Version vorhanden
Geeignet für die ersten 2 Lebensjahre
5 Skalen/Entwicklungsbereiche
Motori
Hören und Sprechen
Sozialer Kontakt
Kognitive Entwicklung
Auge-Hand Koordination
Ablauf:
Individualtest mit Anwesenheit einer vertrauten Person
Beendigung der Untersuchung, wenn mehr als zwei aufeinanderfolgende Aufgaben in einem Untertets nicht durchgeführt werden
Wie wird der GES (Griffith Entwicklungstest) ausgewertet?
Entwicklungsalter für den Gesamttest: Summer der gelösten Aufgaben durch zehn dividieren
i.e. bei 50 Punkten -> Entwicklungsalter 5 Jahre
Entwicklungsquotient: Entwicklungsalter durch Lebensalter dividieren und Ergebnis mit 100 multiplizieren
Was kann zur psychometrischen Qualität des GES (Griffith Entwicklungstest) gesagt werden?
Retest-Reliabilität des Gesamtentwicklungsquotient altersabhängig -> im Schnitt im zweiten Lebensjahr (.80) höher als im ersten (.62)
Nur wenige Validitätsnachweise
Normierung zwischen 1967 und 1979 an 102 Kindern
Normen für Testtransformation und Testrohwerten in Standardwerten liegen nicht vor
-> Sorgfältig Konstruiertes Verfahren, aber Mängel in Normierung und Validitätsuntersuchung
Was ist der Wiener Entwicklungstest (WET)?
Für Vorschulkinder (3-5, 11 Jahre)
Überprüfung des Entwicklungsstandes in 6 Funktionsbereichen:
Motorik
Visuelle Wahrnehmung/Visuomotorik
Lernen und Gedächtnis
Sprache
Sozial-emotionale Entwicklung
Ablauf
Verankerung der Aufgabeninhalte im konkreten Lebensraun und spielerische Gestaltung der Testsituation
Einzeltestung
90 Minute bei Kinder bis 3,6 Jahre
75 Minuten bei älteren Kindern
Wie wird der Wiener Entwicklungstest (WET) ausgewertet?
Erstellung eines Entwicklungsprofils
Berechnung eines Gesamtentwicklungsquotient möglich
Schwierig, da Reliabilität schwach
Objektivität: bei mesiten Subtests sind richtige Lösungen eindeutig feststellbar
Was kann zur Reliabilität des Wiener Entwicklungstests (WET) gesagt werden?
Retest-Reliabilität zum Subtest Zahlen merken r = .67
Crobachs Alpha variiert zwischen .66 und .90
In eingen Bereichen differneziert der Test nicht ausreichend gut
Teilweise nicht reliabel genug für Einzelfalldiagnostik
Was kann zur Validität und den Normen des Wiener Entwicklungstests (WET) gesagt werden?
Zunahme der Subtestleistungen mit dem Alter als Indikator für Validität
Faktorenanalysen bestätigen 6-faktorielle Struktur
Erwartbare Korrelationen mit Intelligenztestskalen für Kinder
Unterschiedliche Testleistungen von Kindern mit oder ohen Beeinträchtigungen (z. Bsp. Autismus)
Normiern an 1200 deutschen und österreichischen Kindern im Alter von 3;0 bis 5;11 Jahren
Wie fällt die allgemeine Auswertung des Wiener Entwicklungstests (WET) aus?
Breitbandverfahren
Krindgerechte Testmaterialien und Aufgaben
Gute Eichstichprobe
Relativ lange Testdauer
Normtabelle berücksichtigt nicht Geschlechtsabhängige Unterschiede in den Subtests
Geringe Reliabilität einzelner Skalen
Soll eher als Screening Instrument benutzt werden
Was machen Schultets?
Ähnlich wie Etwicklungstest
ABER: Fokus auf Fertigkeiten und Fähigkeiten im schulischen Bereich
-> Schuleignungsdiagnostik
-> Schulleistungsdiagnostik
Was sind Schuleignungstests vs. Schulleistungstests?
Schuleignungstests
Schulleistungstests
Was kann im allgemeinen zum Stand von Intelligenztests in der psychologischen Diagnostik gesagt werden?
IQ Tests als “Stars” der psychologischen Diagnostik -> erfolgreichsten Verfahren der psychologsichen Diagnostik
Sehr gute Vorhersage für wichtige Lebensbereiche: Korrelation über .50 für
Schulerfolg
Berufserfolg
Ausbildungserfolg
Sehr zeitstabile Kennwerte
Wobe - wie bei anderen Persönlichkeitsmerkmale - die zeitliche Stabilität weniger gegeben ist als erwartet
Welche Testmerkmale müssen bei der Auswahl und Durchführung von Intelligenztests beachtet werden?
Messintention
Allgemeine Intelligenz (g) vs. bestimmte Intelligenzkomponente
Globalmass oder Intelligenzstrukture vs. mehrere Komponenten
Intelligenz sprachfreif/kulturfrei messen?
Durchführungsbedingungen
Einzel- vs. Gruppenmessung
Papier-Bleistift vs. Computertests
Dauer der Testdurchführung
Speed oder Powertest
Zielgruppe
Altersbereich
Intelligenzbereich (z. Bsp. Hochbegabung)
Gesamtbevölkerung oder spezifische Personengruppe
Was ist mit der Messintention im Zusammenhang mit Intelligenztests gemeint und was muss hier beachtet werden?
Entscheidung, welche Art/Komponente von Intelligenz erfasst werden soll -> grundlegend für Auswahl des Tests
Intelligenzkomponenten besonders sinnvoll, wenn spezifische Teilfähigkeit von interesse ist
Tests welche Globalmass g erheben eignen sich besonders zur ökonomischen Einschätzung der allgemeinen kognitiven Leistungsfähigkeit
Intelligenzprofil -> kann für viele Fragestellungen relevant sein
Bei der Interpretation zu berücksichtigen
Reliabilität -> Interpretation nur dann sinnvoll, wenn Reliabilität der Skalen ausreichend hoch und einzelne Skalen nicht zu stark interkorreliert sind (siehe Kritische Differenzen)
Welche Intelligenzmessmodelle gibt es?
Spearman: Generalfaktorenmodell
Ein latenter Generalfaktor g, welcher alle Manifestationen von Intelligenz beeinflusst
Thurstone: Primärfaktorenmodell
5 voneinandern grösstenteils unabhängige Intelligenzfaktoren (welche aber teilweise zusammen auf gewissen Manifestationen wirken)
Cattell und Horn & Carroll: Fluide und Kristalline Intelligenz/ Three-Stratum/CHC-Modell
Verbindung der zwei anderen Modelle
Ein Generalfaktor g (general), welcher sich auf 8 “Unterfaktoren” auswirkt (broad), welche wiederum unterschiedliche Manifestationen haben (narrow)
-> Viele Tests angelegt an diesem Modell
Jäger: Berliner Intelligenzstrukturmodell
Intelligenz nach Inhalten und Operationen unterschieden
Inhalte
Verbal
Figural
Numerisch
Operationen
Bearbeitungsgeschwindigkeit (B)
Verarbeitungskapazität (K)
Gedächtnis (G)
Einfallsreichtumg (E)
-> Alle inhalte auf allen Operationen “messbar”
Wie unterscheiden sich das Berliner Intelligenzstrukturmodell und das CHC-Modell und was sagt dies über die einzelnen Modelle aus?
Strukturelle unterschiede (facettenansatz im BISM vs. CHC) sowie inhaltliche unterschiede
CHC lässt sich in BISM einordnen -> Verweis darauf, dass einzelne Intelligenzfacetten von CHC ein Konglomerat sind von gewissen Fähigkeiten/Operationen
BISM vernachlässigt aber auch gewisse Dinge, z. Bsü. Lesen und Schreiben (in CHC enthalten)
Was kann zu sprach-/intelligenzfreien Intelligenztests gesagt werden?
Operationalisierung:
Instruktion sehr einfach gestalten, wenn möglich sprachfrei
Kritik:
Auch wenn Tests sprachfrei sind kann nicht wirklich von kultur-/sprachfreier Erhebung die Rede sein
In westlichen Kulturen wird gewisse Logik erlernt udn auch stark in Alltag integriert und entsprechend gefördert -> kann hier besser erlernt werden und führt zu Unterschieden in IQ Tests, welche nicht wirklich von Intelligenz abhängig sind
Welche Durchführungsbedingungen können bei Intelligenztests anders sein und was sind die Vor- und Nachteile der einzelnen Durchführungskomponenten?
Einzel- vs. Gruppentetstung
Gruppentestung ökonomischer
Einzeltestung sinnvoll bei
Motivationalen Gründen (z. Bsp. Probandinnen mit wenig Konzentrationsfähigkeit)
Persönlichen Angaben
Wenn man nicht nur das Resultat sondern auch den Prozess (Art, wie Person Aufgaben löst) beobachten möchte
Paper-Pencil vs. Computerbasierte Tests
Vorteile Computerbasierte Tests
Computerbasierte Tests sind objektiver
Standardisiertere Durchführung und Auswertung (nicht fehleranfällig)
Unabhängiger von Testleitung -> im Allgemeinen Entlastung für Testleitung
Auch Sekundengenaue Reaktionen erfassbar
Computerbasierte Tests bieten Möglichkeit für Darbietung Videosequenzen und sich bewegende Reize
Ökonomischere Auswertung
Leichtere Implementierung von adaptiven Tests möglich
ABER: Normen nicht immer übertragbar und CT oft teuer
Speed- vs. Power-Test
Speed-Test: in gegebener Zeit so viele Aufgaben wie möglich
Power-Test: keine starke Zeitbegrenzung, aber Items werden zunehmend schwerer bis sie unlösbar sind
Oft Kombination von beiden (Items zunehmend schwerer + Zeit begrenzt)
Wichtig: bei Auswertung gewichten, welche Rolle Zeit gespielt hat -> wenn Zeit sehr wichtig, dann eher Messung von Verarbeitungstempo als von anderen Komponenten von Intelligenz
(Dauer der Testung)
Was ist der CFT 20-R?
Grundintelligenztest Skala 2
Test zur Erhebung der allgemeinen Intelligenz
Erfasst fluide Intelligenz als allgemeines intellektuelles Niveau (fraglich, ob dies so gleichgesetzt werden kann)
Anwendung vor allem im Bildungsbereich
Sprachfreie Aufgaben -> sollen Benachteiligung aufgrund von Sprachskills und Kultur meiden
Aufbau: zwei Testteile mit jeweils vier Untertests
Matrizen
Klassifikationen
Reihenfortsetzen
Topografisches Schlussfolgern
Problem: Erfasst vorallem figurale Verarbeitungskraft
Ergänzungstests: Wortschatz- und Zahlenfolgenaufgaben
Was kann zu den Güterkriterien des CFT-20R gesagt werden?
Reliabilität:
Testwiederholung 3 Monate: .8 bis .82
Interne Konsistenz: .95 für gesamten Test
Validität:
Korrelation mit anderen IQ Tests: .57 - .73 (zufriedenstellend)
Korrelation zur Note Mathematik: .50
Normierung:
Repräsentative Altersnormen von 8 bis 19 Jahren im Halbjahres- bzw. Jahresschritt
Klassenstufennormwerte für das 3. bis 10.13 Schuljahr
Für Altersbereich von 18 bis 64 Jahren empirische Normen für 1. Teil in 5-Jahresschritten
Eigene Normen für Menschen mit geistigen Behinderungen im Alter von 20 bis 50 Jahren in spezieller PC Version
Fazit: Aufgrund von Normne für Kinder und Jugendliche sehr geeignet, für Erwachsene weniger geeignet
Was ist DESIGMA Advanced?
Intelligenztest zur Erhebung der Allgemeinen Intelligenz und zur Differenzierung von Hochbegabung
Version A: Differenzierung im leicht erhöhten IQ Bereich
Version A+: Differenzierung im höheren Intelligenzebereich
Erfasst allgemeine kognitive Leistungsfähigkeit = fluide Intelligenz
Innovatives Antwortformat: Matrizen in Online-Übung müssen konstruiert werden
Senkung der Ratewahrscheinlichkeit
Was kann zu den Güterkriterien von DESIGMA Advanced gesagt werden?
Interne Konsistenz: .96 (A) bis .91 (A+)
Eindimensionales Modell faktorenanalytisch bestätigt
Mittlere Korrelation mit anderen Intelligenztests
Keine Korrelation mit Persönlichkeit
Zusammenhang Version A+ mit Abiturnote: -.20
Version A: n = 478 aus Online-Pane aus D (Alter 49)
Version A+: n = 318 Studierende
-> Aufgrund fehlernder Normierung noch nicht verwendbar
Was ist der Wechsler Test? Welche andere Namen hat er und worin hat er seinen Ursprung?
Andere Namen: HAWIE, HAWIK, WISC, WAIS
Liefert Angaben für
Allgemeine Intelligenz
einzelne Fähigkeiten
Einzeltestung in Form eines Standardisierten Dialogs
Urpsurng:
Wechsler-Bellevue Intelligence Scale (1939)
Vorbilder:
Test von Binet
Army-Alpha und -Beta Test
Grosse Ähnlichkeit der Verfahren untereinander
Erfolg durch Konstanz: mehrfache Revision bei weitgehend unverändertem Konzept
Gleiche Metrik: Tests liefern IQ-Wert (M = 100, SD = 15), Untertest M = 10, SD = 3
Welche Konzepte des Wechslers Tests waren ursprünglich Teil des Verfahrens und mussten später revidiert werden?
Konzepte des Handlungs- und Verbal-IQ
Lange Zeit 10-12 Subtest zu gleichen Teilen auf das Handlungs- und Verbal-IQ verteilt
Konzept wurde durch faktoranalytische Forschung in Frage gestellt -> Indexwerte
Was ist der WISC-V?
Deutsche Version der amerikanischen Wechsler Intelligence Scale for Children-V
Messung von
4 kognitive Fähigkeiten (Teilaspekte von Intelligenz)
Sprachverständnis
Wahrnehmung & logisches Denken
Arbeitsgedächtnis
Verarbeitungsgeschwindigkeit
Wie wird der WISC-V durchgeführt?
15 Subtests
7 zur Berechnung Gesamtwert (I+)
5 zur Erhebung zusätzlicher Informationen
Bewertung
bei einigen Tests Bewertung der Antworten, bei anderen Zeitmessung
Dauer: 65-90 Min, für optionalen Zusatztest ca. 15-20 Min
Einzeltestung (basiert auf Wechslertest -> standardisierter Dialog)
Bei Verdacht auf Hoch- oder Midnerbegabung einsatz weiterer Tests, welche gut in diesen Bereichen diskriminieren können
Wie werden die Resultate des WISC-V ausgewertet und interpretiert?
Auswertung
Addition der Rohpunkte der einzelnen Subtests zu Rohpunktsummen
Es können ein Gesamt IQ sowie 11 Indexwerte erstellt werden (einzelne Subtests können mehrfach verrechnet werden)
Kein spezifisches Intelligenzmodell sondern Versuch, verschiedene Ergebnisse der Intelligenzforschung zu integrieren
Interpretation
Viele Möglichkeiten
Gesamt-IQ und Indexwerte
Diskrepanz zwischen Indexwerte
Analyse des Ergebnisprofils für Untertets -> Ermittlung von Stärken und Schwächen
Spezifische Vergleiche von Untertests
Wertemuster innerhalb der Untertests (z. Bsp. Konsistenz)
Prozessanalyse (z. Bsp. Lösungsweg betrachten)
Was kann zur Objektivität des WISC-V gesagt werden?
Durchführungs- und Auswertungsobjektivität nicht perfekt
Hohe Anforderungen machen Wechsler-Test für Kinder anfällig für TestleiterInneneffekte
Metaanalyse zur Auswertungsobjektivität
Fehler durch Psychologinnen > Fehler durch Studierende
99.7% aller manuellen Auswertungen mindestens ein Fehler
Am fehleranfälligsten:
Gesamt IQ
ABER: Auswertungsfehler führen bei Gesamtwert “nur” zu einer durchschnittlichen Abweichung von 1 Punkt
Was kann zu den Gütekriterien des WISC-V gesagt werden?
Objektivität problematisch
Gute Interne Konsisten (zwischen .8 und .96) und Retest Reliabilität (zwischen .7 und .9)
Struktur des Tests nicht ganz klar -> Gesamt-IQ entweder vier oder fünf Subskalen
Korrelation mit anderen Intelligenztests zufriedenstellend
Hochbegabte Kinder -> höhere Werte in WISC-V, niederbegabte Kinder -> tiefere Werte
ABER: problematische inhaltsvalidität (nicht gegeben), da v.a. Verarbeitungskapazität und figurale Aspekte erhoben werden
Normen
Normierung 2015 an 1087 Kinder (6 - 16)
Fein gestufte Altersnormen: Gruppen unterscheiden sich jeweils um 4 Monate
ABER: pro Altersgruppe (in Jahren) Stichprobe von 33 VPN
Wie kann der WISC-V allgemein bewertet werden?
Vorteile
Nützlich zur Bestimmung des Gesamt-IQs
Hohe Informationsausbeute
Intensive nationale und internationale Forschung
Nachteile
Unklare Struktur (nicht wirklich basierend auf ein einziges Modell
Problematische Durchführungs- und Auswertungsobjektivität
Inhaltsvalidität nicht gegeben
Normierung kritisch (v.a. einzelne Altersstufen)
Alternative: Kaufmann Assessment battery for Children, AID 3
Was ist das AID 3?
= Adaptives Intelligenz Diagnostikum
Basiert auch Wechsler Test
Adaptiver Test
Paper-Pencil: Branched testing mimt Verzweigungsregeln
Computerbasiert: Tailored Testing
Zeitlich ökonomisch, da Aufgaben, welche für VPN zu einfach oder zu schwierig sind ausgelassen werden können
Aufbau: Vier Faktoren
Informationsverarbeitung der gesellschaftlichen Umwelt (= reasoning/fluide Intelligenz)
Informationsverarbeitung neuer Inhalte
Auffassungskapazität
(Re)-Produktionsfähigkeit durch Strukturierung
Was kann zu den Gütekriterien des AID-3 gesagt werden?
Split-half und interne Konsistenz gegeben (anhand Rasch-Modell getestet)
Strukturelle Validität (4 Faktoren) bestätigt
Normen aus 2010/11 aus DE und Österreich (n = 2165)
2014-2020: Eichungsstichprobe mit n = 5230
Geschlechtsunterschiede in einigen Subtest
Was ist der Zahlenverbindungstests?
Intelligenztests, erfassen…
Informationsverarbeitungsgeschwindigkeit (welche als wesentliche Grundlage von Intelligenz verstanden wird)
Aufgaben: Zahlen möglichst schnell verbinden
Erfordert Kenntnis des Zahlenraums von 1-90
sehr einfach und schnell durchzuführen (max. 10 Min) und auszuwerten (ca. 2 Min)
Einzel- oder Gruppentest
Was kann zu den Gütekriterien von Zahlenverbindungstests gesagt werden?
Testwiederholung: .84 bis .97
Paralleltest: .95 bis .98
Korrelation mit anderen Intelligenztests zwischen r =.40 und .83 (ok)
Weitgehend unabhängig von Alter und Bildungsstand
ABER: Messung von Verarbeitungsgeschwindigkeit/numerisch -> sehr spezifisch, für Screenig verwendbar aber nicht für Einzeldiagnostik
Umfangreiche Normen für 7- bis 80-Jährige
Gruppe mit verschiedenen klinischen Diagnosen
Was hat John B. Caroll gemacht?
Reanalyse von 460 Datensätze zur Intelligenz (1927 - 1987)
Insgesamt 130k Personen
theoriefreie Verwendung von exploratorischen Faktorenanalyse
3 Hierarchieebenen
g
Allgemeine Spezialfähigkeiten (z. Bsp. kristalline Intelligenz)
spezifische Teilfähigkeiten
Was kann zum Berliner Intelligenzstrukturtest und zu dessen Gütekriterien gesagt werden?
Eine der umfangreichsten Intelligenzoperationalisierung
45 Aufgaben, c.a. 2h (Langform), 45-55 Min (Kurzform)
Gruppentestung aufgrund hoher Standardisierung möglich
Sehr gute Reliabilität und Validität
Was ist Persönlichkeit und wie gut kann sie erfasst werden?
Definition
relativ stabiles Muster von Gedanken, Gefühlen und Verhalten
Unterscheiden ein Individuum von einem anderen
Es existiert kein perfekter Prädiktor für Persönlichkeit (da latentes Merkmal, oft so in Psychologie)
Nach dieser Definition sollte Intelligenz auch zu Persönlichkeit dazugehören, aber hat sich über die Zeit auseinanderentwickelt (u.a. weil die Korrelation zwischen Persönlichkeitstests und Leistungstests tief ausfällt)
nicht zwingend inhaltlich sinnvoll
Wie sind Persönlichkeitsfragebogen typischerweise Aufgabaut und wie wird läuft eine Persönlichkeitserhebung mit Persönlichkeitsfragebogen typischerweise ab?
Fragen oder Feststellungen in schriftlicher Form
Selbst- oder Fremdberichte
Standardisierte Ausführung und Durchfürung
Erläuterung der gewünschten Art der Bearbeitung in einer Instruktion
Fragen ehrlich und ohne langes Überlegen beantworten
Festgelegtes Antwortformat
Dichotome Antwortformate (“ja” - “nein”, “trifft zu” - “trifft nicht zu”)
Nicht so sinnvoll, führt zu viel Reaktanz/schwarz-weiss denken
Rating Skalen (0 = trifft nicht zu, 6 = trifft voll zu)
Forced-choice Antworten (z. Bsp. Antworten in Reihenfolge bringen nach Präferenz)
Freie Antwortformate praktisch nicht vorhanden -> gewinnen nun mit AI zunehmend an Bedeutung
Meist Auszählung merkmalsspezifischer Antworten mit Schablone
Welche sind die Vorteile von Persönlichkeitsfragebögen?
Einfache Erhebungsmethode
Mehrdimensionales Verfahren, gleichzeitige Erfassung von vielen Merkmalen
z. Bsp. NEO-P-IR erfasst 30 Einzelaspekte
Ökonomisch
selbstständige meist schnelle Bearbeitung durch Proband:innen
Gruppentestung
Bearbeitung Zuhause oder im Internet möglich
Zugang zu Informationen, die anderen Methoden (z. Bsp. Beobachtung) nicht zugänglich sind
Verhaltensweisen in der Vergangenheit
Verhaltensweisen wie Sexualverhalten und Drogenkonsum, bei denen Probandinnen einer Beobachtung nicht zustimmen würde
Empfindungen, Geühle, Gedanken, Motive
Vergleich mit unterschiedlichen Bezugsgruppen durch Normen
Welche sind die Nachteile von Persönlichkeitsfragebögen?
Bei Selbstberichten Selbsteinsicht nötig
Problem aufgrund von kognitiven/Reflektions-Einschränkungen, Erinnerungseinschränkungen
Erinnerungseffekte -> Antworten geben eher mentale Represäntationen als Realität wieder
Bei Fremdeinschätzung kein Zugang zu Informationen über Gefühle/Gedanken
Antwortstile: Akquieszenz, Tendez zur Mitte oder Extremurteile
Verzerrungen in Richtung eines sozial erwünschten Bildes
Self-deception vs. impression management
Gefahr der Verfälschung (Faking) -> Proband:innen könnten versuchen, absichtlich ein besseres oder schlechteres Bild von sich abzugeben
Welche Faktoren der Big 5 werden am ehesten verfälscht? Inwiefern ist dies (Faking) ein Problem?
Studie, bei der Gruppen jeweils gefragt wurden möglichst erhlich zu antworten oder bei der Personen versuchen, bei Bewerbung einen guten Eindruck zu machen
Am meisten verfälscht:
Höhere Gewissenheitswerte
Niedrigere Neurotizismuswerte
Offenheit für Erfahrung garnicht verfälsch (E und V etwas verfälscht)
Faking beeinflusst
Skalenmittelwerte
Konstruktvalidität -> erhöhte Skaleninterkorrelation
ABER: Metaanalysen weisen daraufhin, dass Faking die Kriteriumsvalidität kaum beeinträchtigt
Faking als Zeichne für Intelligenz
Soziale Erwünschtheit korreliert mit emotionaler Stabilität (.37) und Gewissenhaftigkeit (.20) -> erhöhte Werte hier entsprechend nicht unbedingt “unerklärte” Varianz durch Faking
Welche Lösungswege gibt es, um Faking bei Persönlichkeitsfragebögen entgegenzuwirken?
Zusicherung der Anonymität
Lügenskalen
Verwendung von Forced-Choice Antwortformaten, bei denen Items ungefähr gleich (un)-erwünscht sind
Was ist die Marlowe-Crowne Skala?
Kontrollskale um Faking vorzubeugen
23 Items, welche mit Ankreuzen auf “richtig” oder “falsch” bewertet werden müssen
Items sind etwas extrem, z. Bsp. “Ich höre immer allen zu” -> immer -> unwahrscheinlich dass dies Stimmt
Ähnliche Skalen sind in einigen Fragebögen enthalten, z. Bsp. MMPI-2 oder FPI-R
Hohe Werte können auf Lügentendenz hinweise, aber auch auf hohe moralische Standards implizieren
Soll als Warnhinweis und nicht als Beleg interpretiert werden
Welche Kontrollskalen sind im 16 PF-R enthalten?
10 separate Items
ähnlich wie Marlowe-Crow Skala -> wenn Menschen oft extremen Aussagen zustimmen wird eher angenommen, dass sie auf Faking/Impression Management anfällig sind
Akquieszenz
Umgepolte Items
Mehr als 70 Jas nur bei 5% der Normierungsstichprobe
Problem: Umgepolte Items kompliziert, können falsch gelesen werden (wenn man ein “nicht” übersieht)
Infrequenz
51 Items im Test
Nur Items, die bei eine der Antowrtalternativen < 5% Zustimmung hatten
Ab Rohwerte von 9 kritisch
Wie werden Kontrollskalen (von Persönlichkeitstests) kritisiert?
Gewisse Faking-Tendenzen hängen auch effektiv mit Persönlichkeitseigenschaften zusammen, welche erhoben und gefaket werden
Z. Bsp. Zusammenhang Faking mit Emotionaler Stabilität und Gewissenhaftigkeit
Prinzipielle Verfälschbarkeit heisst nicht, dass es systematisch gemacht wird, stark abhängig von
Situation
erhobenem Merkmal
Was sind die Big Five Triplets?
Persönlichkeitsfragebogen
20 Triplet von Items mit gleicher sozialer Erwünschtheit, die in Rangfolge gebracht werden müssen
Meidung von Faking
Was kann zu Fremdbeurteilungbögen im Zusammenhang mit Persönlichkeitsfragebögen gesagt werden und wie hängen sie mit Selbstbeurteilungsfragebögen zusammen?
Fremde (bei Nullbekanntschaft) oder Bekannte (Freunde, Partner_in) schätzen Persönlichkeit der Zielperson aufgrund von ihren Beobachtungen und Vorwissen ein
Typischerweise unformulierte Selbstbeurteilungsfragebögen
FBF und SBF korrlieren bei der Messung von Persönlichkeitseigenschaften zwischen .4 und .5
Sind unabhängig voneinander prädiktiv für
Verhalten im Labor
Akademischer Erfolg
Beruflicher Erfolg
FBF und SBF erfassen überlappende und spezifische Information zu Persönlichkeit
Aggregation von FBF und SBF als Gold Standard
Welche sind die Nachteile von Fremdbeurteilungsfragebögen bei Persönlichkeitsfragebögen?
Mangelnder Zugang zu Emotionen und Kongitionen
Letter of Recommendation Effekt -> soziale Erwünschtheit von anderer Person “übernehmen”, Bekannte besonders gut darstellen
Antworttendenzen
Was kann zur Objektivität und Reliabilität von Persönlichkeitsfragebögen gesagt werden?
Objektivität meistens hoch aufgrund von Standardisierung
Retest-Reliabilität abhängig von Stabilität von erhobenem Merkmal
Banwidth-Fidelity Dilemma: zu hohe interne Konsistenz (= Homogenitätsmass) könnte darauf hinweise, dass zu enger Bereich von Merkmal erhoben wird (d.h. Konstrukt nicht flächendeckend erhoben wird)
Für Profilvergleiche sind hohe Reliabilitäten nötig, die oftmals nicht erfüllt werden
Was kann zur Validität von Persönlichkeitsfragebögen gesagt werden?
Übereinstimmung Fremd-/Selbstbericht zwischen .4 und .6
Variiert in Abhängigkeit von
Beobachtbarkeit des Merkmals
Bekanntheitsgrad zwischen Rater:in und Target
romantische Partner:innnen sehr geeignet
Kriteriumsvalidität
Lange wurde kritisiert, dass Persönlichkeitseigenschaften nur gering mit Kriterien korrelieren -> von zahlreichen Studien wiederlegt
KV geringer bei der Vorhersage von z. Bsp. Schulerfolg oder Berufserfolg
ABER: Vorhersage durch andere Prädiktoren - z. Bsp. IQ - kann durch hinzunehmen von Persönlichkeitseigenschaften signifikant erhöht werden, hilft bei Vorhersage von
(Einkommen, Depression, Gesundheit (physisch & psychisch)) -> Ergebnisse von Studie mit relativ schlechten IQ-Tests
Faktorielle Validität kritisch
Wird oft als Problem der Psychometrie anstatt als Problem der Persönlichkeitsdiagnostik dargestellt, fraglich ob das so stimmt
Welche Beispiele für Persönlichkeitssysteme im Sinne von BIG 5/HEXACO Tests gibt es?
NEO-PI-R (2004)
240 Items
Erfasste Komponente:
Ocean mit 6 Facetten/Dimension
Besonderheiten:
Selbst- und Fremdversion
Ausführliche Dokumentation
NEO-FFI (2008)
60 Items
Erfasste Komponente: OCEAN
Ökonomische Erfassung FFM
BFI-2 (2016)
Erfasste Komponente: OCEAN mit 3 Facetten/Dimension
Forschungsinstrument
Kurzversion
HEXACO-PI-R (2007)
100 Items
Erfasste Komponente: OCEAN + Honesty-Humility, 4 Facetten/Skala + Facette Altruismus
Skalen zu N/A anders als im FFMKein Manual/Normierung
Kurzversion mit 60 Items
Was sind die Big 5?
Die Big 5: Struktur
Super-/Metafaktoren
P-Faktor (Big one): Perönlichkeit
Etwas weiter unten
Stabilität
+C, +A, -N
Plastizität
+E, +O
Domäne
Offenheit für Erfahrung
Gewissenhaftigkeit
Extraversion
Verträglichkeit
Neurotizismus/Emotionale Stabilität
Aspekte: weniger spezifisch als Facetten, spezifischer als Facetten
Facetten
O: einfallslos, unkundig, phantasielos vs. kenntnisreich, klug, geistreich
C: unbeständig, arbeitsscheu, leichtsinnig - konsequent, fleissig, verantwortungsbewusst
E: scheu, schweigsam, zurückhaltend - temperamentvoll, kontaktfreudig, dynamisch
A: egoistisch, rechthaberisch, herrschsüchtig - rücksichtsvoll, gutmütig, hilfsbereit
N: launisch, verletzbar, empfindlich - gefühlsstabil, gelassen, unempfindlich
Struktur der Facetten nicht genügend erforsch
Domäne gut für Kommunikation in der Forschung, aber sehr verallgemeinert/ungenau
Hintergrund
Spearman: Faktorenanalyse
Allport 1936: Psycholexikalischer Ansatz
Norman 1963: berichtete als erstes von 5 relativ unabhängigen Faktren, die Unterschiede in Personenbeschreibungen erklären -> Seitedem B5 in zahlreichen Studien als zentrale Persönlichkeitsdimensionen nachgewiesen
Was ist das NEO-PI-R und wie ist es aufgebaut?
NEO-Persönlichkeitsinventar von Costa und McCrae - Revidierte Fassung
5 Persönlichkeitsdimensionen mit 6 Facetten (random gewählt)
30 Subskalen -> 240 Items
Pro Facette 8 Items mit fünfstufiger Antwortskale
Bearbeitungszeit ca. 30 - 40 Minuten
Liefert eine Interpretationshilfe: Persönlichkeitsbild
Gibt an, wie z. Bsp. die Persönlichkeit einer Person mit weniger als 40 Punkten in Neurotizismus aussieht
Kann auch bei der Verwendung von anderen Fragebögen herangezogen werden, um Ergebnisse zu erläutern
Was kann zu den Güterkriterien des NEO-PI-R gesagt werden?
Gute Reliabilität
Retest < Interne Konsistenz
Stabile Faktorenstruktur
Bevölkerungsrepresentative Normierung
n = 11’724
Getrennte Normen für Geschlecht und Altersgruppen
Selbstbericht: 16 - 50 Jahre
Fremdbericht: 16 - 30 Jahre
Bildungsspezifische Normen für Offenheit
Lange Standardfragebogen für Persönlichkeit
Was ist das HEXACO-PI-R und wie ist es aufgebaut?
Anlehnung an NEO-PI-R aber keine Anlehnung an B5 sondern an HEXACO Modell
Zahlreiche lexikalische Studien in verschiedenen Sprachen und Kulturen identifizieren 6 Persönlichkeitsfaktoren
Unterschiede zu den B5
Offenheit, Extraversion und Gewissenhaftigkeit praktisch gleich
Emotionale Stabilität
Erhebt keine Ärger-Aspekte
Zusätzliche Sentimentalitätsaspekte (bei B5 bei Verträglichkeit enthalten)
Zusätzliche Ärger-Aspekte
Honesty-Humility: Aufrichtigkeit, Fairness, Genügsamkeit, Bescheidenheit
Plus Facette Altruismus
Was kann zu den Gütekriterien des HEXACO-PI-R gesagt werden?
Positiv
Faktorielle Validiät bestätigt
Für Globalskalen > .80
Gute Passung zu NEO-FFI (Kurzversion NEO-PI-R)
Vorhersage von unerwünschtem/Delinquentem Verhalten am Arbeitsplatz durch H-H Dimension
Frei vefügbar in vielen Sprachen
Negativ
Interne Kosnistenz
Facetten: teils eher gering
Normierung: nicht vorhanden, nur Vergleichswerte
nicht Bevölkerungsrepräsentativ
-> Eher Forschungsinstrument als für Individualdiagnostik
Was ist das BFI-2 und wie ist es aufgebaut?
= Big Five Inventory 2
60 Items zur Erfassung der B5 mit 3 Facetten
Deutsche Version wurde in mehrstufigem Verfahren in Anlehnung an TRAPD approach entwickelt
Translation: Items übersetzen
Review and adjucation: Items werden diskutiert mit Expert:innen
Pretesting: Items empirisch erprobt
Documentation: Items werden dikumenitert
Was kann zu den Gütekriterien und zu den Vor- und Nachteilen des BFI-2 gesagt werden?
Hoher interne Konsistenz
Gute Übereinstimmung Fremd- und Selbstberichte
Zahlreiche Belege für Kriteriumsvalidität
Vorhersage
Bildung
Einkommen
Gesundheit
Zufriedenheit
Gute Normwerte
Für 5 Domäne und 15 Facetten nach Geschlecht und Alter
n = 1124
Was ist der BIP?
Selbst-/Fremdbericht möglich
Persönlichkeitsfragebogen für Berufseignungsdiagnostik
4 Bereiche, 14 Dimensionen, 144 Items
Berufliche Orientierung
Leistungsmotivation
Gestaltungsmotivation
Führungsmotivation
Soziale Kompetenzen
Sensitivität
Soziabilität
Kontaktfähigkeit
Durchsetzungsvermögen
Teamorientierung
Arbeitsverhalten
Flexibilität
Handlungsorientierung
Psychische Konstitution
Selbstbewustsein
Belastbarkeit
Kurzversion: BIP-6
6 Dimensionen, 48 Items (33 davon aus BIP)
Dauer: 30-40 Min
Was ist der BIP-6?
Kurzversion des BIP (Berufsbezogene Persönlichkeitsdiagnostik)
6 Dimensionen, 48 Items (33 davon von BIP)
Sozialkompetenzen
Kooperation
Engagement
Dominanz
Disziplin
Durchführungszeit: 10-15 Minuten
Was sind die Vor- und Nachteile des BIP und dessen Gütekriterien?
Interne Konsistenz: .74 - .91 für 14 Dimensionen
Retest-Reliabilität (2-3 Jahre, Selbstbericht): > .70 -> Gute Vorhesagekraft
Mittlere Zusammenhänge mit
Erreichte Hierarchiestufe (E + EH = Indikatoren für beruflichen Erfolg)
Berufliche Zufriedenheit
Umfangreiche Normierung (2018): n < 22’000
Verfahren relativ stark im A&O Bereich eingesetzt
Getrennte Normen für
Hochschulabsolvent:innen
Verschiedene Hierarchiestufen (neu auch weibliche Führungskräfte)
Funktionsbereiche (z. Bsp. Vertrieb)
Akzeptanz: Annahme, dass strukturiertes Vorgehen für die Kommunikation und Rückmeldung der Ergebnisse zu hoher Akzeptanz führt (unklar, ob tatsächlich höher als bei anderen Persönlichkeitsfragebögen)
Teilweise hohe Interkorrelation zwsichen Skalen (Durchsetzungsfähigkeit - Führungsorientierung: r = .75)
Inkrementelle Validität: gemischte Befunde bez. Vorhersage über NEO-PI-R/FFI hinaus
Inkrementelle Validität: ob signifikant mehr Varianz (ggü. anderen Konstrukten oder Tests) aufgeklärt wird
Was sind die Vor- und Nachteile des BIP-6 und dessen Gütekriterien?
Interne Konsistenz: .74-.85 für 6 Dimensionen
Retest-Reliabilität (4-6 Wochen, selbstberich) > .80
Faktorielle Struktur in CFA bestätigt
Konvergente Validität: Übereinstimmung mit Skalen aus anderen Verfahren hoch
Vorhersage von
subjektivem Berufserfolg
Objektivem Berufserfolg
-> auch über FFM hinaus (inkrementelle Validität)
Normierung: n = 7757
Differenziert nach
Hierarchiestufe
Unternehmensbereich
Aufteilung der Normen für verschiedene Kontexte (Standortbestimmung vs. Bewerbugnsprozess)
Divergente Validität: wenig Hinweise
Gibt es Sinn, Persönlichkeit mit möglichst wenigen Items zu erheben?
Asprechend, da ökonomisch, kurzer Zeitaufwand etc
ABER Problem: Wert bei Test = wahrer Wert + Messfehler
Bei wenigen Items wird der Messfehler nicht/weniger herausgemittelt
Was kann zu den Facetten im Zusammenhang mit Persönlichkeitsfragbögen gesagt werden?
Globalskalen von Persönlichkeitsfragebögen lassen sich relative gut in B5 einordnen, aber grosser Unterschied in Anzahl und Inhalt der Facetten
Meistens Facetten nicht hinreichend reliabel -> Profilinterpreteation nicht zulässig
Was sind Traits und was sind States?
Traits:
Relativ breite
zeitlich stabile
Dispositionen zu bestimmten Verhaltensweisen
Treten relativ konsistent über verschiedene Situationen hinweg auf
-> Meisten Persönlichkeisttests erheben Traits und nicht (direkt) States -> Traits Aggregation von States
States:
Temporäre Zustände
Fluktuieren über Zeit und Situationen hinweg
-> Unterscheidung keine echte Dichotomie -> Bereiche eines Kontinuums, welches von stabil bis variabel reicht
Wie werden States i.d.R. grob erfasst?
Pragmatische Unterteilung des momentanen Befindens in drei Bereiche
Emotionale Befindlichkeit (Freude, gute Stimmung, Angst)
Körperliche Befindlichkeit (Schmerz, körperliches Unwohlsein)
Kognitive Befindlichkeit (Müdigkeit, Konzentration)
Ein- und mehrdimensionale Verfahren zur Erfassung momentaner Zustände
Meist Listen von
Eigenschaftswörtern
Substantiven
Kurze Erlebnisbeschreibungen
Selbst- und Fremdberichte möglich
Wo überlappen Verfahren zur Erfassung von States und Persönlichkeitsfragebögen, worin unterscheiden sie sich?
Gemeinsamkeiten (von VZEVS ggü. PFB)
Selbstbeurteilung durch Ankreuzen von Items
Auch Fremdbeurteilung möglich
Durchführungs- und Auswertungsobjektivität durch Standardisierung
Bei mehreren Items pro Merkmal kann die interne Konsistenz bestimmt werden
Unterschiede (von VZEVS ggü. PFB)
Anforderungen bei querschnittlichen Erhebungen: mit Variation des situativen Kontext (z. Bsp. Instruktionsvariante) sollte eine Varianz der Mittelwerte erkennbar sein
Niedrigere Retest-Reliabilität bei S als bei T
Höhere interne Konsistenz bei S anstatt bei T
Höhere Korrelation zwischne State-Test mit gleichem Gültigkeitsanspruch als diejenigen zwischen State- und Trait-Test zum gleichen Bereich
Normen für Zustandmasse i.d.R. nich sinnvoll
Was ist der STAI?
Persönlichkeitsfragebogen zur Erhebung von State- und Trait-Ängstlichkeit
Zwei separate Skalen:
Angst als Zustand vs. Angst als Eigenschaft
Je 20 Items (teilweise identitsche Formulierungen) der Formatierung
“Ich bin ruhig” “Mir ist zum Weinen zumute”
Vierfach abgestuftes Antwortformat
State: überhaupt nicht/ein wenig/ziemlich/sehr
Trait: Fast nie/manchmal/oft/fast nie
Was kann zu den Vor- und Nachteilen und den Gütekriterien des STAI gesagt werden?
Interne Konsistenz für State- und Trait-Skala: .90+
Retest-Reliabilität zu allen Messzeitpunkten für State-Skala deutlich niedriger als für Trait Skala (.43 vs. .86)
Höhere Trait-Angst-Werte bei klinischen Gruppen
Geringe Variation der Mittelwerte bei Trait-Skala zwischen neutralen und Klausur-Situationen, bei State-Skala hingegen erhebliche Schwankungen
Normierung: seit 1981 nicht überarbeitet und neu normiert
-> Klassisches Verfahren, aber ohne neue Normierung praktisch nicht anwendbar
Was kann zu Experience Sampling (im Zusammenhang mit Persönlichkeitserhebungen) gesagt werden?
Alternative Erhebungsmethode
Besser geeignet zur Erfassung von Zuständen als Fragebogen
Proband:innen erhalten wiederholt kurze Survey auf Smartphone und können unmittelbare Angaben zu aktuellem Befinden
Hohe ökologische Validität
Bislang wenig etabilitert und gründlich untersuchte Verfahren verfügbar
Was ist die Goldwater Rule?
Regel, dass es unethisch ist für Psycholog:innen, Diagnose auszustellen ohne Authorisierung und agemessene Diagnostik
Was sind Interessen?
Interessen als Persönlichkeitsmerkmal von hoher
Konstanz
Situationsabhängigkeit
Interessen sind
relativ stabile
in der Persönlichkeit verankerte Handlungstendenzen
kognitiv
emotional
werthaft
Unterscheiden sich nach
Art
Richtung
Generalisiertheit
Intensität
Wo werden Interessenstests hauptsächlich eingesetzt?
in der Berufsberatung
Welche zwei Arten Interessen zu messen gibt es?
Normative Messung:
Probandinnen stufen ein, wie gerne sie bestimmte Tätigkeit ausüben (z. Bsp. auf einer Skala)
Ipsative Messung
Probandinnen ordnen Tätigkeiten danach, welche ihnen am besten oder wenigsten gefällt (Forced choice Antwortformat)
Auf welche verschiedene Arten können Berufsinteressen erfragt/geäussert werden?
Geäusserte Interessen: Person sagt von selbst, was sie interessiert
Erfragte Interessen: Person beantwortet, wie interessant sie etwas findet
Manifeste Interessen: Interessen, die sich in Taten niederschlagen (z. Bsp. Hobbie) und tatsächlich beobachtbar sind
Getestete Interessen: Erfassung unter kontrollierten Bedingungen (z. Bsp. wie lange Person sich mit Objekt auseinandersetzt), v.a. in der Berufsberatung eingesetzt
Auf welchem Ansatz basieren die meisten Interessenstests im Bereich der Berufsberatung? Wie wird dies diagnostisch umgesetzt?
Passungsansatz
populärster Ansatz in Berufswahltheorien
Annahme, dass in der Berufsberatung möglichst gute Passung zwischen Person und (beruflicher, ausbildungsbezogener) Umwelt angesetrebt werden soll
Diagnostische Umsetzung durch Kombination von Verfahren möglich
Allgemeiner Interessen Struktur Test (AIST-3) und Umwelt Struktur Test (UST-3)
Viele Tests basieren auf Berufswahltheorie von John Holland (1997) (RIASEC)
Welche sind die Grundannahmen der RIASEC-Typologie von Holland?
In unserer Kultur können Menschen in sechs unterschiedliche Interessenstypen bzw. Persönlichkeitstypen eingeteilt werden
Anaolog dazu gibt es 6 Arten vor Arbeitsumgebungen bzw. Umwelten
Jede Person sucht eine Umwelt, die
es ihr ermöglich Fähigkeiten & Fertigkeiten anzuwenden
es ihr ermöglich Einstellungen & Werte auszudrücken
zu ihrem Typ passt
Verhalten = Ergebniss von Interaktion zwischen Persönlichkeit und Umwelt
Welche “Interessenstypen” gibt es in der RIASEC-Typologie von Holland?
Name (englisch)
Interessensart (deutsch)
Charakteristiken
Interessen
Jobs
Realistic - the “Do-erst”
Praktisch-technische Itneressen
athletisch
technische
Fähigkeiten
Mit Objekten, Maschinen, Tools, Pflanzen, Tieren arbeiten
Draussen arbeiten
Mechaniker:in
Holzfäller:in
Elektriker:in
Investigative - the Thinkers
Intellektuell-forschende Interessen
—
Beobachten
Lernen
Untersuchen
Analysieren
Probleme Lösen
Physiker:in
Psycholog:in
Forscher:in
Programmierer:in
Professor:in
Artistic - the creator
künstlisch-sprachliche Interessen
Innovativ
intuitiv
Arbeitet gerne in unstrutkurierten Umwelt
Nutzen von Kreativität und Vorstellungskraft
Journalist:in
Künstler:in
Kurator:in
Schauspieler:in
Übersetzer:in
Tänzer:in
Social - the helpers
Soziale Interessen
Gut mit Wörtern
Helfen
Lehren
Heilen
Erleuchten
Mit Menschen arbeiten
Psychologin
Sozialarbeiter:in
Logopäd:in
HR
Priester:in
Enterprising - the persuaders
Unternehmerische Interessen
Überzeugen
Führen
Beeinflussen
Wirtschaftliches oder Personal managen für grosse Firmen
Immobilienmarkler:in
Bartneder:in
Reiseberater:in
Manager:in/CEO
Conventional - the organizers
Konventionelle Interessen
Kongitive Fähigkeiten
Numerische Fähigketen
Detailierte Arbeitsweise
Befolgen Anweisungen
Mit Data/Daten arbeiten
IT
Versicherungsexpert:in
Buchhalter:in
Wie ist die RIASEC-Typologie von Holland aufgebaut und wie wird sie erhoben?
Distanz zwischen Typen sagt (theoretisch) aus, wie stark sie miteinander korrelieren
d.h. Wahrscheinlicher, dass jemand sowohl Praktisch (R) als auch Forschungsorientiert (I) ist als dass jemand künstlerisch-sprachlich (A) sowie konventionell (c) orientiert ist (Zwei Interessensfelder stehen einander gegenüber)
Zum Teil ipsative Messung
Anhand der Rohwerte der Person werden die Interessenstypen in eine Rangreihen gebracht
Betrachtete werden die 3 am höchsten ausgeprägten Typen (z. Bsp. SIA)
Welche Beispiele gibt es für Interessenstests, welche auf der RIASEC-Typologie von Holland basieren?
Allgemeiner Interessens Struktur Test (AIST-3) mit dazugehörigem Umwelt Struktur Test (UST-3)
Foto-Interessen Test (F-I-T)
EXPLORIX
Was ist der AIST-3 und wie wird er durchgeführt? Was kann zur Revision gesagt werden?
Allgemeiner Interessen Srtuktur Test mit dazugehörigem Umweltstrukturtest (UST-3)
Verbaltest für Interessensdimensionen nach Holland
-> 3 -> revidierte Version, bei der veraltete oder problematische Inhalte ersetzt wurden
Berufsregister erheblich ergänzt
Fallbeispiele überarbeitet
Literatur aktualisiert
Zielgruppe: Sekundarstufe I und II
Durchführung
Selbsteinschätzung
60 Items (10/ Interessensrichtung) zu beruflichen Tätigkeiten
Bearbeitungsdauer: 10-15 Min
Was kann zur Auswertung und Interpretation des AIST-3 gesagt werden?
Einteilung der Rohwerte nach RIASEC Modell von Holland -> Je nach Punktzahl unterschiedlicher Code (z. Bsp. RIA)
Weitere Indexes
Differneziertheitsindex
= Grad der Klarheit/Eindeutigkeit des Personen- oder Umweltprofils
Hohe Differenziertheit: Personen und Umwelten, welche vorallem durch eine einezelne Grundorientierung charakterisiert sind
Niedrige Differenziertheit: etwa gleich grosse Ähnlichkeit zu allen Modelltypen, unabhängig vom Gesamtniveau
Berechnung: Interessensscore dominierendste Orientierung - IS niedrigste Orientierung
Streuungsmass für Differenziertheit
Alternatives Mass für Niveau der Differenziertheit einer Person oder Umwelt
Weniger anschaulich
Berücksichtigt Information aus allen 6 Dimensionen
Was ist der Umwelt Struktur Test (UST-3) und wie ist er aufgebaut?
Gehört zu AIST-3
Erfasst schulisch berufliche Umwelt nach denselbsen Dimensionen wie AIST (d.h. nach RIASEC Typologie)
Erlaubt Bestimmung der Kongruenz -> Übereinstimmung von Person und Umwelt (ähnliche Prioriäten)
Was kann zu den Gütekriterien des AIST-3 gesagt werden?
Interne Konsistenz: Alpha =.86 - .90
Diskriminiert gut zwischen verschiedenen Berufsgruppen
Register mit Holland Codes für Berufe und Ausbildung erlaubt Verknüpfung von Interessenproful und Berfusempfehlung
Konvergente Validität mit anderen Interessenstests “erwartungsgemäss”
N = 4’321 Schüler:innen und Studierende zwischen 14 und 20 Jahren
Gesamtnormen
Altersspezifisch
Geschlechtsspezifisch
Was ist EXPLORIX? Was sind dessen Besonderheiten und wie unterscheidet er sich von anderen Tests im selben Bereich?
Interessenstest
Basiert auf RIASEC Typologie von Holland
Besonderheit: Fragebogen wird auch online zur Selbsttestung mit anschliessenden Ergebnissen angeboten
Berufsregister von EXPLORIX…
umfassender als der des AIST-3 und spezifisch für die Schweiz entwicklelt
spezifisch für die Schweiz entwickelt (2024 aktualisiert)
für unterschiedliche Bildugnsniveaus
Wie ist der EXPLORIX aufgebaut?
Fragebogen mit vier Subtests
insgesamt 218 Items, welche nach Holland-Typen aufgeführt sind
Tätigkeiten:
11 Items pro Typ
z. Bsp. “Wie gerne würde Proband:in aus Holz ein Bücherregal zimmern”
Fähigkeiten:
Welche Tätigkeiten (z. Bsp. frei vor Leuten sprechen) kann Proband:in gut/kompetent ausführen?
Berufe:
14 pro Typ
Welche Berufe interessieren Proband:in?
2 Items pro Typ
Wie schätzt Probandin eigene Fähigkeiten bez. “Einfühlungsvermögen” (S) ein?
Wie wird der EXPLORIX ausgewertet und wie lange dauert er?
Selbstständige Durchführung UND Auswertung
Ca. 20 Min
Für jeden Typ Bildung der Summer über alle vier Subtest hinweg
Summen werden in Rangordnung gebracht und drei höchsten Werte ergeben Holland Code
In länderspezifischen Berufsregister sind alle für Holland-Code passende Berufe mit Angaben des notwendigen Bildungsweges angegeben
Was kann zu den Gütekriterien von EXPLORIX gesagt werden?
Interne Konsistenz für 6 Typen zwischen .88-.91
Für 4 Subtetst Kosistenz von .77 (Tätigkeit) bis .80 (Berufe)
Retest Reliabilität für Kurzform bei Zeitintervall von 15-18 Monate .80 (variiert etwas nach Typ, A > C)
Faktoranalyse mit schiefwinkliger Rotation der 24 Subskalen ergeben 6 schwach korrelierte Faktoren
GEeschlechtsunterschiede “Realistic” “Social” und “Artistic” (fragwürdig ob das Validitätsbeleg ist)
Theoretisch erwartbare Zusammenhänge mit B5 z. Bsp. Offenheit korreliert mit Artistic und Investigative zu .47/.37, Extraversion korreliert mit Enterprising zu .44
-> Validität nicht wirklich gegeben
Was ist der Foto-Interessens-test (F-I-T)?
Interessenstest nach RIASEC Modell
Nonverabler Online Berufsinteressenstest
Auch gut für Menschen mit Migrationshintergrund etc.
Sortierung von Fotos (von Berufen) in 3 Gruppen:
Kein Interesse
Mittleres Interess
Grosses Interesse
Zielgruppe: ab 13. Lebensjahr
Durchführungsdauer: 10-20 Minuten
Repräsentative Normen für 13 - 16-Jährige
Ständige Aktualisierung des Materials
Berufsregister aus EXPLORIX
Welche Probleme und Vorteile ergeben sich durch den Holland Code?
Probleme
Code aus drei Buchstaben sagt nichts darüber aus, wie weit entfernt einzelne Buchstaben voneinander sind
Buchstaben, welche niedrigste Punktzahl haben, werden nicht beachtet, könnten aber Zeichne für Ablehnung sein -> womöglich möchte Person mit sehr niedrigem S garnicht mit Menschen arbeiten
Generelle Level der Interessen kann sehr tief/hoch ausgeprägt sein
Wenig starker Fokus in der Forschung aber starke Relevanz in Praxis
Hohe Augenscheinvalidität
Interessen können über andere kognitive und nicht-kognitive Persönlichkeitseigenschaften hinaus wichtige Information zu diagnostischem Prozess beitragen
Interessen klären weitere Varianz von Lebensoutcomes im Beruflichen bereich auf als Persönlichkeitstests und IQ Tests alleine
Was sind Q-Data, T-Data und L-Data?
Verschiedene Arten, Persönlichkeit zu erheben
Q-Data: Fragebögen
L-Data: Ratings von Beobachtungen, Liferecords (z. Bsp. Zeugnisse)
T-Data
“objektive” Persönlichkeitstests, welche Faking meiden
-> Q, L und T Data korrelieren viel weniger als erwartet
Wie werden objektive Persönlichkeitstets (T-Data) definiert?
Objektive Tests zur Messung von Persönlichkeit und Motivation sind Verfahren, welche folgendes messen:
das unmittelbare Verhalten eines Individuums
in einer standardisierten Situation
Ohne dass das Individuum sich selbst beurteilen muss
Verfahren sollen keine (mit der Messsituation übereinstimmende) Augenscheinvalidität haben
Kann erreicht werden durch…
Bestimmte Aufgabenwahl
Bestimmte Auswertungsmethoden
Müssen den üblichen Güterkriterien psychologischer Tests genügen
Was kann im allgemeinen zu objektiven Persönlichkeitstests gesagt werden?
Nichtverbale und möglichst objektive Erfassung
Ausschluss sozialer Erwünschtheit
Tests wirken meistens wie Leistungstests:
Proband.innen sollen nur auf wenige Aufgaben reagieren
Können nur zwischen wenigen Optionen wählen
-> Durchführung und Auswertung standardisiert
Entwicklung vieler objektiver Persönlichkeitstests durch Catell
Meiste objektive Persönlichkeitstest sind relativ alt -> Idee von objektiven Tests konnte sich nicht durchsetzen, wurde irgendwann praktisch aufgegeben
Was ist der OLMT?
Objektiver Leistungsmotivationstest
Messung der Leistungsmotivation über eine kognitiv wenig anspruchsvolle Aufgabe
Probandinnen müssen eine “Strasse” am Computer runterlaufen und dabei auf die Knöpfe drücken, welche auf Bildschirm angezeigt werden
Richtig: Proband:in legt weiteres Feld zurück
Falsch: optische oder akustische Warnung, kein Feld weiter
Aus welchen drei Subtests besteht der OLMT?
Aufgabenbezogene Anstrengung: Erfassung der Leistung ohne Anreize
Motiavtion durch Ziele: Extraanreizbildung durch Angabe von Proband:inn vor jedem Durchgang, wieviele Felder sie schaffen wird
Motivation durch Konkurrenz: Proband:in kämpft gegen Konkurrenten -> Leistung von Konkurrenz richtiet sich an Leistung Proband:in, immer 10% schneller in letzten drei Durchgängen
Was kann zu den Gütekriterien des OLMT gesagt werden?
OLMT = Objektiver Leistungsmotivationstest
Hohe interne Konsistenz welche eher für Leistungstests typisch ist
Variation je nach Subtest und Altersgruppe
Moderate Korrelation (.30) mit Leistungsmassen (Kognitive Leistungstests und Abiturnote)
Verfälschung nur nach unten möglich
Geringe Korrelation mit anderen Leistungsmotivationstest (müsste hingegen perfekt sein da objektiv)
Repräsentative Stichprobe nach Alter und Bildungsniveau
ABER
8-49: n = 170
50-64: N = 72
65-80: n = 124
Beurteilung nach TBS-TK
Voll gegeben
Allgemeine Informationen, Beschreibung diagnostischer Zielsetzung
weitgehend gegeben
Was kann zu Smartphones als objektives Testmass im Zusammenhang mit den B5 gesagt werden?
Studie mit
n = 624 Teilnehmenden
25 Mio events extrahier
Resultat: relativ hohe Korrelation so erhobener Persönlichkeit und echter Persönlichkeit
Korrelation mit Domäne .37
Korrelation mit Facetten: .4
Welche sind die Vorteile und Herausforderung der Erhebung von Persönlichkeitsdaten mit Smartphones?
Erhebung von real-life in real time
Faking wird gemieden
Nicht-obstrusive Erfassung
Objektiv
Weltweit einsetzbar (begrenzt)
Erlauben Sprachfreie Erfassung von Daten
Mulitmodele Datenerfassung möglich
Wiederholte und kontiuierliche Beobachtung möglich
Herausforderungen
Smartphones wurden nicht als diagnostische Tools entwickelt
Bislang unkläre Validität von Mobile-Sensing Daten für viele Konstrukte
Bedeneken bei der Frage des Datenschutzes
Grosse Datenmenge erfordert
Untensives Datenmanagement
Anspruchsvolle Analyse
Was sind projektive Tests? Wo werden sie am meisten verwendet?
Wohl umstrittensten diagnostische Verfahren
Begriff von Projektion geht auf Freud zurück: Eigenschaften, die Ich bedrohen und an der eigenen Person nicht wahrgenommen werden, werden auf eine Person der Aussenwelt verlegt
Projektionen sollen durch mehrdeutige Reize provoziert und folglich Auskunft über nichtbewusste Aspekte der Persönlichkeit geben
Verwendung primär im klinischen Bereich, v.a. bei Kindern und Jugendlichen
Welche verschiedene Arten von projektiven Tests gibt es?
Formdeutverfahren
z. Bsp. Rorschachtests -> Tintenflecken deuten
Zeichnerische- und Gestaltungsverfahren
z. Bsp. Familie in Tieren -> eigene Familie als Tiere zeichnen
Verbal-thematische Verfahren
z. Bsp. TAT: Geschichte zu Bildern erfinden
Was ist die Geschichte des Rorschach Tests?
Erfinder: Hermann Rorschach, Schweizer Psychiater
Seit 1918 Arbeit mit von ihm entwickelten Tintenklecksen
Ursprüngliches Ziel: Diagnostik der neu definierten Schizophrenie
Buchmanuskript von mehreren Verlagen abgelehnt
Schliesslich Veröffentlichung im Bircher-Verlag
Nach Bankrott Bircher-Verlag Kauf der Rechte durch Hans Huber
Wie wird der Rorschach-Test durchgeführt und ausgewertet?
Testpersonen werden nacheinander 10 Bilder vorgelegt
Frage dazu. “Was könnte das sein?”
Jede Antwort wird protokolliert und nach bestimmter Kategorie mehrfach signiert
Erfassungsmodus: Ganz- oder Detaildeutung (wird ganzes Objekt beachtet oder nur Teile davon?)
Determinanten (Form, Farbe, Bewegung): Wird der Fokus mehr auf die Form gelegt? Auf die Farbe?
Inhalt (Tier, Mensch, Anatomie): Was sieht die Person überhaupt
Grad der Originalität: (z. Bsp. Vulgärwort für häufig vorkommende interpretationen)
Weitere Indikatoren für Psychogramm:
Antwortzahlen
Reaktionszeit
Sukzession der Erfassungsmodi
Prozentwerte für verschiedenen Erfassungs- und Erlebnistypen (Menschen-, Tier-, Anatomiedeutungen etc.)
Was kann zu den Gütekriterien des Rorschach Tests gesagt werden?
Problematische Auswertungsobjektivität
Übereinstimmung zwischen verschiedenen Auswerter:inne und Stichproben 52% bis 98%
Nicht optimal
Halbierungskoeffizient wegen unterschiedlichen Tafeln kaum berechnbar
Retest-Reliabilität schwierig, da Antworten leicht erinnert werden und zu Kontrastreaktionen bei Testwiederholung führen können
Validität variiert stark
Konvergente Validität: .30 -> sehr niedrig, aber zeigt, dass Tests etwas messen (einfach nicht klar was)
Korrelation der Rorschach-Variablen mit Kriterien ist höher bei externen als subjektiven Kriterien (r = .27 vs. .08)
Was ist das Fazit zu Projektiven Tests?
Beliebt in der Praxis
Guter Eisbrecher
Erfüllen Gütekriterein grösstenteils nicht
Hoher Aufwand bei relativ geringer psychometrischer Qualität
Was ist Verhaltensbeobachtung und wovon muss sie getrennt werden?
Systematische Beobachtung und Protokollierung des Verhaltens
einer oder mehrerer Personen
in einer bestimmten Situation
Beobachtung so weit wie möglich frei von Wertung -> Fokus auf Datensammlung
Abtrennung zur Verhaltensbeurteilung: Bei der Verhaltensbeurteilung handelt es sich um Schlussfolgerungen (= Interpretation), die aus der Verhaltensbeobachtung gezogen werden
Abgrenzung ist in der Praxis nicht so klar, aber ist ein Hinweis dafür, wo der Fokus gelegt werden soll
Welche verschiedene Aspekte der Verhaltensbeobachtung gibt es?
Frei vs systematisch (gebunden)
Verdeckt vs. offen
Wenn offen, dann teilnehmend vs. nicht teilnehmend
Direkt vs. indirekt
Selbst- oder Fremdbeurteilung
Im Feld oder in Situation, die von Beobachter:in erschaffen wurde
Wie unterscheiden sich die freie und die systematische Verhaltensbeobachtung und welche Vor- und Nachteile haben die einzelnen Verfahren?
Freie Verhaltensbeobachtung
Beobachterin entscheidet selbst, welche Verhaltensweisen beobachtet werden sollen
relativ explorativ -> Verhaltensweisen sammeln
Aufmerksamkeit gilt meist bestimmten Bereichen wie Arbeits-, Sozial-, Zwangs-, Spielverhalten oder Vermeidung von angstauslösenden Reizen
Ergebnis mehr oder weniger detailierter schriftlicher Bericht
Systematische Verhaltensbeobachtung
Im Voraus wird festgelegt…
welche Verhaltensweisen beobachtet werden
wie das Beobachtete protokolliert wird
Hypothesen erforderlich, welche spezifisieren, was in der Beobachtungssituation wichtig ist -> mehr Zeitaufwand
Resultat: Verhaltensweisen werden kodiert (z. Bsp. einfache Strichliste)
Was soll bei der freien Verhaltensbeobachtung beachtet werden?
Kontext berücksichtigen und nennen
Auslöser
Konsequenzen
Spielen andere Anwesende eine Rolle? Welche Situation? Welche möglichen Gefühle werden in dieser Situation ausgelöst?
Verhalten nicht wertend und möglichst ohne Interpretation beschreiben
Falls Interpretation vorgenommen wird, dann sollte diese
als solche erkennbar sein
begründet sein und durch exemplarische Verhaltensweisn belegt werden (i.e. “aggressives Verhalten (Kind schupft andere, schreit andere an)
Wie unterscheiden sich die direkte und die indirekte Verhaltensbeobachtung und welche Vor- und Nachteile haben die einzelnen Verfahren?
direkte Verhaltensbeobachtung
Beobachtende beobachten live in der Situation und nicht anhand von Aufzeichnungen
Vorteil: Beobachter:in kann frei Blick zu dem wenden, was sie interessant findet
Nachteil:
Gleichzeitige Beobachtung und Registrierung/Protokollierung nicht möglich
Gefahr, Wichtiges zu vergessen oder falsch wiederzugeben
indirekte Verhaltensbeobachtung
Trennung von Situation und Beobachtung -> Situation wird aufgezeichnet (z. Bsp. mit Kameras) und im Nachhinein beobachtet
Vorteil:
Aufzeichnung kann angehalten und wiederholt angeschaut werden
Videonalayse möglich (z. Bsp. genaue Dauer von Verhalten)
Nachteil: Nur Perspektive der Kamera möglich
Wie unterscheiden sich Verhaltensbeobachtungen im Feld und im Labor und welche Vor- und Nachteile haben die einzelnen Verfahren?
Verhaltensbeobachtung im Feld
Beobachtung in reeller Situation -> Kontexbedingungen werden miterfasst
Vorteile:
Nachteile:
Konfundierungsgefahr
Geringe Kontrolle
Ungünstig be seltenen Phänomenen
Verhaltensbeobachtung im Labor
Von Beobachter:in geschaffene oder speziell ausgewählte laborähnliche Sitationen können standardisiert werden
Hohe Kontrolle
Hohe Vergleichbarkeit möglich (z. Bsp. in Assessment Center)
Standardisiert
Niedrige ökologische Validität
-> Ökologische Validität je nach Konstrukt mehr oder weniger wichtig
Wie unterscheiden sich verdeckte und offene Verhaltensbeobachtungen und welche Vor- und Nachteile haben die einzelnen Verfahren?
Verdeckte Verhaltensbeobachtung
Beobachtende nicht sichtbar (aber können anwesend sein) umd Reaktivität zu vermeiden
z. Bsp. Kameras, Einwegscheibe
Vorteil: Annahme, dass sich Person an Kamera gewöhnt und desshalb natürlicher verhält
Vorallem bei hoher Reaktivität sinnvoll
Nachteil: Durchführung aus ethischen Gründen nur durch Zustimmung der Proband:innen möglich
Offene Verhaltensbeobachtungen
Offen teilnehmende Verhaltensbeobachtung
Beobachtende sind anwesen und nehmen an Verfahren teil (z. Bsp. Lehrperson)
Weniger Störung
Natürliche Situation
Bei anstrengenden Aufgaben eingeschränkte Beobachtungskapazität
Offen nicht teilnehmende Verhaltensbeobachtung
Beobachtende sind anwesend, nehmen aber nicht am Geschehenen teil (z. Bsp. Schulpsychologin)
Vorteil
Volle Aufmerksamkeit
Beobachtung kann von Expert:innen vorgenommen werden
Nachteil
Anwesenheit von Beobachtendne kann störend sein
Was ist das BAYSYS?
Beispiel für Verhaltensbeobachtungsverfahren
Erfassung der Aggressivität von 9 bis 16 Jährigen
5 Formen von aggresicem Schülerinnenverhalten
1 Form oppositionelles Verhalten
Zwei Versionen
BAYSYS-L
Für Lehrpersonen -> teilnehmende offene Beobachtung im Feld (während Unterricht)
BAYSYS-F
Für Fachkräfte
Nicht-teilnehmende Beobachtung
Kann zusätzliche Aspekte beachten (z. Bsp. auch Verhalten Lehrperson)
Was kann zur Selbstbeobachtung im Zusammenhang mit Verhaltensbeobachtung gesagt werden? Wie wird dies umgesetzt?
Bei Verhaltensbeobachtung denkt man oft an Fremdbeobachtung, aber Selbstbeobachtung kommt auch vor und kann sinnvoll sein, z. Bsp. aus…
ethischen Gründen: Verzicht von Beobachtung von intimem/persönlichem Verhalten (z. Bsp. Sexualverhalten)
Ökonomischen Gründen: z. Bsp. Frendbeobachtung von Zigarettenkonsum über den Tag wäre sehr aufwendig
Methoden:
Tagebucheinträcht (unsystematisch, Person wählt selbst was relevant ist)
Experience-Sampling: systematischer
Mögliche Herausforderungen
Verlangt gewissen Grad an Introspektion
Informationsselektion durch Proband:in (Person, welche nicht in diesem Bereich ausgebildet ist, muss entscheiden, was relevant ist)
Was ist Experience-Sampling und welche sind die Vor- und Nachteile davon?
Was Experience-Sampling ist
Form der Verhaltensbeobachtung -> Selbstbeobachtung
Proband:innen werden über bestimmten Zeitraum täglich mehrfach aufgefordert Angaben zu ihrem Erleben, Verhalten etc. zu machen
Unterscheidung zwischen freie Texteingabe vs. Beantwortung von Fragen mit unterschiedlichen Antwortenmodi
Automatische Erinnerungsfunktion -> Vermeidung Retrospektionseffekte
Zeitliches Protokoll der Eingaben ink. Antwortenlatenz
Automatische Datensicherung
Nicht manipulierbar
Kontextvariablen leicht abzufangen
Was ist systematische Verhaltensbeobachtung und wieso braucht es sie?
Was systematische Verhaltensbeobachtung ist
Bei einer systematische Verhaltensbeobachtung wird nie vollständige Beschreibung des Verhaltens angestrebt -> Fokus auf Teilaspekte des Verhaltens (z. Bsp. Aggressivität, Kooperation etc.)
Beobachtung, bei der Filter und Selektionsprozess gesteuert wird
Warum es systematische Verhaltensbeobachtung braucht
Menschen filtern (automatisch) Information aus Umwelt
Beobachtung keine realistische Wiedergabe der physikalischen Umwelt -> beobachtet wird, was wir für relevant halten
Welche drei Begriffe sind im Zusammenhang mit systematischer Verhaltensbeobachtung wichtig und was bedeuten sie jeweils?
Selektion:
Verhaltensbeobachtung ist Auswahl von Ereignissen aus ständigem Fluss von Verhalten
= z. bsp. Fokus auf Kooperation
Segmentierung
Als relevant entdecktes wird voneinander abgetrennt und nach vermuteter Bedeutng benannt
D.h. Kooperationsverhalten segmentieren = Unterteilung in Nachgeben, Verständnis zeigen, auf gewisse Weise Handeln etc.
Quantifizierung
Unterteilung des Verhaltens durch Aussagen über
Dauer
Häufigkeit
-> Freie Verhaltensbeobachtungen fallen praktisch nie identisch aus -> Beobachtende selektieren Unterschiedliches, benenne gleiche Dinge unterschiedlich und gehen mit Quantifizierung unterschiedlich um
-> systenatisch Verhaltensbeobachtung soll helfen, Selektion, Segmentierung und Quantifizierung zu standardisieren
Welche verschiedene Systeme der systematischen Verhaltensbeobachtung gibt es?
Zeichensysteme/Indexsysteme
Kategoriesysteme
Ratingverfahren
Was machen Zeichensysteme (im Zusammenhang mit Verhaltensbeobachtung)?
Tool der systematischen Verhaltensbeobachtung
Erfassung ausgewählter Verhaltensweisen als Indikator für gesamten Verhaltensbereich
z. Bsp. Schlagen, Treten und Schreien als Indikatoren für Aggression
Ausprägung des beobachteten Verhaltens wird aus ANzahl der Eintragungen erschlossen
D.h. z. Bsp. Striche machen, wenn eines der Verhaltensweisen auftreten
Wie findet man die richtigen Zeichen für Zeichensysteme (im Zusammenhang mit systematischer Verhaltensbeobachtung)?
Inhaltsvalidität beachten
Theorie beachten
Expert:innenmeinungen beachten
Verhaltensweisen müssen vorkommen
Verhaltensweisen können nicht übersehen werden
Verhaltensweise sollen repräsentativ sein für das zu messende Merkmal in dem vorgesehenen Anwendungsbereich
Welche zwei Formen von Zeichensystemen (im Zusammenhang mit systematischer Verhaltensbeobachtung) gibt es und wie unterscheiden sie sich?
Beobachtungschecklisten
Jedes mal wenn bestimmtes Verhalten auftritt einen Strich bei der jeweiligen Kategorie machen
Direkte Protokollierung möglich, aber Aufmerksamkeit setzt kurz aus
Time Sampling
In vorgegebenen Zeitintervalle (z. Bsp. Minute 1, Minute 2 etc.) angeben, ob Verhalten stattgefunden hat oder nicht
Sagt aber nicht aus, wie oft Verhalten in jeweiliger Minute stattgefunden hat
01 Kodierung
Unterscheidung zwischen
Time Sampling I
Beobachtungsintervall wird in Zeitabschnitten unterteilt
Beachtung per Abschnitt und nachfolgende Protokollierung
Idealerweise von mehreren Beobachter:innen -> eine Person beobachtet in Minute 1 und protokolliert in Minute zwei, Person 2 beobachtet in Minute 2
-> Reduziert Aufmerksamkeitsfehler, Trennung Beobachtung und Protokollierung
Time Sampling II
Verzicht auf Registrierungsphase
Festlegung von Zeitabschnitten -> nach Zeitabschnitt signalton und Protokollierung
Gleichzeitige Protokollierung und Beobachtung
Was ist Event Sampling? Was ist ein Beispiel hierfür?
Exakte Bestimmung der Dauer von Verhaltensweisen nur hier möglich
Fokus auf sehr bestimmtes, kurz auftretendes Ereigniss
Anfang und Ende der Verhaltenssequenz werden zeitlich genau bestimmt und daraus Dauer berechnet
Videoaufnahmen nötig
Durch wiederholtes Beachter der Aufnahmen in Slow-Motion kann Zeitpunkt des Beginns und Endes festgelegt werden
Auch immer mehr Softwares, welche diese Aufgabe erledingen
Beispiel: FACS (Facial Action Coding System)
Microbewegungen von Muskeln in Gesicht werden erfasst, kodiert und ausgewertet
Was sind Kategoriesysteme im Zusammenhang mit systematischer Verhaltensbeobachtung? Wie ist ihr Stand in der Praxis?
Ziel von Kategoriesystemen:
vollständige Erfassung des Verhaltens -> Verhalten wird unterteilt in mehrere, klare definierte, voneinander abgrenzbaren Kategorien -> kein Verhalten soll unkategorisiert bleiben
z. Bsp. Bestrafung, Belohnung oder keine Reaktion als Erziehungsmethode
Kriterien schwer zu erfüllen
Vollständigkeit
Eindeutigkeit
Überschneidungsfreiheit
Kategorisierung immer Simplifizierung -> Details gehen verloren -> Vollständigkeit nicht gegeben
Entsprechend spielen Kategorisierungssysteme in der Praxis praktisch keine Rolle
Wie unterscheiden sich Verhaltensbeobachtungen von Verhaltensbeurteilungen?
Verhaltensbeobachtung
Liefert Daten über Häufigkeit und Dauer konkreter Verhaltensweisen
Daten können als Ausprägung von Eigenschaften interpretiert werden
Verhlatensbeurteilung
Liefert Interpretation über Verhaltensweise -> Beobachter:in sieht Verhalten und schliesst daraus direkt auf Eigenschaft
Registrierung entfällt
Beurteilung in standardisierter Form (z. Bsp. mehrstufige Ratingskala)
-> Prozesse können auch voneinander unabhängig gestaltet werden, z. Bsp. eine Person beobachtet, andere beurteilt
Was ist Interrate Agreement und welche Bedeutung hat es im Zusammenhang mit systematischer Verhaltensbeobachtung?
= Beurteiler:innenübereinstimmung
Bei sVB kritisch
Abhängig von
Eindeutigkeit der Definitionen von Konstrukten
Eindeutigkeit von Skalenpunkten
Je globaler das einzuschätzende Verhaltensmerkmal, desto schwieriger ist es, zwisschen verschiedenen Beobachter:innen Übereinstimmung zu erzielen
Wie kann Interrate Agreement bei der Verhaltensbeobachtung erhöht werden?
Durch Verhaltensverankerung
Kann Maximiert werden, indem man möglichst viel Information über Bewertungsverfahren gibt
Verbale Verankerung (Sehr stark = 5, schwach = 0)
Numerische Verankerung
Beispiele Angeben (5 = Beissen)
Durch Schulung kann man sicherstellen, dass Beurteilerinnen zu übereinstimmenden Ergebnissen kommen
Was ist das Linsen Modell von Brunswick (1952)?
Annahme: Menschen nehmen Umwelt nicht direkt wahr, sonder erschliessen sie aus Hinweizreisen, die von Objekten in Umwelt ausgehen
Objekte: z. Bsp. andere Menschen
Objektive Hinweisereize: gewisses Verhalten zweigen
Subjektive Hinweisreize: Wahrnehmung des gezeigten Verhalteln durch Beobachter:in (kann anders interpretiert und gewichtet werden als intendiert)
Darauf basiert die Urteilsbildung
Gründe für eine mangelnde Übereinstimmung zwischen Beurteilenden
Unterschiede in der Wahrnehmung der einzelnen Hinweisreize
Unterschiede in der Verarbeitung der Hinweisreize
z. Bsp. Aufgrund von unterschiedlicher Gewichtung und Interpretation
Auch Abhängig von Aufmerksamkeit, Hintergrundwissen, Konzentration, Werte etc.
Welche B5 Verhaltensweises können am meisten im Schlafzimmer von Menschen erkannt werden?
Am meisten: Offenheit für Erfahrung
Am wenigsten: Verträglichkeit
Relativ gute Übereinstimmung zwischen Einschätzung von Menschen, welche Zimmer gesehen haben und B5 Fragebögen
Was Kann zur Objektivität/interrate Reliabilität von Verhaltensbeobachtungen gesagt werden?
Kann problematisch sein wenn Ergebnisse nicht unabhängig von der Person sind, die das Verfahren auswertet und durchführt
Segementierung und Selektion können je nach Werten etc. einer Person unterschiedlich ausfallen
Bei jeder Beobachtung ist nicht nur das Beobachtungssystem als Instrument sondern auch die Person die beobachtet involviert
Ermittlung der Übereinstimmung der Registrierungen
Cohen’s Kappa bei nominalskalierten Variablen (i.e. Verhaten liegt vor oder nicht)
Intra-Klassen-Korrelation bei intervallskalierten Variablen
Wie wird Kohen’s Kappa berechnet?
Person B v
Person A ->
Verhalten JA
Verhalten Nein
Gesamt
100
20
120
10
70
80
110
90
200
k = p0 - pe/1-pe
p0 = übereinstimmende Urteile / gesamte Urteile
Übereinstimmende Urteile = beide Nein oder beide Ja
= 100 + 70/200 = 0.85
-> Anteil der vorliegenden Übereinstimmungen
pe = Gesamt Ja Person A/Gesamturteil x Gesamt Auffällig Person B/Gesamturteil + Gesamt Nein Person A/Gesamturteil x Gesamt Nein Person B/Gesamturteil
= 120/200 x 110/200 + 80/200 x 90/200 =0.6 x 0.55 + 0.4 x 0.45 = 0.51
-> Anteil der Übereinstimmungen, die zufallsbedingt zu erwarten wären
k = 0.85 - 0.51/ 1 - 0.51 = 0.694 (relativ gute Übereinstimmung)
Wie kann die Validität von Verhaltensbeobachtungen bestummen werden?
Konvergente und divergente Validität:
über Korrelation mit Fragebögen, welche das gleiche Messen
Gruppenvergleiche
Veränderungsmessung durch eine bewährte Intervention
Prädiktive Validität
z. Bsp. durch zukünftigen Berufserfolg durch Beurteilung in Assessment Centers
Welche Urteilsfehler gibt es bei der Verhaltensbeobachtung?
Halo-Effekt
Logischer Fehler
Primacy- und Recency Effekt
Beobachterdrift
Reaktivität
Was ist der Halo-Effekt, wie kann man ihn erkennen und wie kann damit (im Zusammenhang mit Verhaltensbeobachtungen) umgegangen werden?
Definition Halo-Effekt
Urteil über ein herausragendes Merkmal (z. Bsp. sehr hohe Intelligenz) “überstrahlt” die Beurteilung anderer Merkmale
z. Bsp. Wenn Person ausserordentlich freundlich wirkt, werden andere Merkmale auch positive beurteilt
Wie man den Halo-Effekt entdeckt:
Auffällig: unangemessen hohe Korrelationen von Urteilen eine:r Beobachter:in zwischen verschiedenen Merkmalen einer Person
Wie man den Halo-Effekt beheben kann:
Nicht alle Merkmale einer Person auf einmal messen, sondern z. Bsp. zuerst bei allen nur Aggression beobachten und beurteilen, danach Kooperation etc.
D.h. zunächst nur Erhebung des Ausprägungsgrades eines einzelnen Merkmals bei allen einzuschätzenden Personen
Was sind logische Fehler (im Zusammenhang mit Verhaltensbeobachtungen), wie kann man ihn erkennen und wie kann damit umgegangen werden?
Bedeutung logischer Fehler
Implizite Annahmen/Hypothesen von Beobachter:in über logische Zusammenhänge bestimmter Merkmale beeinflussen die Wahrnehmung/Interpretation eines Verhaltens
Bsp.: Wenn Beobachter:in glaubt, dass dominante Menschen auch aggressiv und wenig kooperativ sind, dann lässt sich Beobachter:in bei Beobachtung von Aggressivität und Kooperation bei einer dominanten Person von dieser Hypothese leiten
Ausprägung einzelner Verhaltensweisen wird nicht unabhängig geschätzt, sondern aufgrund von implizitem Zusammenhang erschlossen
Hinweis darauf
Hohe Interkorrelationen eines Merkmals
Was sind Primacy- und Recency-Effekte (im Zusammenhang mit Verhaltensbeobachtungen) und wie können diese Effekte erklärt werden?
Primacy Effekt: Beurteiler:in lässt sich übermässig stark von Beobachtung am Anfang beeinflussen
Mögliche Erklärung: Frühe Bildung eines Gesamteindrucks, den man durch weitere Beobachtungen zu bestätigen versucht
Recency Effekt: Beurteiler:in lässt sich übermässig stark von Beobachtung am Ende beeinflussen
Mögliche Erklärung: Zuletzt beobachtete Verhaltensweise ist stark präsent, deshalb stützt sich Beobachter:in stark darauf
Was ist der Beobachter:innen-Drift (im Zusammenhang mit Verhaltensbeobachtungen), welche verschiedene Formen davon und welche Gründe dafür gibt es?
Bedeutung Beobachter:innen-Drif
Genauigkeit der Beobachtung lässt entweder über Beobachtungsphase ab oder nimmt zu
Mögliche Gründe für nachlassende Genauigkeit
Müdigkeit
Nachlassende Aufmerksamkeit -> weniger Verhaltensweisen, die entdeckt werden sollen, werden entdeckt
Mangelnde Motivation
Mögliche Gründe für zunehmende Genauigkeit
Beobachter:innen lernen im Laufe der Beobachtung hinzu
Besseres Verständnis, wie Messinstrument funktioniert
Besseres Verständnis, welche Verhaltensweisen relevant sind
Oft aufgrund von ungenügend Beschulung
Was ist Reaktivität (im Zusammenhang mit Urteilsfehlern bei der Verhaltensbeobachtungen) und wie kann damit umgegangen werden?
Bedeutung Reaktivität
Beobachter:in verändert durch Präsenz oder (unangemessenes) Auftreten Verhalten der zu beobachtenden Person
Grundsätzliches Problem der psychologischen Diagnostik
Z. Bsp. Zeigt normalerweise aggressives Kind womöglich weniger Aggression bei sehr dominant aussehender Person
Verschiedene Beobachter:innen können unterschiedlich starke Reaktivität erzeugen
Umgang mit Reaktivität
Klient:in direkt fragen, ob er/sie sich anders Verhalten hat
Gewöhnungsphase vor Testung
Verdeckte Beobachtung
Welche Antworttendenzen gibt es (bei Verhaltensbeobachter:innen)?
Milde-Effekt: Personen werden übermässig positiv beurteilt
Strenge-Effekt: Personen werden übermässig negativ beurteilt
Tendenz zur Mitte: Personen werden alle relativ nahe beieinander und als durchschnittlich/nahe beim Durchschnitt beurteilt
Extremurteile: Personen werden entweder extrem gut oder extrem schlecht beurteilt
Welche Massnahmen gibt es zur Verbesserung der Gütekriterien von Verhaltensbeobachtungen?
Klare Instruktionen in Manual
Training/Schulung von Beobachter:innen & Beurteiler:innen
Standardisierte videobasierte Lernzielkontrollaufgaben zur Überprüfung, ob Teilnehmende Verfahren beherschen
Erkennung von unsachgemässen Skalengebrauch durch Analyse der Antwortverteilungen (z. Bsp. bei Antworttendenzen)
Nachschulung der Beobachter_inn und Ausschluss von Beobachter:innen bei klaren Antworttendenzen
Was kann zusammenfassend über Verhaltensbeobachtungen und -beurteilungen sowie dessen Wert gegenüber Fragebögen und Tests gesagt werden?
Verhaltensbeobachtungen und -beurteilungen eine Methode von vielen im “multimethodalen Handwerkskoffer” der psychologischen Diagnostik
VB liefern spezifische und zusätzliche Information zu Tests, Interviews etc.
Nebengütekriterium der Ökonomie i.d.R. weniger Vorteilshaft als bei Fragebögen und Tests
Im Vergleich zu Fragebögen und Tests gibt es weniger “fertige” Verfahren
Vorallem deshalb, weil die Entwicklung von VB-Verfahren aufwändigen Entwicklungsprozess braucht, um reliable und valide Informationen als Entscheidungsgrundlage für die diagnostische Fragestellung nutzen zu können
VB oft individuelle Verfahren, die anhand spezifischer Fragesetellung entwickelt werden
Freie VB liefert auch wertvolle Information in der explorativen Phase
Verständnis über Operationalisierung der Eigenschaft, Entwicklung Kategoriesysteme etc.
Was ist das Diagnostische Interview? Welche weitere Differenzierung gibt es hier?
Verwendungszweck als Abgrenzungsmerkmal
Oberbegriff für alle Methoden zur Erhebung von diganostisch relevanten Informationen mittels Gespräch
Spezifizierung nach Art der zu erhebenden Information
Anamnese: Gesprächsweise Erkundung der Vorgeschichte einer Erkrankung/Störung
Exploration: Erkundung des subjektiven Lebensraums einer Person
Einstellungs-/Auswahlgespräch: Information über Eignung einer Person für bestimmten Kontext (Studium oder Beruf)
Wo werden diagnostische Interviews am meisten eingesetzt und wie unterscheiden sich die beiden Einsatzbereiche?
Vorallem in der klinischen Diagnostik und Eignungsdiagnostik
Klinische Diagnostik;
Interviews zur Diagnostik psychische Störung
Mittel Manual über Testverlage vertrieben
Fragen nach Anforderungen, die mit einer bestimmten Stelle verbunden sind -> Keine universell einsetzbaren Interviewverfahren (da je nach Stelle unterschiedliche Anforderungen)
Mutlimodales Interview als Bauanleitung für Einstellungsgespräch
Welche drei Eigenschaften von diagnostischen Interviews können unterschieden werden?
Gesprächsmodus
Face to Face
Telefonisch
Videocall
Grad der Strukturierung
Grad der Standardisierung
Wie sehen unterschiedlich stark standardisierte diagnostische Interviews aus?
Unstandardisiertes Interview
Nur Zweck des Gesprächs steht fest (z. Bsp. Einstellung der Person für Berufstätigkeit)
Fragen ergeben sich im Laufe des Gesprächs
Zwei unstandardisierte Interviews können sich selbst bei identischer Fragestellung stark unterscheiden
Halbstandardisiertes Interview
Standardisierung angesrebt, aber Festlegung auf exakte Wortlaute und Abfolgen nicht gewollt oder nicht möglich
Themen mit stichpuktartig charakterisierten Fragen können als Vorlage dienen
Standardisiertes Interview
Jede Frage im Voraus genau festgelegt und immer im gleichen Wortlaut vorzutragen
Drehbuch der Situation steht fest
Wie unterscheiden sich Strukturierung und Standardisierung im Zusammenhang mit diagnostischen Interviews?
Keine einheitliche Verwendung bzw. Unterscheidung
Strukturierung bezieht sich meist auf den systematischen Aufbau
Es wird vorab festgelegt, welche Themen und Fragen wann und unter welche Umständen (je nach Antworten und vorhergegangenen Fragen) angesprochen werden
Wortlaut kann standardisiert oder unstandardisiert sein
Teilweise als Sysnonym bzw. Einheit
Wie werden standardisierte diagnostische Interviews ausgewertet?
Standardisierung der Auswertung (Regeln)
Meist bei jeder Frage Vergabe von Punkten für die Antworten
Verhaltensverankerung hilfreich
Verrechnung über alle Fragen hinweg nach vorab festgelegten Regeln (z. Bsü. Gewichtung nach Anforderungsmerkmalen, Mindestewerte)
Was ist das SCID-5-CV und wie ist es aufgebaut?
Strukturiertes klinisches Interview für DSM-5 Störungen
Halbstrukturiertes Interview für die Diagnostik von psychischen Störungen nach DSM-5
ca. 45 - 90 min
Kann von Kliniker:innen oder geschultem Fachpersonal eingesetzt werden
Leitet Anwender:innen Schritt für Schritt durch diagnostischen Prozess
Umfass DSM-5 Diagnosen, welche am häufigsten auftreten
in 10 relativ eigenständige diagnostische Module eingeteilt
Aus welchen 10 Modulen besteht das SCID-5-CV?
A: Affektive Episoden
Depressive Episoden
Manische Episoden
Persistierende D. Störung
B: Psychotische und Assoziierte Symptome
C: Differenzialdiagnose Psychotische Störungen
D: Differenzialdiagnose Affektiver Störungen
E: Störungen durch Substanzkonsum
F: Angststörungen
G: Zwangsstörungen und Posttraumatische Belastungsstörung
H: ADHS
I: Screening für andere aktuelle Störungen
Essstörungen
Pathologisches Horten
Gambling
Dysphorie
Intermittierende Explosive Störung
J: Anpassungsstörung
Weshalb ist es wichtig, dass klinische Interviews standardisiert werden?
Um mangelnder Objektivität entgegenzuwirken
Was kann zu den Gütekriterien des SCID-CV-5 gesagt werden?
Auswertungsobjektivität: Übereinstimmung zwischen Auswerter:innen
Kappa-Koeffizien im Mittel bei .70
Je eindeutiger Symptome definiert sind, desto leichter wird das Vorliegen eines Symptoms erkannt
Bei n = 390 Personen über 21 Störungen hinweg Kappa von .61 mit erheblicher Variation zwischen Diagnosen
Bessere Werte für häufig vorkommende Störungen (Major Depression, Drogenabhängigkeit)
-> Erkenntnis: Diagnose, welche Interviewer:in aufgrund von Patient:innenangabe stellt, hängt in erhelblichem Mass davon ab, wer Interview führt und auswertet
Gründe für unterschiedliche Retest-Reliabilität
Merkmale der Interviewer:in wie Alter, Geschlecht etc.
Unterschiedliche Auskünfte der Patient:innen
Unterschiedliche Durchführung/Auswertung Interview
Tatsächliche Veränderung (untwahrscheinlich)
Schwer zu beurteilen
Gute Validitätskriterien fehlen, weil Interviews in der Praxis als beste verfügbare Methode zur Diagnosefindung gelten (Goldstandard)
Ergebnisse von Validitätsstudien sagen mehr über Validität der anderen Verfahrenals über die des Interviews aussagen
Welches ist die am weitesten verbreitete Methode zur Personalauswahl?
Vorstellungsgespräche/Eignungsinterviews
Welche zwei Fragenformate gibt es bei Einstellungsinterviews?
Biografische Fragen
Frage nach realem Verhalten in eigener Biografie
Annahme, dass vergangenes Verhalten Verhalten in der Zukunft voraussagt
Situative Fragen
Schilderung von fiktiven Situationen in denen Anforderungen relevant sind
Frage, wie sich Bewerber:in in Situation verhalten würde
Annahme, dass geschilderte Handlungen auch in realen, zukünftigen Situationen gezeigt werden
Multimodales Interview
Was sind die Vor- und Nachteile von Situativen Fragen vs. biografischen Fragen in Einstellungsinterviews?
Zeigen sich in Metaanalysen durchgehend situativen Fragen überlegen -> höhere Validität (zwischen .56 und .63 vs. .43 und .47 für situative Fragen)
Hilfreich, wenn Bewerber:innen noch keine Erfahrungen haben
Situative Faktoren könnten vergangenes Verhalten beeinflusst haben
Fragen können besser aus zukünftige Anforderungen angepasst werden
-> Je nach Kontext können situative Fragen auch biografische Fragen ergänzen
Was ist das Multimodale Einstellungsinterview von Schuler (1992) und wie ist es aufgebaut?
Konstruktionsprinzip/Leitlinie zum Aufbau eines Einstellungsgesprächs
Multimodall weil unterschiedliche Methoden eingesetzt werden (situative und biographische Fragen als Herzstück (wichtigster Bestandteil))
Inhaltliche Ausgestaltung variiert in Abhängigkeit von der zu besetzenden Stelle
Verlauf
Gesprächsbeginn
Kurze informelle Unterhaltung
Hauptfunktion: Aufbau der Varfahrensablaufs
Selbstvorstellung der bewerbenden Person
Freier Bericht über persönlichen und beruflichen Hintergrund, ggf. Schwerpunkt definieren
Berufsinteressen und Berufswahl
4 standardisierte Fragen zu Berufswahl, Berufsinteressen, Organisationswahl und Bewerbung
Freies Gespräch
Funktion: Auflockerung
Offene Fragen und Anknüpfen an Selbstvorstellung und Bewerbungsunterlagen
Biografiebezogene Fragen
Realistische Tätigkeitsinformation
Vermittlung von positiven Seiten sowie Probelme des Jobs
Auf CIT basierend
Gesprächsabschluss
Gelegenheit geben, Fragen zu stellen
Zusammenfassung, weitere Vereinbarungen
-> Nur Abschnitte 2, 3, 5, 7 Bewertung anhand von Ratingskalen
Welche Urteilsfehler ergeben sich bei der Eignungsdiagnostik?
Interviewer:innen unterliegenpotentiell gleichen Fehlerquellen wie bei der Verhaltensbeobachtung
In Vorstellungsgesprächen versuchen auch Bewerber:innen sich von der besten Seite zu zeigen
Drei potenzielle Einfussfaktoren auf die Beurteilung gut erforscht
Äusseres Erscheinungsbild
Bei niedrig strukturierten Interviews höchster Einflus auf Bewertung des Interviews (.88 vs. .18 bei hoher Strukturierung)
praktisch unbedeutenden Einfluss auf Berufserfolg (.14)
“Impression Management”
Mittelässiger Einfluss auf Bewertung des Interviews, höher bei niedriger (.46) als bei hoher (.21) Strukturierung
Gleich wenig Aussagekraft auf Berufserfolg (.15)
Verbales und nonverbales Verhalten
Einfluss auf Bewertung des Interviews höher bei niedriger (.69) als bei hoher Strukturierung (.37)
Bei hoher Strukturierung bedeutendster Urteilsfehler
.23 Zusammenhang Berufserfolg
Was kann zu den Gütekriterien von Einstellungsgesprächen gesagt werden?
Analog zu Fragebögen und Tests
Objektivität kann durch Standardisierung erhöht werden
Reliabilität: Beobachterübereinstimmung
Bedeutend höher wenn Interviewers Interview zusammen leiten (.74) als getrennt (.44)
Inhaltsvalidität: Anforderungsanalyse
Zahlreiche Studien zu Kriteriumsvalidität
Abhängig von der Art
Wann ist die Konstruktion eines Interviews erforderlich und welche drei Aufgaben beinhaltet die Konstruktion eines Interviwes?
Erforderlich, wenn keine ausgearbeitete Interviews vorliegen, ein unstandardisiertes Gespräch jedoch nicht in Frage kommt
Die Erstellung eines guten Leitfadens beinhaltet mindestens drei Aufgaben:
Anforderungsanalyse und Fragen identifizieren
Grobaufbau des Leitfadens
Feinaufbau des Leitfadens
Wie wird eine Anforderungsanalyse bei der Konstruktion eines Interviews durchgeführt?
Allgemeine Fragestellung gibt Hinweise auf Ziel
Überlegung: auf welche Fragen möchte man durch das Interview Antworten finden?
Lassen sich Informationen zuverlässiger und valider durch andere Verfahren erheben?
Wissen über Messgegenstand erforderlich
Bei Eignungsfragen: Rückgriff auf vorliegende Anforderungsanalysen oder Durchführung einer eigenen Arbeits- oder Anforderungsanalyse
Informationsentnahme aus einschlägiger Fachliteratur
Vorinformationen über Klient:innen nutzen
Sichtung von Bewerbungsunterlagen, Zeugnisse, Akten usw.
Telefongespräch oder Fragebogen
Es kann sinnvoll sein, eine Eigenschaft/Sachverhalt einer Person aus mehreren Quellen zu schöpfen (multimodales Vorgehen)
Zum Beispiel Ergänzung von Interviewinformation mit Testinformation
Was gehört in den Grobaufbau bei der Konstruktion eines Interviews?
Festlegung von Themeblöcken und Erstellung einer Reihenfolge
Multimodales Interview als Beispiel für Grobstruktur eines Interviews
Welche Themen gehören in die Einleitungsphase und in die Abschlussphase eines Interviews?
Einleitungsphase
Vorstellung weiterer beiteligten Personen mit Namen und Funktion
Nennen der Ziele und Fragestellung
Angaben zum Ablauf (Themen, Dauer, auf Möglichkeit für eigene Fragen hinweisen)
Aufklärung über Rechte
Information darüber, wer was erfährt
Hinweis, dass Interviewer:in Schweigepflicht unterliegt
Einverständnis Einholen bei Ton- und Videoaufnahmen
Zur Überleitung auf Informationserhebungsphase itnerviewte Person nach kurzer Schilderung des Problems aus ihrer Sicht bitten
Abschlussphase
Zusammenfassung der wichtigsten aus Interview gewonnenen Informationen
Nachfrage, ob etwas wichtiges fehlt
Klärung wichtiger Ergänzungen und Fragen
Ansprechen eines neutralen Themas, falls interviewte Person sehr emotional erregt
Vorstellung des weiteren Vorgehens
Was gehört in den Feinaufbau bei der Konstruktion eines Interviews? Welche Vor- und Nachteile haben fertig vorformulierte vs. stichpunktartige Fragen?
Ausformulierung von Fragen innerhalb eines Tehmenblocks
Fixierung durch Stichpunkte oder Ausformulierung
Vorteile fertig formulierter Fragen
Entlastung Interviewer:in während Gespräch
Hohe Standardisierung der Durchführung
Nachteile fertig formulierter Fragen
Erhöhter Aufwand für Vorbereitung des Interviews
Interview kann Charakter eines starren Abfragens annehmen
Was soll bei der Fragenformulierung beim Feinaufbau von Interviews beachtet werden?
Abschnitt möglichst mit offener Frage beginnen
Möglichst kurze und verständliche Sätze
Nach konkretem Verhalten fragen
Keine Suggestivfragen
Keine wertenden Fragen
Fachbegriffe und Fremdwörter meiden
Kontext als Gedächtnisstütze nutzen
-> Abweichungen möglich, z. Bsp. Fachbegriffe bei Personen mit Hochschulabschluss angemessen
Weshalb kann die (Vor)Konstruktion eines Interviews nützlich sein?
Sicherstellung, dass alle wichtigen Fragen gestellt werden
Abhaken bereit beantworteter Fragen
Vergleichbarkeit von Interviews
Entlastung der Interviewer:in während Gespräch
Mehr freie Kapazität für Verhaltensbeobachtung
Erleichterte Auswertung des Interviews
Bei Ankreuzen von Antwortkategorien direkte Verwertung der Antworten
Welche Probleme können sich bei der Gesprächsführung bei diagnostischen Interviews ergeben?
Geringe Gesprächsbereitschaft
Probandin scheint bei Thema abzublocken
P gibt vor, sich nicht mehr erinnern zu können oder liefert vage Antworten
Es geht um heikle Themen
Proband:in schweift immer wieder ab
Wie kann man Personen bei diagnostischen Interviews zum Reden motivieren?
Über Ziele und Fragestellung sowie Ablauf des Gesprächs informieren
Überleitung von einem Thema zum anderen gibt nötige Orientierung
Offene Fragen zu Beginn eines Themenblocks
Vorgabe von Antwortalternativen
Aktives Zuhören
Wie sieht aktives Zuhören aus?
Vermittlung von Aufmerksamkeit
Entspannte Körperhaltung
ANgemessener Blickkontakt
Nicken/hmm/aha -> signalisieren, dass man zuhört
Paraphrasieren: Äusserung mit eigenen Worten aufgreifen
Zusammenfassen: am Ende eines Themenblocks wichtigsten Aussagen zusammenfassen
Wie erkennt man in einem diagnostischen Interview Wiederstand und was ist Wiederstand?
Wiederstand = jeder bewusster oder unbewusster Versuch, Gesprächsthema zu vermeiden
Erkennungsmerkmale
Direktes Ansprechen: Darüber möchte ich nicht sprechen
Indirekte Anzeichen von Wiederstand:
Verspätetes Erscheinen zum Interview
Nonverbale Anzeichen
Gähnen
Erröten
Auf Uhr schauen
Blickkontakt meiden
Schweigen
Verbales Vermeidungsverhalten
Sich nicht erinnern können
Thema wechseln
Unpräzise Angaben/Auslassungen
Wie kann man in einem diagnostischen Interview mit Wiederstand umgehen?
Verständnis zeigen
Überzeugen, dass Ängste unbegründet oder negative Gefühle bei Thema normal/angemessen sind
Bei Schweigen abwarten
Fragen leich umformuliert wiederholen
Gefühle verbalisieren
Nachgereichte Begründung für die Frage (wieso ist sie wichtig?)
Unter Umständen Konfrontation
Wie kann man in einem diagnostischen Interview mit heiklen Themen umgehen?
Angemessene Einleitung von Fragen zu Themen, die Scham auslösen können
Benennung des Themas und kurze Begründung, weshalb Frage dazu gestellt wird
Einfache und direkte Formulierung kritischer Fragen
Eindruck vermeiden, dass es Interviewer:in selbst peinlich ist
Wie kann in einem diagnostischen Interview mit Abschweifen umgegangen werden?
Zuletzt geändertvor einem Monat