undefined

Buffl

Psychologische Diagnostik

von 12DayFIsh

Was ist die Etymologie des Wortes “Diagnostik”?

Gründlich Kennenlernen
Entscheiden/Beschliessen
Griechischer Ursprung

Wozu dient die Zwecksgebundene Messung bzw. die Bedeutung von Psychologischer Diagnostik im weiteren Sinne?

Beschreiben von Personen
Selektion und Platzierung von Personen
- i.e. Eignungsdiagnostik in unterschiedlichen Bereichen
Modifikation von
- Verhalten
- Erleben
- Eigenschaften
Braucht einerseits einen Ist-Zustand, andererseits einen Soll-Zustand (welcher durch Diagnostik erhoben wird)
Wird auch immer mehr für andere Bereiche relevant als nur bei Menschen, z. Bsp. bei der Beschreibung, Modifikation und Selektion einer Situation

Was ist und was macht die Psychologische Diagnostik?

Teildisziplin der Psychologie
Beantwortung zu Fragestellungen bezüglich der
- Beschreibung von menschlichem Verhalten und Erleben
- Kategorisierung von menschlichem Verhalten und Erleben
- Erklärung von menschlichem Verhalten und Erleben
- Vorhersage von menschlichem Verhalten und Erleben
Schliesst die gezielter Erhebung von Informationen über Verhalten und Erleben von einem oder mehreren Menschen und relevanten Bedingungen ein
Die erhobene Information wird für die Beantwortung der Fragestellung interpretiert
- z. Bsp. 30 Punkte in einem IQ Test sagen nichts aus, wenn sie nicht in Relation gesetzt werden können (wie schneiden Menschen durchschnittlich ab?)
Diagnostisches Handeln wird von psychologischem Wissen geleitet
Zur Erhebung der Informationen werden Methoden verwendet, die wiessenschaftlichen Standards genügen

Wie unterscheidet sich die psychologische Diagnostik von den folgenden Bereichen:

Testen
Medizinische Diagnostik
Evaluation

Testen: PD beinhaltet nicht ausschliesslich Tests, sondern auch andere Erhebungsmethoden wie Verhaltensbeobachtung und Interviews
Medizinische Diagnostik: Fokus auf körperliche Merkmale
Evaluation: Fokus auf Massnahmen (Training, Interventionen)

Wieviel der Gesamttätigkeit macht die psychologische Diagnostik in unterschiedlichen Arbeitsfeldern aus? Wie findet die psychologische Diagnostik in diesen Bereichen Anwendung?

Psychologische Diagnostik ist eine Querschnittsdisziplin, da bei jeder psychologischen Fragestellung Erfahrungsdaten erhoben werden
24% Klinische Psychologie
- Diagnostik psychischer Störungen
- Therapiebegleitende Diagnostik
26% Gesundheitspsychologie
- Erfassung von Stress- und Krankheitsbewältigung
29% Pädagogische Pschologie
- Messung von Leistungsständen und -fähigkeiten
- Diagnose von Verhaltensproblemen
30% A&O
- Personalauswahl
- Hilfe bei der Berufswahl
44% Forensische Psychologie
- Schuldfähigkeit Täter:innen
- Glaubhaftigkeit Zeug:innen
44% Verkehrspsychologie
- Feststellung der Fahreignung nach Entzug Fahrerlaubnis
31% andere Bereiche
- Neuropsychologie: Erhebung der Leistungsfähigkeit nach Gehirnschädigung
- Gerontopsychologie: kognitive Funktionsfähigkeit

-> Bereichsübergreifend 27%

Was ist der Szondi Test?

Veraltete Methode der psychologischen Diagnostik
Probandinnen müssen Bilder von Gesichter nach Sympathie anordnen
Je nach Anordnung unterschiedliche Diagnose

Was kann zum Gebrauch von psychologischer Diagnostik in der Wirtschaft (spezifisch bei der Personalauswahl) in der Schweiz gesagt werden?

Es werden vorallem Referenzen genutz, auch wenn diese nicht vielsagend sind
Weitere Auswahlmethoden, welche nicht sehr vielsagend sind, werden (viel) genutzt (z. Bsp. unstrukturiertes Interview, Graphologie)
Arbeitsproben gutes mittel, aber sehr aufwendig (zeitlich und finanziell)
Leistungstests sind eigentlich sehr gut (praktisch so gut wie Arbeitsproben) aber werden sehr wenig genutzt
-> Clash zwischen Empirie und Praxis (Menschen denken, sie können ein gutes Gespür für Dinge entwickeln, aber Statistik ist praktisch immer besser)

Welche Meilensteine zur Geschichte der psychologischen Diagnostik gibt es?

Vor 3000 Jahren: Testentwicklung und -einsatz in China zur Auswahl von Beamten (Testung von Wissen, Loyalität, physischen (Kriegs)-fähigkeiten)
- Multimetodaler Ansatz
- beeinflusst noch heute die Personalauswahl in China
Ende 19. Jahrhundert: Beginn der Wissenschaftlichen Psychologie
1879, Wilhelm Wundt, Universität Leipzig: Gründung des ersten Labors zur Erforschung psychologischer Phänomene
1884, Interantionale Gesundheitsausstellung London, Sir Franics Galton: erstes psychometrische Labor wird vorgestellt, umfasst auch kongnitive Tests
1901, Clark Wissler: erste Validierungsstudie zu kognitiven Tests
1905: Binnet und Simon veröffentlichen den esten Intelligenztest
1912: William Stern schlägt den Begriff Intelligenzquotient vor
1917: Personal Data Sheet -> erster moderner Persönlichkeitstest
1918: erster Einsatz Gruppen-Intelligenztest: Army Alpha und Beta Test
1921: Erfindung des Rorschach-Tests
1939: erster Wechsler Intelligenztest erscheint
1943: MMPI erscheint
1952: erstes DMS erscheint
1962: Erstes Computerauswertungsprogramm für einen Test (MMPI)
1976: Gründung der International Test Commission
2000: Erste Erhebung im Rahmen der PISA Studie
2015: Psychologische Diagnostik auf Basis von sozialen Medien
2020: Psychologische Diagnostik auf Basis von Daten aus mobile Sensing (Apps auf Smartphones und deren Nutzung) -> Versuch, objektivere Methoden zu finden
-> Nach 2. WK Papier-Bleistift Tests
Beginn des 20. Jh Blütezeit der Psychotechnik
Gustav A. Linert als Pionier der Testkonstruktion

Was kann über die Varianzaufklärung durch psychologische Diagnostik gesagt werden?

Varianzaufklärung durch diagnostische Verfahren scheint gering
- z. Bsp. Korrelation zwischen Studierfähigkeitstest und Studiumerfolg ist .39 (15% Varianzaufklärung)
Aber: andere akzeptierte Verfahren haben bedeutend tiefere Varianzaufklärung, z. Bsp.
- Wert in MMPI Validitätsskale (“Lügenskala”) und Simulation von Psychopathologie: r = .74, höher als
  - Immunglobulin-g Test und Entdeckung von rheumathider Arthritis (r = .68)
  - Neuropsychologische Tests zur Differenzierung zwischen Demenzpatient:innen und Kontrollproband:innen (r =.68)
  - Geschlecht und Körpergrösse bei Erwachsenen (r=.67)
  - Nähe zum Äquator und Tagestemperatur in USA (r = .6)
  - MRI Befunde und Differenzierung zwischen Demenzpatientinnen und Kontrollprobandinnen (r = .57)
- Intelligenztestleistung und Berufserfolg (r = .51) ist höher als
  - Körpergrösse und Gewicht bei US Erwachsenen (r = .44)
- Ergebniss Studierfähigkeitstest und Noten im College (r = .39) höher als
  - Viagra und verbesserte sexuelle Funktion bei Männern (r = .38)
  - Schlaftabletten und verbesserung Schlaf bei chronischen Schlafstörungen (r = .30)
- Wert in Psychopathiecheckliste und Rückfall bei entlassenen Straftätern = .28, höher als
  - Aspirin und Sterberisiko durch Herzinfarkt: r = .02
  - Effekt von Alkohol auf aggressives Verhalten: r = .23

Was ist der Nutzen von valide psychologischen Diagnoseverfahren?

Wirtschaftlicher Nutzen: mehr Ertrag durch bessere Berufsdiagnostik
- Mit jedem Validitätsgewinn um 10 Punkte ist eine durchschnittliche Produktivitätssteigerung von ca. 4% bei de MA zu erreichen
- Der zusätzliche Gewinn an Vorhersagekraft durch den Einsatz von eignungsdiagnostischen Instrumenten gegenüber üblichen Einstellungsgesprächen mind. 15 Validitätspunkte -> Steigerung von Produktivität um mind 6% = 30 Mrd. Euro
Individueller Nutze: effektivere Behandlung von psychischen Störungen
Gesellschaftlicher Nutzen
- valide Rückfalldiagnose bei Straftäter:innen, Schutz vor gefährlichen Verkehrsteilnehmer:innen durch Verkehrseignungsdiagnostik

Wie verhält sich die Psychologische Diagnostik zu anderen psychologischen Disziplinen?

Wechselwirkung zwischen den zwei (beeinflussen sich gegenseitig)
Differentielle Psychologie:
- Theorie/Modell:
  - 5-Faktoren-Modell der Persönlichkeit
- Relevanz für Psychologische Diagnostik:
  - Strukturmodell als Grundlage für Fragebogenentwicklung
  - 5-Faktoren-Modell gut für Validierung von anderen Modellen
Entwicklungspsychologie
- Theorie/Modell:
  - Piagets Stadienmodell der kognitiven Entwicklung
- Relevanz für Psychologische Diagnostik
  - Stadienmodell als Grundlage für Entwicklugnstests
Sozialpsychologie
- Theorie/Modell
  - Impression Management
- Relevanz für Psychologische Diagnostik
  - Beachtung des Einflusses von Impression Management auf Beantwortung von Diagnostikinstrumenten
Biologische Psychologie
- Theorie/Modell
  - Physiologische Stressreaktionen (z. Bsp. Kortisolausschüttung)
- Relevanz für Psychologische Diagnostik
  - Validierung von Stressfragebögen an stresskontingenten physiologischen Massen
Methodenlehre
- Theorie/Modell
- Relevanz für Psychologische Diagnostik

Welche gesetzlichen Rahmenbedingungen müssen von Psycholog:innen/Diagnostiker:innen beachtet werden und wie sind diese Gesetze aufgebaut?

Diagnostik unterglieg wie andere Bereiche des öffentlichen und beruflichen Lebens gewissen rechltlichen Bestimmungen
Alle Psycholog:innen unterstehen gesetzlich dem…
- Berufsgeheimnis (StGB Art 321)
- Datenschutzgesetz (DSG)
Informationen dürfen prinzipiell nur mit dem Einverständnis der Klient:innen weitergegeben werden
- Ausnahmen (Auskunftspflicht) in wenigen Fällen, z. Bsp. bei hinweis auf geplante Straftat
- Klient:innen müssen aber davor informiert werden
Recht der Europäischen Gemeinschaft: Artike 8(1) (Europäische Menschenrechtskonvetion)
- Jede Person hat das Recht auf Achtung ihres Privat- und Familienlebens, ihrer Wohnung und ihrer Korrespondenz

Was versteht man unter “gesetzliche Hierarchiebenen”?

Es gibt ranghöhere und rangniedrigere Gesetze
Ranghöere Gesetze sind allgemeiner formuliert als rangniedrige (welche konkrete Regelungen beinhalten)
Bei Wiederspruch zweier Ebenen ist immer das ranghöhere Gesetz entscheidend

Welchen ethischen Richtlinien Unterliegen Psychonolg:innen/Diagnostiker:innen?

Besondere Verantwortung gegenüber Klient:innen
- Vertrauensverhältnis
- Aufklärung und Einwillungung (Transparenz)
- Gewisse Faktoren bei der Gutachtenerstellung und Berichten

Welche ethische Richtlinien müssen Psychonolg:innen/Diagnostiker:innen bei der Gutachtenerstellung beachten?

Sorgfaltspflicht
Einsichtnahme gewähren
Transparenz für Adressanten
Keine Gefälligkeitsgutachten
Stellungnahme zu Gutachten von Kolleg:innen zulässig

Wie lauft eine diagnostische Untersuchung grob ab?

Man erhält einen Auftrag
Abwägen, ob man den Auftrag annehmen will/soll/kann
Aufstellen einer klar beantwortbaren Fragestellung
1. Falls nicht möglich, nochmals mit Auftraggeber:in Anliegen präzisieren/modifizieren oder Auftrag ablehnen
Hypothese: psychologische Fragen aus Fragestellung ableiten
Geeignete Verfahren auswählen
Diagnostische Untersuchung durchführen
1. Falls Frage dadurch nicht beantwortet, anderes Verfahren wählen
2. Falls gesamte Fragestellung nicht beantwortet, nochmals an Hypothese arbeiten
Bericht schreiben & an Auftraggeber:in rückmelden

Wann soll man einen diagnostischen Auftrag ablehnen?

Mangelnde Sachkunde (z. Bsp. man ist als klinische psychologin ausgebildet, es geht aber um eine arbeitspsychologische Diagnostik)
Auftrag mit eigenem gewissen oder gesetzlichen Vorschriften nicht vereinbar
Diagnostiker:in steht Fragestellung nicht neutral gegenüber (z. Bsp. Diagnoseanfrage von Freund:innen -> zu viele kognitive Verzerrungen)
Erkenntnisgewinn für Auftraggeber:in ist gering verglichen mit Kosten oder Belastung für Proband:in

Wie läuft eine Differenzierung in Teilfragen ab (bei einem Diagnostischen Auftrag)?

Fragestellung in mehrere Teilfragen herunterbrechen, welche beantwortet werden müssen
- Z. Bsp. Allgemeine Fragestellung: Soll Schüler:in in Förderklasse für Begabte kommen? -> Herunterbrechen in
  - Hat Schülerin einen IQ von > 130?
  - Hat Schülerin eine überdurchschnittliche Leistungsmotivation?
Nutzen von Expertise, um zu diesen Fragen zu kommen
Damit im Einklang auch Hypothesenformulierung

Wie wählt man geeignete Verfahren für eine psychologische Diagnostik aus?

Orientierung an Güterkriterien
- Objektivität
- Reliabilität
- Zuverlässigkeit
- Validität
Kommt einem einzelnen Verfahren für bestimmte Fragestellung eine grosse Bedeutung zu, werden höhere Ansprüche an dessen Güterkriterien gestellt
Am besten mind. zwei Verfahren pro Frage (Messfehler minimieren)
Bei randständigen Fragen kann ein kurzes Verfahren ausreichen
Auch ökonomische Aspekte beachten
Beachten, dass Verfahren aktuell ist
Auch beachten, dass das Verfahren für die zu untersuchende Person sinnvoll ist (z. Bsp. kein Kindertest an erwachsener Klient:in)
u.a. kann die Sequenzielle Suchstrategie angewendet werden

An welchen Fragen kann man sich bei der Auswahl eines geeigneten diagnostischen Verfahrens orientieren?

Was soll das Verfahren messen?
Ist das Verfahren für die Person angemessen?
Ist das Verfahren für die Fragestellung geeignet?

Was ist die Sequenzielle Suchstrategie und wie läuft sie ab?

Strategie, um geeignete Verfahren zu finden für bestimmte Fragestellung bei psychologischer Diagnostik
1. Anforderungen and as benötigte Verfahren aufschreiben
2. Anforderungen, die unbedingt erfüllt weerden müssen, markieren
3. Unter den unbedingt erforderlichen Anforderungen die wählen, die am leichtesten überprüfbar ist
4. Verfahre suchen, welches diese Anforderung erfüllt
5. Für diese Verfahren die am leichtesten überprüfbare Anforderung aussuchen
6. Schritt 4 und 5 so lange wiederholen, bis alle unbedingt erforderlichen Anforderungen abgearbeitet sind

Was muss bei der Planung der Durchführung einer diagnostischen Untersuchung entschieden und beachtet werden?

Durchführung online oder in Untersuchungsräumen?
- Bei klinischen Störungen eher vor Ort
Gruppen- oder Einzeltesting
- Gruppentesting ökonomischer
- Bei sensiblen Themen/Daten Einzeltesting
Computer- vs. Papier-Bleistifttest
Abfolge der Verfahren festlegen (z. Bsp. Faking, Ermüdungseffekte -> auch abhängig von untersuchter Person)
Bei der Planung Orientierung an:
- Wünsche der Institution
- Wünsche der Klient:in
- Eigene Präferenz
- ökonomischen Aspekten (in der Praxis sehr wichtig)

Was soll bei der Durchführung einer diagnostischen Untersuchung beachtet werden?

Aufklärung und informierte Einwilligung
- Zweck der Untersuchung
- Durchführungsmodalität
- Datenverarbeitung und Speicherung
- Personenbezogene Daten
- besonders schutzwürdige Daten
Standardisierung der Durchführungsbedingungen
- Testmanual beachten (aber sich auch an individuelle Bedürfnisse der Klient:in orientieren)
- Gute und personenorientierte Arbeitsbedingungen (z. Bsp. nicht lauter Raum bei Person mit Konzentrationsstörungen)
Akkurate Testauswertung (wenn möglich standardisiert)
- Am besten Computerauswertung -> objektiv
- Wenn Computerauswertung nicht möglich ist, auf andere Arten Objektivität erhöhen
  - Vier-Augen Prinzip: andere Person resultate durchschauen lassen
  - Unterschiedliche Reihenfolge (zuerst Auswetung von oben nach unten, danach von unten nach oben)

Wie sollen die Ergebnisse einer diagnostischen Untersuchung interpretiert werden?

Einordnung der Testrohwerte anhand von (passender) Vergleichsgruppe oder Kriterien
Oftmals weiterführende Interpretation anhand von Wertebereich
- “durchschnittlicher”/”unterdurchschnittlicher” Wert kann je anch Instrument anders ausfallen
- Durchschnitt oftmals +/- 1 SD (sehr grosser Bereich, 68%)

Was ist das Marburger Modell und was ist daran speziell?

Institut, welches IQ diagnostiziert(e?)
Hier bereits bei halber Standardabweichung über dem Durchschnitt Hochbegabung -> viel mehr Hochbegabte
Normalerweise bei 2 SAW über Durchschnitt erst Hochbegabung

Wie sollen die Messwertbereiche im Bericht einer diagnostischen Untersuchung dargestellt werden und was ist dabei zu beachten?

Zu Beachten: Werte für Nicht-Diagnostikerinnen verständlich machen
Merkmal benennen und ggf. definieren
- Psychologische Begriffe haben in Alltagssprache oft etwas andere Bedeutung
Ausprägung des Merkmals auf einheitliche Weise sprachlich einorden
- z. Bsp. Hochbegabung nach Malburger Modell
Referenzgruppe erwähnen (z. Bsp. Frauen zwischen 20 und 40 Jahren)
- Bei falscher Referenzgruppe ist auch die Interpretation falsch
Konfidenzintervall mitteilen und darauf aufmerksam machen, dass zufällige Messfehler bei solchen Messungen dazugehören
- Auch etwas näher erklären, da Allgemeinbevölkerung nicht ein klares Bild von Konfidenzintervallen hat

Wie sollen die Ergebnisse einer diagnostischen Untersuchung exakt dargestellt werden?

Angemessene und einheitliche Benennung der Merkmale
Klare und angemessene Angabe der Testergebnisse
Angemessene Interpretation der Testergebnisse
Interpretation der Ausprägung der Merkmale nach festem Schema
Berücksichtigung Konfidenzintervalle
Einheitliche Benennung und Erläuterung der Wertebereiche
Tabellarische Darstellung bei vielen Einzeltestergebnissen
Verständliches Abfassen von Text und Tabellen für Laien
Für Expertinnen und Experten Angabe aller nötigen Informationen in Klammer und Tabellenerläuterungen

Was ist ein Gutachten?

Beantwortet eine von einer Auftraggeberin vorgegebene Fragestellung
- Fragestellung betrifft bestimmte Aspekte des Verhaltens und Erlebens einer Person oder mehrerer Personen
Nachvollziehbare Darstellung eines Prozesses und der Beantwortung einer Fragestellung
- Dokumentiert ein wissenschaftliche fundiertes Vorgehen
- Fragestellung wird ihm Rahmen des wissenschaftlichen Prozesses beantwortet
- Eingesetzte Methoden werden so beschreiben, dass sie nach wissenschaftlich akzeptierten Güterkriterien beurteilt werden können

Welche allgemeinen Gestaltunsghinweise müssen bei der Erstellung eines Gutachtens beachtet werden?

Äussere Form (Tippfehler, Grammatikfehler)
- Klient:in oder Patient:in anstatt Proband:in oder Versuchsperson
Verständlichkeit:
- klare, verständliche Sprache
- Eindeutige Begrifflichkeit
- Erläuterung der verwendeten Fachbegriffe
- Intervention/Empfehlung konkret beschrieben
Transparenz und Nachvollziehbarkeit
- Eindeutige Quelle von Aussagen
Sachlichkeit, Objektivität, Unparteilichkeit
- Keine subjektiven Bewertungen vornehmen

Wie ist ein Gutachten aufgebaut?

Titelseite
Inhaltsverzeichnis (bei langem Gutachten)
Zusammenfassung (bei langem Gutachten)
Untersuchungsanlass
Fragestellung
Eventuell Vorgeschichte
Psychologische Fragen
Untersuchungsmethoden
Untersuchungsergebnisse
Interpretation der Ergebnisse/Befund
Stellungnahme
Eventuell Empfehlung
Unterschrift, Literatur, evtl. Anhang

Was gehört auf die Titelseite eines Gutachtens?

Überschrift “Psychologisches Gutachte”, Information über Gegenstand des Gutachtens (z. Bsp. “zur Feststellung der Berufseignung”)
Information, wer in wessen Auftrag von wem begutachtet wurde
Spezifisierung der begutachteten Person (voller Name, Geburstdatum und Ort)
Name des Gutachter/der Gutachterin ink. Unterschrift
Datum

Was gehört zum Untersuchungsanlass-Abschnitt eines Gutachtens?

Hintergrund, von dem sich Gutachten ergeben hat
Ziel
- Zweck der Begutachtung wird ersichtlich
- Fragestellung wird verständlich

Was gehört zum Fragestellung-Abschnitt eines Gutachtens?

Entspricht dem Auftrag des/der Auftraggeber:in
Formulierung muss exakt mit Vereinbarung zwischen Gutachter:in und Auftraggeber:in übereinstimmen

Was gehört zum Vorgeschichten-Abschnitt eines Gutachtens?

Auch “vorliegende Information”
Nicht von Gutachter:in selbst erhoben
Für beantwortung der Fragestellung relevante Informationen
Verschiedene Quellen:
- Vorgutachten
- Gerichtsakten
- Arbeitszeugnisse etc.

Was gehört zum Psychologische Fragen-Abschnitt eines Gutachtens?

Übersetzung der allgemeinen Fragestellung in konkrete, mit empirischen Methoden beantwortbare Unterfragen
Zusammenhang zur allgemeinen Fragestellung erklären
Geordnete Darstellung nach Inhaltsbereich -> wichtigstes immer zuerst
Festlegung von Anforderungsmerkmalen (kompensierbar vs. nicht kompensierbar, stabil vs. veränderbar)

Was gehört zum Untersuchungsmethode-Abschnitt eines Gutachtens?

Voller Testnahme, Autor:innen, Jahr, Auflage, Verlag
verständliche Beschreibung der einzelnen Verfahren
- Was kann mit diesem Verfahren erfasst werden und wie (Aufgabenart, Besonderheit bei der Durchführung, Struktur)
Angabe, welche Informationen mit jeweiligem Verfahren erhoben wurden um zur Beantwortung der Fragestellung beizutragen
Begründung der Verfahrensauswahl (z. Bsp. aktuelle Normen, hohe Messgenauigkeit, ökonomisch)
Durchführungsbedingungen (Ort und Zeit, Einzel- oder Gruppensitzung, enventuelle Vorkommnisse)

Was gehört in den Untersuchungsergebnis-Abschnitt eines Gutachtens?

Geordnete Darstellung nach psychologischen Fragen oder Untersuchungsmethoden
Verbalisierung der erreichten Standardwerte in Vergangenheitsform
Nennung der Referenzgruppe
Nennung des Konfidenzintervalls
- “Herr M. erzielte ein im Vergleich zu etwa gleichaltrigen Männern durchschnittliches Ergebnis (IQ=107).
  Unter Berücksichtigung der Messgenauigkeit des Tests kann seine Intelligenz in diesem Bereich liegen: KI = 99 –
  115.“
Auch Beschreibung des Verhaltens der Proband:in während der Untersuchung (Erscheinungsbild, Testverhalten etc.)
Noch keine Interpretation

Was gehört in den Befund-Abschnitt eines Gutachtens?

Interpretation der Ergebnisse
Ziel: Beantwortung der psychologischen Fragen
Integration und Bewertung aller verfügbarer Informationen (ink. Informationen aus Vorgeschichte)
Erwähnung von übereinstimmenden aber auch wiedersprüchlichen Ergebnissen
- Mögliche Erklärung für wiedersprüchliche Ergebnissen finden und erörtern
Aufbau richtet sich nach psychologischen Fragen
Trennung von Fakten und deren Bewertung

Was ist ein Befundbogen?

Überblick über vorliegende Ergebnisse
Nicht Teil des Gutachtens, bleibt bei Unterlagen des Gutachters/der Gutachterin

Was gehört in den Stellungsnahme-Abschnitt eines Gutachtens?

Klare und vollständige Antwort auf die Fragestellung
- nicht über Fragestellung hinausgehen (z. Bsp. keine Empfehlung, wenn nicht so im Auftrag vereinbart)
Transparenz: für sich allein verständlich, in dem Erkenntnisse, auf die sich Schlussfolgerung sützt, genannt werden
Begründung, wieso mögliche alternative, naheliegende Antwort abzulehnen ist
Unentscheidbares kenntlich machen
Persönliche Prädiktion verwenden („Frau X ist überdurchschnittlich erregbar.“)

Welche qualitativen Anforderungen müssen bei der Erstellung eines Gutachtens beachtet werden?

Richtigkeit nicht zur Beurteilung der Qualität geeignet
Erkenntnis erst, wenn schon wichtige Entscheidungen gefallen sind
Wissenschaftliche Fundierung
Nachvollziehbarkeit und Transparenz
Weitere nachrangig wünschenswerte Qualitätsmerkmale

Was muss beim Abschlussgespräch nach einer Diagnostik beachtet werden?

Zu einem Sachgemässen Umgang mit psychologischen Befunden gehört auch das ausführliche Gespräch des/der Untersucher:in mit dem/der Klient:in über die Testresultate
-> Klient:in soll prinzipiell über Resultate informiert werden
Gilt auch bei Kindern
Es muss sichergestellt werden, dass alle Informationen richtig verstanden werden -> Gutachten einfach aushändigen nicht ratsam

Was gehört in den Anhang-Abschnitt eines Gutachtens?

Unterschrift Gutachter:in mit Zeit und Ort
Exakte Angaben zu verwendete Literatur
Materialen, die Verwendung gefunden haben (z. Bsp. Interview mit Wortlaut)

Welche Aspekte der Qualitätssicherung gibt es?

Verwendete Tests: Haupt- und Nebengüterkriterien
Qualifikation des/der Diagnostiker:in -> sollte durch Studium der Psychologie und Aubsildung in psychologischer Diagnostik gesichert sein
Tansparenz und Normierung des diagnostischen Prozesses

Was sind Testgüterkriterien und welche Haupt- und Nebengüterkriterien gibt es?

Anforderungen an Tests
Dienen der Qualitätssicherung
Basieren auf international vereinheitlichten Standards
Hauptgüterkriterien:
- Objektivität
- Reliabilität
- Validität
Nebengüterkriterien:
- Testökonomie
- Fairness
- Zumutbarkeit
- Nützlichkeit
- Normierung
- Skalierung
- Unverfälschbarkeit

Was ist Objektivität und welche verschiedenen Formen der Objektivität gibt es?

Hauptgüterkriterium
Objektivität = Unabhängigkeit vom Testanwender
Sichert Vergleichbarkeit von Testleistungen verschiedener Personen
Drei Aspekte
- Durchführungsobjektivität
- Auswertungsobjektivität
- Interpretationsobjektivität

Was ist Reliabilität und welche verschiedenen Formen der Reliabilitätsmessung/-sicherung gibt es?

Wie zuverlässig ist das Verfahren? (“Misst es richtig”)
Vier klassische Verfahren zur Bestimmung der Reliabilität:
- Retest-Reliabilität
- Paralleltest-Reliabilität
- Testhalbierungs-Reliabilität
- Interne Konsistenz
  - Am meisten benutze Form für die Reliabilitätssicherung -> nicht zwingend gut, weil
    - Items auch niedrige interne Konsistenz haben können und trotzdem reliabel sein können, z. Bsp. wenn unterschiedliche Items unterschiedliche Aspekte/Dimensionen des gleichen Konstrukts erheben
    - Oft Cronbachs Alpha genutzt wird, welches alle Items gleich gewichtet (was aber nicht für alle Tests sinnvoll ist) -> hier Cronbachs Omega gute Alternative

Was ist Validität und welche verschiedenen Formen der Validiitätsmessung/-sicherung gibt es?

Gegeben, wenn Test Mermal misst, welches es messen soll (und nicht irgend ein anderes Merkmal)
Validität nicht generell gültig, sondern auf spezifische Kontexte zugeschnitten
4 Quellen für Belege der Testvalidität
- Inhalt des Tests
- Testprozess
- Strukturanalyse
- Korrelation mit anderen Variablen

Was ist Normierung/Eichung und wie wird diese gesichert?

Nebengüterkriterium
Gegeben, wenn Bezugsnorm vorliegt, anhand der individuelle Testwerte verglichen und eindeutig interpretiert werden können
Hierzu Test in einer möglichst grossen und repräsentativen Eichstichprobe anwenden
- Je nach Merkmal (und wie stark sich dessen Ausprägung tendenziell über die Zeit verändert) muss Eichung in kleineren oder grösseren zeitlichen Abständen erneuert werden
Zur Relativierung eines Testergebnisses an der Eichstichprobe gibt es unterschiedliche Techniken, z. Bsp.:
- Prozentrangnormen
- Standardnormen (IQ, z-Werte)
-> Auch wenn als Nebengüterkriterium angegeben eines der wichtigsten Kriterien, da selbs bei erfüllten Hauptgüterkriterien die Aussagekraft nicht gegeben ist bei mangelnder Normierung

Was ist Skalierung und wie wird diese überprüft?

Nebengüterkriterium
Hängt von Skalenniveau des Tests ab und macht Aussagen darüber, welche Aussagen basierend auf Ergebnisse zulässig sind
- Nur Unterscheidung “grösser/kleiner als” (Ordinalskala) oder Beurteilung der Grösse von Unterschieden (mind. Intervallskala)?
Wird anhand von Messmodellen überprüft

Was ist Testökonomie und wie wird diese überprüft?

Nebengüterkriterium
Gegeben, wenn Test im Verhältnis zum diagnostischen Erkenntnisgewinn relativ wenig Kosten verursacht
Zwei Arten von Kosten
- Finanzieller Aufwand
- Zeitlicher Aufwand
Oft nur im Vergleich zu ähnlichen Tests bestimmbar

Was ist Nützlichkeit des Tests und wie wird diese bestimmt?

Nebengüterkriterium
Gegeben, wenn
- das vom Test gemessene Merkmal praktisch relevant ist
- Die vom Testergebnis abgeleiteten Massnahmen mehr Nutzen als Schaden erwarten lassen
Kann mitunter berechnet werden (z. Bsp. bei Personalauswahlverfahren), wird aber selten gemacht

Was ist Nützlichkeit des Konstrukts und wie wird diese bestimmt?

Nebengüterkriterium
Muss auch für neue psychologische Konstrukte belegt werden
Kriterien, welche Tests mind. erfüllen müssen, um als neue Konstrukte aufgefasst und etabiliert zu werden:
- Messtheoretisch fundierte Messung
  - Wissenschaftlicher Zugang, wie Test funktioniert und ausgewertet werden soll
- Hohes Mass an Allgemeinheit (Konstrukt kann über verschiedene Aufgaben hinweg operationalisiert werden): konvergente Validität
- Teilautonomie im nomologischen Netwerk etabilierter Konstrukte, d.h. die gemeinsame Varianz in verschiedenen Aufgaben kann nicht durch etabilierte Konstrukte erklärt werden -> diskriminante Validität
- Hinweise auf inkrementelle Kriteriumsvalididät bzgl. relevante Gegebenheit im realen Leben im Vergleich zu etabilierten Konstrukten
- Erhebliche zeitliche Stabilität

Was ist Zumutbarkeit und wie wird diese bestimmt?

Nebengüterkriterium
Gegeben, wenn der Test im Verhältnis zu seinem Nutzen die zu testende Person nicht über Gebühr belastet
Unterscheidung von Belastungen in Bezug auf
- Physische Aspekte
- Psychologische Aspekte
- Zeitliche Aspekte
Oft schwierig zu beurteilen
- Abhängig von Einschätzung des Nutzens sowie gesellschaftliche Normen zu Zumutbarkeit

Was ist (Test)Fairness und was muss hier besonders beachtet werden?

Gegeben, wenn Testwerte zu keiner systematischen Benachteiligung bestimmter Personengruppen führen
Unfairness hat häufig mit Inhalten der Testitems zu tun
- Itembias: Wenn Item für bestimmte Personengruppe trotz gleicher Merkmalsausprägung schwieriger ist
Zu berücksichtigen:
- Geschlecht
- Alter
- Kultureller Hintergrund
- Sprachliche Kompetenz
- Routine im Umgang mit Tests
- etc.

Was ist Einzelfalldiagnostik und was kann zum Zusammenhang zwischen Güterkriterien und der Einzelfalldiagnostik gesagt werden?

Einzelfalldiagnostik: Messung individueller Ausprägung von Merkmalen
- Ziel: inter- oder intraindividuelle Vergleiche von latenten Merkmalen
- Latente Merkmale werden über manifeste Werte der Itemvariablen erfasst
Nur reliable Messungen führen zu aussagekräftigen Punktschätzungen

Was sind Konfidenzintervalle?

Konfidenzintervalle grenzen den Bereich ein, in dem der wahre Wert sich mit einer bestimmten Wahrscheinlichkeit befindet
- Wichtig, weil Unreliabilität von Testwerten (Anteil der Fehlervarianz an Gesamtvarianz) auch bein einzelnen Messungen berücksichtigt werden sollte
  -> Statt einzelnen Ergebnissen sollten in der Diagnostik Konfidenzintervalle berichtet werden

Wie können Konfidenzintervalle berechnet werden?

Beispielaufgabe:

Testwert Person A (Xi): 120
Mittelwert Test (M): 100
Standardaabweichung (sx): 15
Reliabilität (rtt) von .9

Regressionsanalytische Schätzung des wahren Wertes einer Person
- Xp = rtt x Xi + M x (1 - rtt)
  = 120 x 0.9 + 100 x 0.1 = 118
Berechnung des Standardschätzfehlers
- sx x Wurzel(rtt x (1 - rtt)
  = 15 x Wurzel (0.9 x 0.1) = 4.5
z-Wert für gewünschte Irrtumswahrscheinlichkeit bestimmen
- Bei .95 = 1.96, .99 = 2.58
  Hier Wahl von .95
Obere und untere Grenze des Konfidenzinertvalls bestimmen
Xp +/- z x sx x Wurzel (rtt x (1 - rtt))
118 + 1.96 x 4.5 = 126.82
118 - 1.96 x 4.5 = 109.18

-> Wahre Wert liegt zwischen 109.18 und 126.82

Was sind kritische Differenzen und wie werden sie berechnet?

Sagen aus, wie hoch der unterschied zwischen zwei Testwerten mindestens sein muss, damit man ausschliessen kann, dass Unterschied auf den Messfehler zurückzuführen ist
- Kann sich auf vergleich zweier Testwerte bei einer Person oder beim vergleich der Testwerte zweier Personen genutzt werden
Beispiel:
- Test A mit
  - SD = 10
  - Rel = 0.9
- Test B
  - SD = 10
  - Rel = .8
Berechnung der kritischen Differenz von einem Test (z. Bsp. ab wann kann man sagen, dass eine Person eine stärkere Ausprägung im von Test A gemessenen Merkmal hat als eine andere?)
- Dkrit = za x SD x Wurzel(2 x [1 - Rel (Y)])
  = 1.96 x 10 x Wurzel (2 x [1 - .9]) = 8.76
Berechnung der kritischen Differenz zwischen Test A und B
- Dkrit = za x SD(y) x Wurzel (2 - [(Rel(Y1) + Rel (Y2)])
  1.96 x 15 x Wurzel (2 - [0.9 + 0.8]) = 16.1

Welche Reliabilität soll ein Test mindestens haben und weshalb?

Schwer zu bestimmen, abhängig von der Anwendung (Kontextspezifisch bestimmen)
Bei Individualdiagnostik auf Tests mit weniger Reliabilität als .80 verzichten
-> mit sinkender Reliabilität werden
- die Konfidenzintervalle sehr breit
- Die Punktschätzungen sehr ungenau

Was ist Validierung?

Prozess, mit dem Evidenz zur Interpretation von Testwerten generiert wird

Was kann zur Analyse des Testinhalts/der Testitems (im Zusammenhang mit dem Güterkriterium von Validität) gesagt werden?

Itemuniversum eines Tests soll möglichst represäntativ abgedeckt werden
- D.h. z. Bsp. Intelligenztest soll nicht nur jristalline Intelligenz erheben
Analyse erfolgt i.d.R. durch
- Sichtung des Vorgehens, mit dem Item in Test aufgenommen wurde
- Analyse der finalen Itemauswahl
Soll durch Expertinnen und Experten erfolgen

Was kann zur Analyse von Antwortprozessen gesagt werden?

Manche Teste beinhalten Annahmen über psychologische Prozesse, die das Antwortverhalten tatsächlich beeinflussen soll
- z. Bsp. geht man in Mathetest davon aus, dass Menschen Resultate nicht eifach wissen sondern richtig berechnen -> geht eigentlich um das Rechnen (Prozess) und nicht um das Resultat
Kann aber sein, dass dies nicht der Fall ist, z. Bsp. wenn Antwort geraten wird
Dies kann durch gewisse Methoden, z. Bsp. “Think Aloud” Methode, korrigiert werden
Wird in der Praxis wenig angewendet

Was geschieht bei der Analyse der Teststruktur grob?

Überprüfung der angenommenen Teststruktur
- Ein- vs. Mehrdimensional
- Konfirmatorische Faktorenanalyse = Faktorielle Validität

Was kann am Beispiel der Big 5 zur Faktorenanalyse gesagt werden?

Faktorenanalyse kann genuzt werden, um viele Items in Persönlichkeitsinventaren auf möglichst wenige Faktoren (hier: 5) zu reduzieren
Items lassen sich aus Faktoren wiederrum annähernd reproduzieren
Faktoren lassen sich als Eigenschaftsdimensionen interpretieren
Erlauben sparsame Beschreibung der Persönlichkeit anhand weniger Dimensionen

-> ABER: Korrelation zwischen einzelne Big 5 Tests .6 -> relativ niedrig, weit davon entfernt, dass alle das Gleiche messen

Was geschieht bei der Normorientierten Testwertinterpretation?

Zu einem individuellen Testwert (Rohwert) wird ein ein Normwert (Art “Vergleichswert” mit Referenzgruppe) bestimmt
Anhand dessen kann Person hinsichtlich Merkmalsausprägung innerhalb der Referenzgruppe positioniert werden

Welche zwei Formen von Testwerttransformationen gibt es?

Lineare Test-/Rohwerttransformationen
- Normwert wird durch Transformation des Testwerts erreich
  - z-Werte
Nichtlineare Test-/Rohwerttransformationen:
- Normwert wird durch Transformation der Testwertverteilung der Bezugsgruppe erreicht
  - Prozentrangnormen

Was sind Prozentrangnormen?

Nichtlineare Test-/Rohwerttransformation (Normwert wird durch Transformation der Testwertverteilung der Bezugsgruppe erreicht)
Relative Position des Testwerts Y wird ind er aufsteigend geordneten Rangreihe der Testwerte in der Bezugsgruppe ermittelt
Prozentrang gibt an, wie viel Prozent der Bezugsgruppe einen Testwert erzielt hat, der niedriger oder ebenso hoch ist, wie der Testwert Y der Testperson v
Ordinalskalenniveau ist für Bestimmung der PRN ausreichend
- ACHTUNG: PRN können NICHT intervallskaliert interpretiert werden, Prozentrangdiffernzen können NICHT für Vergleiche herangezogen werden (Prozentrangunterschied zwsichen 50 und 60 hat andere Bedeutung als Prozentrangunterschied zwischen 80 und 90)

Was sind zv-Normwerte?

Lineare Test-/Rohwerttransformation
Geben an, wie stark der Testwert einer Person vom Mittelwert der Verteilung der Bezugsgruppen in Einheiten der Standardabweichung der Testwerte abweicht
Fromel:
- Zv = Yv -Mittelwert(Y) / SD(Y)
Voraussetzung: Intervallskalierung
zv-Normwerte haben einen Mittelwert von 0 und eine Standardabweichung von 1
z-Wert kann weiteren linearen Transformationen unterzogen werden um Normwerte mit positive Vorzeichen und ganzzahliger Abstufung zu erhalten
Bei normalverteilter Testvariable wird die transformierte z-Norm als Standardnorm bezeichnet
- Bei Standardnormen kann entsprechender Prozentrang aus tabellisierter Verteilungsfunktion abgelesen werden

Was sind Stanine Normen?

Test-/Rohwerttransformation
Anhand der Wertverteilung werden Werteverteilungen in 9 Abschnitten erstellt:
Häufigkeiten von 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%
-> ergibt für normalverteilte Variablen gleiche Intervalle von der Breite von 0.5 Standardabweichungen
Mittelwert ist 5, SD ist 2

Wie können Informationen über die Güterkriterien von Tests gewonnen werden?

Manuale
- Enthalten (oder sollten zumindest) ausführliche Informationen zu
  - Hauptgüterkriterien
  - Normierung
- Von Testautor:innen verfasst
Rezensionen
- Unabhängige Beschreibung und Beurteilung eines Verfahrens -> Gehen über Sicht der Testautorinnen und Verlages hinaus -> tragen zur Qualitätssicherung bei
- Zur Einschätzung der Qualität und Anwendungsbereich von Testverfahren
- Enthalten Empfehlungen für Praxis
- Erscheinen in Zeitschriften, Büchern und Online

Wie werden Tests im deutschsprachigem Raum beurteilt?

Im Auftrag von Diagnostik-/Testkuratorien werden Tests
- systematisch
- von zwei unabhängigen Gutachter:innen beurteilt
Grundlage ist jeweils das Testmanual, welches alle relevanten Informationen zur Erfüllung von Testgüterkriterien enthalten soll

Was kann zum Thema Testchutz gesagt werden?

Testschutz: Damit psychologische Tests so funktinieren, wie sie sollten, dürfen Laien den Inhalt der Tests nicht kennen
Tests könne nicht ohne weiteres weitergegeben oder veröffentlicht werden
Tests funktionieren nur dann, wenn sie nicht verändert werden (kein Items hinzufügen, übersetzen etc.)
- Auswertung & Normierung basierend auf genau dieser Version
Beachtung des Urheber:innenrechts

Was ist Leistung und wie wird sie gemessen?

Leistung = Arbeit pro Zeiteinheit
Leistung messen daran…
- Wieviele Aufgaben eine Person in einer bestimmten Zeit löst
- Wiviel Zeit Testpersonen zur Lösung eines Tests brauchen (Speed Test)
  -> Erfassung unterschiedlicher Konstrukte

Wofür ist eine Testleistung ein Indikator?

Fähigkeiten: schwer erlernbar, eher biologische Grundlagen (z. Bsp. Intelligenz)
Fertigkeiten: Kompetenzen, könne erlernt und z. Bsp. in Schultest erhoben werden
Wissen: Produkt von Fähigkeiten und Fertigkeiten
-> Grenze zwischen Fertigkeiten, Fähigkeiten und Wissen ist fliessend

Was kann zu Leistungstests gesagt werden?

Test, in dem man das maximal Mögliche Verhalten erhebt
Nur möglich, wirklich bestes Verhalten zu erheben, wenn Testperson sich auch Mühe gibt -> Motivation zentral
- low stakes vs. high stakes Tests
Verwendungszwecke:
- Auswahl von Bewerber:innen
- Fahtüchtigkeitsprüfung
- Platzierung/Selektion
Testpersonen wollen möglichst gute Leistungen erzielen und bereiten sich auf Test vor
Verfälschung (Faking) nur nach unten möglich

Welche Arten von Leistungstests werden in der Praxis am meisten verwendet?

Schultestts: 37%
Intelligenztests: 30%
Spezielle Funktionstests: 15%
Entwicklungstests: 9%
Allgemeiner Leistunsgtest: 9%

Wie stark hängen Übungseffekte (i.e. Übung haben mit Tests) mit Testresultaten zusammen?

Gemittelter Effekt von Testerfahrung (ink. Coachin Studien) auf Testleistung: d = .24
Gemittelter Effekt von Testerfahrung (ohne Coachin Studien) auf Testleistung: d = .33
-> Moderater Effekt
Durch Coaching verbessert sich Testleistung um 6.4 Standardwertpunkte (d = z = .64)

Welche Bedingungen begünstigen Übungseffekte?

Durchführung desselben Tests > Durchführung ähnlicher Test
Dritte Testdurchführung > zweite Testdurchführung
Gezieltes Training
Verbale, figurale, gemischte Aufgaben > numerische Aufgaben
Kürzere Retestintervalle > längere Retestintervalle (Effekte können bis zu 8 Jahren bestehen bleiben)

Wie kann Übungseffekten entgegengewirkt werden?

Klare und einfache Testanweisung
Festes Antwortformat
Alles Teilnehmer:innen erhalten selbe Info
Gezieltes Coaching

Was kann zum Zusammenhang zwischen Testangst und Leistung gesagt werden?

Metaanalyse: r = -.23 zwischen Testangst und verschiedenen Leistungsmassen
Defizithypothese: Menschen haben Angst vor Tests wenn sie nicht gut genug vorbereitet sind und dies auch selbst erkennen -> Das schlechte Resultat ergibt sich aus der schlechten Leistung und nicht aus der Angst
- Konnte bestätigt werden: Testantworten sind invariat gegenüber Testangst

Woraus setzt sich die allgemeine Leistungsfähigkeit zusammen?

Konzentration + Aufmerksamkeit
- Viele Leistungen verlangen nicht nur ein mindestmass an Intelligenz, Wissen oder Fertigkeite sondern auch Grundfähigkeit, sich Aufgaben effizient zuzuwenden
Leistung fällt gegenüber Normalzustand stark ab, wenn Grundfähigkeiten eingeschränkt sind

Was ist Aufmerksamkeit?

Fähigkeit, ganz bestimmte Reize/Ereignisse unter vielen willentlich oder nicht willentlich wahrzunehmen
Erfassen, wie schnell und genau Proband:innen kritische Reize entdecken

Wie unterscheiden sich die unterschiedlichen Tests zur Erhebung der unterschiedlichen Aufmerksamkeitsarten?

Tests unterscheiden sich in
- Art der kritischen Reize
- Bedingungen, unter denen die Reize Angeboten werden
Bedingungen sind ausschlaggebend dafür, welche Form der Aufmerksamkeit gemessen wird

Welche unterschiedlichen Arten von Aufmerksamkeit gibt es und wie werden sie erhoben?

Alertness
- Prinzip: einfache Reize schnell und zuverlässig beantworten
- Test: TAP Alertness -> klicken, wenn Kreuz auf dem Bildschirm erscheint
Fokussierte/Selektive Aufmerksamkeit
- Prinzip: Beachtung eines bestimmten Reizes bzw. einiger wengier Reize innerhalb einer Reizklasse
- Test: TAP Go/No Go
  - Einzeldarbietung von ähnlichen Reizen von ähnlichen Mustern, wobei zwei Muster davon kritische Reize sind
Geteilte Aufmerksamkeit
- Prinzip: Beachtung von mindestens je einem Reiz aus zwei deutlich unterschiedlichen Reizklassen
- Test: TAP Geteilte Aufmerksamkeit, sowohl visuelle als auch akustische Reize die beachtet werden müssen
Daueraufmerksamkeit
- Prinzip: Fokussierte oder geteilte Aufmerksamkeit über längere Zeite
- Test: DAUF -> 5 - 7 ständig wechselnde Dreiecke mit Spitze nach oben oder unten, vorher definierte Anzahl von Dreiecken mit Spitze nach oben oder unten
Vigilanz
- Prinzip: Beachtung seltener Reize über längere Zeit
- Test: VIGIL
  - Hell aufleuchtender Punkt springt auf einer Kreisbahn um eine Schritt -> Doppelsprung

Was ist Konzentration?

Fähigkiet, unter Bedinugngen schnell und genau arbeiten, die das Erbringen einer kongitiven Leistung normalerweise erschweren
- Erschwerende Arbeitsbedingungen: Zeitdruck, lange Arbeitszeiten, Störungen
Konzentration d.h. erst unter erschwerten Arbeitsbedingungen am Zustandekommen von Leistung beteiligt und messbar

Welche Kennwerte gibt es, um Konzentration zu Messen?

Arbeitstempo (Anzahl bearbeitete Aufgaben)
Reaktionszeit (bei Darbietung von Einzelreizen)
Auslassungsfehler (Zielreiz nicht beantwortet)
Verwechslungsfehler (Fehlreaktion auf Distraktor)

Was ist der Test d2-F und was erhebt er?

Brickenkamp et al
Paper-Pencil & Computerbasierte Version vorhanden
Unsprünglich zur Feststellung der Kraftfahreignung
Durchstreichtest -> nur ds mit zwei Strichen durchstreichen
Erfassung von fokussierter/selektvier und Daueraufmerksamkeit
Konzentrationstest: Aufmerksamkeitsleistung muss kontinuierlich, schnell und richtig erbracht werden

Wie wird der Test d2-R durchgeführt?

Paper-Pencil Test & Computerversion vorhanden
798 visuelle Reize in 14 Zeilen
20 Sek Bearbeitungszeit pro Zeile
Testdurchführung ohne Instruktion: 4 min und 40 Sek
Einzel- oder Gruppentestung möglich

Wie wird der Test d2-R ausgewertet?

Durchstreichbogen und Auswertungsbogen
Erste und letzte Zeile werden nicht berücksichtigt
- Arbeitstempo: BZO (Anzahl der Bearbeiteten Zielobjekte)
- Fehlerprozent (F%) als Mass für Sorgfalt: Auslassfehler + Verwechslungsfehler/BZO x 100
- Konzentrationsleistungswert (KL): BZO - Auslassfehler - Verwechslungsfehler
BZO und F% informieren über
- Arbeitsverhalten bei Testbearbeitung
- Welches Bedeutung das Tempo und die Sorgfalt für die Konzentrationsleistung haben

Wie sollen Fehler beim Test d2-R interpretiert werden?

Fehler können bedeuten
- Instruktion nicht richtig verstanden
- Tatsächliche Auslassung oder Verwechslung
- Versuch, niedrige Konzentrationsfähigkeit vorzutäuschen
Doppelfehler (Buchstaben UND Anzahl Striche falsch) selbst bei hirnorganisch gestörten Patient:innen selten
- Hinweise auf Simulation
- Bester Indikator für Faking: p mit zwei Strichen vermehrt durchgestrichen
Verwechslungsfehler viel seltener als Auslassungsfehler
Verfälschung der Testleistung nach oben nicht möglich

Wie ist die Reliabilität des Tests d2-R?

Interne Konsistenz/Cronbachs Alpha der vier Testteile sehr hoch (aber sagt wenig aus da es praktisch immer die gleich Aufgabe ist)
- Konzentrationsleistung, Tempokennwert und Sorgfaltkennwert alle zwischen .8 und .95
Retest-Reliabilität nach 10 Tagen
- Konzentrationsleistung: .94 vs. 85 (10 Tage)
- Tempokennwert: .91 vs. 92
- Sorgfaltkennwert; .84 vs. .47

Was kann zur Validität des Tests d2-R gesagt werden?

Hohe positive Korrekationen mit unterschiedlich langen Konzentrationstests für Konzentrationsleistungswert und Tempowert
Kovergente Validitätsbelege für Fehlerprozentwerte vorsichtiger zu bewerten-> geringe Korrelation mit Fehlerprozentwerten von anderen Konzentrationstests
Niedrige Korrelationen mit INtelligenztestleistungen, meist unter r = .30
Zahlreiche Belege in
- Eignungsdiagnostik
- Verkehrsdiagnostik
  - Tempokennwert korreliert .52 mit Erfolg in Führerscheinprüfung
- Sportauswahl
Diskriminiert auch zwischen gesunden und verschiedenen psychiatrischen Gruppen

Was kann zu den Normen des Tests d2-R gesagt werden?

Ende 2007/2008 Normierung an über 4000 Personen
Normen für Altergruppen von 9-10 Jahren bis zu 40-60 Jahren und auch kulturspezifische Normen
Erneute Normierung in 2022
-> Bemerkenswerte Grösse & Aktualität der Normen

Was kann zur Comptuerversion des Tests d2-R gesagt werden?

Auf Bildschirm können theoretischgesehen alle Reihen gleichzeitig dargestellt werden, aber Anforderung an die Feinmotorik für Durchstreichen immens
Lösung: Darstellung etwa so vieler Items (60) auf Bildschirm, wie sich in der Papierversion in einer Zeile befinden
- Für Bearbeitung einer Bildschirmseite gleich viel Zeit zur Verüfung wie für eine Testzeile in Papierversion
Keine Perfekte Äquivalenz mit Papier-Bleistifttest
Personen erzielen tendenziel höhere Werte in Computertets -> Neunormierung
Ansonsten hohe Korrelation mit Papier-Bleistift Version und gute psychometrische Qualität
Vorteil Computerversion: erhöhte Auswertungsobjektivität

Wie kann insgesamt der Test d2-R bewertet werden?

Einfache Durchführung
Kurze Dauer
Gewisse Unabhängigkeit von verbalen oder numerischen Fähigkeiten
Hohe reliable Kennwerte
Verfahren weit verbreitet
Viele positive Befunde zur Valitiät -> Test wird auch gerne zur Validierung anderer Konzepte herangezogen

Was ist das Frankfurter Aufmerksamkeitsinventar (FAIR)?

Moosburger & Öhlschlägel (2011)
Ähnliches Prinzip wie Test 2d-R (Alternativer Test mit Suchaufgaben)
Probandinnen müssen gewisse Formen mit Anzahl Punkte identifizieren
Vier Itemarten, zwei Zielitems
Vollständiges Markierungsprinzip: VPN geben Zeile für Zeile ihre Urteile in Gestalt einer durchgehenden Linie ab

Was ist das Frankfurter Adaptiver Konzetrationsleistungstest (FAKT-II)?

Computerversion des FAIR
Adaptive Ermittlung individueller Konzetrnationsfähigkeiten
Schwierigkeitsniveau der Items wied an individuelles Konzentrationsvermögen angepasst
Höhere Konzentrationsleistung = raschere Vorgabe der Items
Beurteilung des Leistungsverlaufs
- Konzentrationsergebnisse werden für Zeitabschnitte berechnet

Was ist mit dem Validierungsdilemma von Konzentrations- und Aufmerksamkeitstets gemeint?

Für vergleich von Validität von Aufmerksamkeits-/Konzentrationtests wären Leistungen im Alltag naheliegend
Problem: Meisten Aufgaben im Alltag nicht alleine von Konzentration/Aufmerksamkeit abhängig (sondern auch von Intelligenz, Motivation, Gewissenhaftigkeit etc.)
Neue Test werden daher oft an existierenden Tests validiert

Was ist das Ziel von Entwicklungstests? Wie funktionieren sie und was ist dabei wichtig?

Definition: Feststellung, ob sich ein Kind allgemein oder in einem spezifischen Bereich altersgemäss entwickelt
- Meistens eher einzelne Subklassen als gesammte Entwicklungsspanne
- Subtests für mehrere Entwicklungsbereiche
Ideal Items, welche hoch mit Lebensalter korrelieren
Differenzierung zwischen benachbarten Altersstufen
Hinweise auf Entwicklungsverzögerung durch den Vergleich individueller Ergebnisse mit den Leistungen Gleichaltriger
Präzise Normierung ist von kritischer Bedeutung

Was sind die Griffiths Entwicklungsskalen (GES)?

Original: Griffiths Mental Development Scale
Deutsche Version vorhanden
Geeignet für die ersten 2 Lebensjahre
5 Skalen/Entwicklungsbereiche
- Motori
- Hören und Sprechen
- Sozialer Kontakt
- Kognitive Entwicklung
- Auge-Hand Koordination
Ablauf:
- Individualtest mit Anwesenheit einer vertrauten Person
- Beendigung der Untersuchung, wenn mehr als zwei aufeinanderfolgende Aufgaben in einem Untertets nicht durchgeführt werden

Wie wird der GES (Griffith Entwicklungstest) ausgewertet?

Entwicklungsalter für den Gesamttest: Summer der gelösten Aufgaben durch zehn dividieren
- i.e. bei 50 Punkten -> Entwicklungsalter 5 Jahre
Entwicklungsquotient: Entwicklungsalter durch Lebensalter dividieren und Ergebnis mit 100 multiplizieren

Was kann zur psychometrischen Qualität des GES (Griffith Entwicklungstest) gesagt werden?

Retest-Reliabilität des Gesamtentwicklungsquotient altersabhängig -> im Schnitt im zweiten Lebensjahr (.80) höher als im ersten (.62)
Nur wenige Validitätsnachweise
Normierung zwischen 1967 und 1979 an 102 Kindern
- Normen für Testtransformation und Testrohwerten in Standardwerten liegen nicht vor
-> Sorgfältig Konstruiertes Verfahren, aber Mängel in Normierung und Validitätsuntersuchung

Was ist der Wiener Entwicklungstest (WET)?

Für Vorschulkinder (3-5, 11 Jahre)
Überprüfung des Entwicklungsstandes in 6 Funktionsbereichen:
- Motorik
- Visuelle Wahrnehmung/Visuomotorik
- Lernen und Gedächtnis
- Kognitive Entwicklung
- Sprache
- Sozial-emotionale Entwicklung
Ablauf
- Verankerung der Aufgabeninhalte im konkreten Lebensraun und spielerische Gestaltung der Testsituation
- Einzeltestung
- 90 Minute bei Kinder bis 3,6 Jahre
- 75 Minuten bei älteren Kindern

Wie wird der Wiener Entwicklungstest (WET) ausgewertet?

Erstellung eines Entwicklungsprofils
Berechnung eines Gesamtentwicklungsquotient möglich
- Schwierig, da Reliabilität schwach
Objektivität: bei mesiten Subtests sind richtige Lösungen eindeutig feststellbar

Was kann zur Reliabilität des Wiener Entwicklungstests (WET) gesagt werden?

Retest-Reliabilität zum Subtest Zahlen merken r = .67
Crobachs Alpha variiert zwischen .66 und .90
In eingen Bereichen differneziert der Test nicht ausreichend gut
Teilweise nicht reliabel genug für Einzelfalldiagnostik

Was kann zur Validität und den Normen des Wiener Entwicklungstests (WET) gesagt werden?

Zunahme der Subtestleistungen mit dem Alter als Indikator für Validität
Faktorenanalysen bestätigen 6-faktorielle Struktur
Erwartbare Korrelationen mit Intelligenztestskalen für Kinder
Unterschiedliche Testleistungen von Kindern mit oder ohen Beeinträchtigungen (z. Bsp. Autismus)
Normiern an 1200 deutschen und österreichischen Kindern im Alter von 3;0 bis 5;11 Jahren

Wie fällt die allgemeine Auswertung des Wiener Entwicklungstests (WET) aus?

Breitbandverfahren
Krindgerechte Testmaterialien und Aufgaben
Gute Eichstichprobe
Relativ lange Testdauer
Normtabelle berücksichtigt nicht Geschlechtsabhängige Unterschiede in den Subtests
Geringe Reliabilität einzelner Skalen
Soll eher als Screening Instrument benutzt werden

Was machen Schultets?

Ähnlich wie Etwicklungstest
ABER: Fokus auf Fertigkeiten und Fähigkeiten im schulischen Bereich
-> Schuleignungsdiagnostik
-> Schulleistungsdiagnostik

Was sind Schuleignungstests vs. Schulleistungstests?

Schuleignungstests
Schulleistungstests

Was kann im allgemeinen zum Stand von Intelligenztests in der psychologischen Diagnostik gesagt werden?

IQ Tests als “Stars” der psychologischen Diagnostik -> erfolgreichsten Verfahren der psychologsichen Diagnostik
Sehr gute Vorhersage für wichtige Lebensbereiche: Korrelation über .50 für
- Schulerfolg
- Berufserfolg
- Ausbildungserfolg
Sehr zeitstabile Kennwerte
- Wobe - wie bei anderen Persönlichkeitsmerkmale - die zeitliche Stabilität weniger gegeben ist als erwartet

Welche Testmerkmale müssen bei der Auswahl und Durchführung von Intelligenztests beachtet werden?

Messintention
- Allgemeine Intelligenz (g) vs. bestimmte Intelligenzkomponente
- Globalmass oder Intelligenzstrukture vs. mehrere Komponenten
- Intelligenz sprachfreif/kulturfrei messen?
Durchführungsbedingungen
- Einzel- vs. Gruppenmessung
- Papier-Bleistift vs. Computertests
- Dauer der Testdurchführung
- Speed oder Powertest
Zielgruppe
- Altersbereich
- Intelligenzbereich (z. Bsp. Hochbegabung)
- Gesamtbevölkerung oder spezifische Personengruppe

Was ist mit der Messintention im Zusammenhang mit Intelligenztests gemeint und was muss hier beachtet werden?

Entscheidung, welche Art/Komponente von Intelligenz erfasst werden soll -> grundlegend für Auswahl des Tests
- Intelligenzkomponenten besonders sinnvoll, wenn spezifische Teilfähigkeit von interesse ist
- Tests welche Globalmass g erheben eignen sich besonders zur ökonomischen Einschätzung der allgemeinen kognitiven Leistungsfähigkeit
- Intelligenzprofil -> kann für viele Fragestellungen relevant sein
  - Bei der Interpretation zu berücksichtigen
    - Reliabilität -> Interpretation nur dann sinnvoll, wenn Reliabilität der Skalen ausreichend hoch und einzelne Skalen nicht zu stark interkorreliert sind (siehe Kritische Differenzen)

Welche Intelligenzmessmodelle gibt es?

Spearman: Generalfaktorenmodell
- Ein latenter Generalfaktor g, welcher alle Manifestationen von Intelligenz beeinflusst
Thurstone: Primärfaktorenmodell
- 5 voneinandern grösstenteils unabhängige Intelligenzfaktoren (welche aber teilweise zusammen auf gewissen Manifestationen wirken)
Cattell und Horn & Carroll: Fluide und Kristalline Intelligenz/ Three-Stratum/CHC-Modell
- Verbindung der zwei anderen Modelle
- Ein Generalfaktor g (general), welcher sich auf 8 “Unterfaktoren” auswirkt (broad), welche wiederum unterschiedliche Manifestationen haben (narrow)
  -> Viele Tests angelegt an diesem Modell
Jäger: Berliner Intelligenzstrukturmodell
- Intelligenz nach Inhalten und Operationen unterschieden
- Inhalte
  - Verbal
  - Figural
  - Numerisch
- Operationen
  - Bearbeitungsgeschwindigkeit (B)
  - Verarbeitungskapazität (K)
  - Gedächtnis (G)
  - Einfallsreichtumg (E)
-> Alle inhalte auf allen Operationen “messbar”

Wie unterscheiden sich das Berliner Intelligenzstrukturmodell und das CHC-Modell und was sagt dies über die einzelnen Modelle aus?

Strukturelle unterschiede (facettenansatz im BISM vs. CHC) sowie inhaltliche unterschiede
CHC lässt sich in BISM einordnen -> Verweis darauf, dass einzelne Intelligenzfacetten von CHC ein Konglomerat sind von gewissen Fähigkeiten/Operationen
BISM vernachlässigt aber auch gewisse Dinge, z. Bsü. Lesen und Schreiben (in CHC enthalten)

Was kann zu sprach-/intelligenzfreien Intelligenztests gesagt werden?

Operationalisierung:
- Instruktion sehr einfach gestalten, wenn möglich sprachfrei
Kritik:
- Auch wenn Tests sprachfrei sind kann nicht wirklich von kultur-/sprachfreier Erhebung die Rede sein
- In westlichen Kulturen wird gewisse Logik erlernt udn auch stark in Alltag integriert und entsprechend gefördert -> kann hier besser erlernt werden und führt zu Unterschieden in IQ Tests, welche nicht wirklich von Intelligenz abhängig sind

Welche Durchführungsbedingungen können bei Intelligenztests anders sein und was sind die Vor- und Nachteile der einzelnen Durchführungskomponenten?

Einzel- vs. Gruppentetstung
- Gruppentestung ökonomischer
- Einzeltestung sinnvoll bei
  - Motivationalen Gründen (z. Bsp. Probandinnen mit wenig Konzentrationsfähigkeit)
  - Persönlichen Angaben
  - Wenn man nicht nur das Resultat sondern auch den Prozess (Art, wie Person Aufgaben löst) beobachten möchte
Paper-Pencil vs. Computerbasierte Tests
- Vorteile Computerbasierte Tests
  - Computerbasierte Tests sind objektiver
    - Standardisiertere Durchführung und Auswertung (nicht fehleranfällig)
    - Unabhängiger von Testleitung -> im Allgemeinen Entlastung für Testleitung
    - Auch Sekundengenaue Reaktionen erfassbar
  - Computerbasierte Tests bieten Möglichkeit für Darbietung Videosequenzen und sich bewegende Reize
  - Ökonomischere Auswertung
  - Leichtere Implementierung von adaptiven Tests möglich
- ABER: Normen nicht immer übertragbar und CT oft teuer
Speed- vs. Power-Test
- Speed-Test: in gegebener Zeit so viele Aufgaben wie möglich
- Power-Test: keine starke Zeitbegrenzung, aber Items werden zunehmend schwerer bis sie unlösbar sind
- Oft Kombination von beiden (Items zunehmend schwerer + Zeit begrenzt)
- Wichtig: bei Auswertung gewichten, welche Rolle Zeit gespielt hat -> wenn Zeit sehr wichtig, dann eher Messung von Verarbeitungstempo als von anderen Komponenten von Intelligenz
(Dauer der Testung)

Was ist der CFT 20-R?

Grundintelligenztest Skala 2
Test zur Erhebung der allgemeinen Intelligenz
- Erfasst fluide Intelligenz als allgemeines intellektuelles Niveau (fraglich, ob dies so gleichgesetzt werden kann)
Anwendung vor allem im Bildungsbereich
Sprachfreie Aufgaben -> sollen Benachteiligung aufgrund von Sprachskills und Kultur meiden
Aufbau: zwei Testteile mit jeweils vier Untertests
- Matrizen
- Klassifikationen
- Reihenfortsetzen
- Topografisches Schlussfolgern
Problem: Erfasst vorallem figurale Verarbeitungskraft
Ergänzungstests: Wortschatz- und Zahlenfolgenaufgaben

Was kann zu den Güterkriterien des CFT-20R gesagt werden?

Reliabilität:
- Testwiederholung 3 Monate: .8 bis .82
- Interne Konsistenz: .95 für gesamten Test
Validität:
- Korrelation mit anderen IQ Tests: .57 - .73 (zufriedenstellend)
- Korrelation zur Note Mathematik: .50
Normierung:
- Repräsentative Altersnormen von 8 bis 19 Jahren im Halbjahres- bzw. Jahresschritt
- Klassenstufennormwerte für das 3. bis 10.13 Schuljahr
- Für Altersbereich von 18 bis 64 Jahren empirische Normen für 1. Teil in 5-Jahresschritten
- Eigene Normen für Menschen mit geistigen Behinderungen im Alter von 20 bis 50 Jahren in spezieller PC Version
Fazit: Aufgrund von Normne für Kinder und Jugendliche sehr geeignet, für Erwachsene weniger geeignet

Was ist DESIGMA Advanced?

Intelligenztest zur Erhebung der Allgemeinen Intelligenz und zur Differenzierung von Hochbegabung
- Version A: Differenzierung im leicht erhöhten IQ Bereich
- Version A+: Differenzierung im höheren Intelligenzebereich
Erfasst allgemeine kognitive Leistungsfähigkeit = fluide Intelligenz
Innovatives Antwortformat: Matrizen in Online-Übung müssen konstruiert werden
- Senkung der Ratewahrscheinlichkeit

Was kann zu den Güterkriterien von DESIGMA Advanced gesagt werden?

Reliabilität
- Interne Konsistenz: .96 (A) bis .91 (A+)
Validität
- Eindimensionales Modell faktorenanalytisch bestätigt
- Mittlere Korrelation mit anderen Intelligenztests
- Keine Korrelation mit Persönlichkeit
- Zusammenhang Version A+ mit Abiturnote: -.20
Normierung
- Version A: n = 478 aus Online-Pane aus D (Alter 49)
- Version A+: n = 318 Studierende
  -> Aufgrund fehlernder Normierung noch nicht verwendbar

Was ist der Wechsler Test? Welche andere Namen hat er und worin hat er seinen Ursprung?

Andere Namen: HAWIE, HAWIK, WISC, WAIS
Liefert Angaben für
- Allgemeine Intelligenz
- einzelne Fähigkeiten
Einzeltestung in Form eines Standardisierten Dialogs
Urpsurng:
- Wechsler-Bellevue Intelligence Scale (1939)
- Vorbilder:
  - Test von Binet
  - Army-Alpha und -Beta Test
Grosse Ähnlichkeit der Verfahren untereinander
Erfolg durch Konstanz: mehrfache Revision bei weitgehend unverändertem Konzept
Gleiche Metrik: Tests liefern IQ-Wert (M = 100, SD = 15), Untertest M = 10, SD = 3

Welche Konzepte des Wechslers Tests waren ursprünglich Teil des Verfahrens und mussten später revidiert werden?

Konzepte des Handlungs- und Verbal-IQ
Lange Zeit 10-12 Subtest zu gleichen Teilen auf das Handlungs- und Verbal-IQ verteilt
Konzept wurde durch faktoranalytische Forschung in Frage gestellt -> Indexwerte

Was ist der WISC-V?

Deutsche Version der amerikanischen Wechsler Intelligence Scale for Children-V
Messung von
- Allgemeine Intelligenz
- 4 kognitive Fähigkeiten (Teilaspekte von Intelligenz)
  - Sprachverständnis
  - Wahrnehmung & logisches Denken
  - Arbeitsgedächtnis
  - Verarbeitungsgeschwindigkeit

Wie wird der WISC-V durchgeführt?

15 Subtests
- 7 zur Berechnung Gesamtwert (I+)
- 5 zur Erhebung zusätzlicher Informationen
Bewertung
- bei einigen Tests Bewertung der Antworten, bei anderen Zeitmessung
Dauer: 65-90 Min, für optionalen Zusatztest ca. 15-20 Min
Einzeltestung (basiert auf Wechslertest -> standardisierter Dialog)
Bei Verdacht auf Hoch- oder Midnerbegabung einsatz weiterer Tests, welche gut in diesen Bereichen diskriminieren können

Wie werden die Resultate des WISC-V ausgewertet und interpretiert?

Auswertung
- Addition der Rohpunkte der einzelnen Subtests zu Rohpunktsummen
- Es können ein Gesamt IQ sowie 11 Indexwerte erstellt werden (einzelne Subtests können mehrfach verrechnet werden)
- Kein spezifisches Intelligenzmodell sondern Versuch, verschiedene Ergebnisse der Intelligenzforschung zu integrieren
Interpretation
- Viele Möglichkeiten
- Gesamt-IQ und Indexwerte
- Diskrepanz zwischen Indexwerte
- Analyse des Ergebnisprofils für Untertets -> Ermittlung von Stärken und Schwächen
- Spezifische Vergleiche von Untertests
- Wertemuster innerhalb der Untertests (z. Bsp. Konsistenz)
- Prozessanalyse (z. Bsp. Lösungsweg betrachten)

Was kann zur Objektivität des WISC-V gesagt werden?

Durchführungs- und Auswertungsobjektivität nicht perfekt
Hohe Anforderungen machen Wechsler-Test für Kinder anfällig für TestleiterInneneffekte
Metaanalyse zur Auswertungsobjektivität
- Fehler durch Psychologinnen > Fehler durch Studierende
- 99.7% aller manuellen Auswertungen mindestens ein Fehler
- Am fehleranfälligsten:
  - Gesamt IQ
  - Sprachverständnis
- ABER: Auswertungsfehler führen bei Gesamtwert “nur” zu einer durchschnittlichen Abweichung von 1 Punkt

Was kann zu den Gütekriterien des WISC-V gesagt werden?

Objektivität problematisch
Reliabilität
- Gute Interne Konsisten (zwischen .8 und .96) und Retest Reliabilität (zwischen .7 und .9)
Validität
- Struktur des Tests nicht ganz klar -> Gesamt-IQ entweder vier oder fünf Subskalen
- Korrelation mit anderen Intelligenztests zufriedenstellend
- Hochbegabte Kinder -> höhere Werte in WISC-V, niederbegabte Kinder -> tiefere Werte
- ABER: problematische inhaltsvalidität (nicht gegeben), da v.a. Verarbeitungskapazität und figurale Aspekte erhoben werden
Normen
- Normierung 2015 an 1087 Kinder (6 - 16)
- Fein gestufte Altersnormen: Gruppen unterscheiden sich jeweils um 4 Monate
- ABER: pro Altersgruppe (in Jahren) Stichprobe von 33 VPN

Wie kann der WISC-V allgemein bewertet werden?

Vorteile
- Nützlich zur Bestimmung des Gesamt-IQs
- Hohe Informationsausbeute
- Intensive nationale und internationale Forschung
Nachteile
- Unklare Struktur (nicht wirklich basierend auf ein einziges Modell
- Problematische Durchführungs- und Auswertungsobjektivität
- Inhaltsvalidität nicht gegeben
- Normierung kritisch (v.a. einzelne Altersstufen)
Alternative: Kaufmann Assessment battery for Children, AID 3

Was ist das AID 3?

= Adaptives Intelligenz Diagnostikum

Basiert auch Wechsler Test
Adaptiver Test
- Paper-Pencil: Branched testing mimt Verzweigungsregeln
- Computerbasiert: Tailored Testing
  - Zeitlich ökonomisch, da Aufgaben, welche für VPN zu einfach oder zu schwierig sind ausgelassen werden können
Aufbau: Vier Faktoren
- Informationsverarbeitung der gesellschaftlichen Umwelt (= reasoning/fluide Intelligenz)
- Informationsverarbeitung neuer Inhalte
- Auffassungskapazität
- (Re)-Produktionsfähigkeit durch Strukturierung

Was kann zu den Gütekriterien des AID-3 gesagt werden?

Reliabilität:
- Split-half und interne Konsistenz gegeben (anhand Rasch-Modell getestet)
Validität
- Strukturelle Validität (4 Faktoren) bestätigt
Normen
- Normen aus 2010/11 aus DE und Österreich (n = 2165)
- 2014-2020: Eichungsstichprobe mit n = 5230
- Geschlechtsunterschiede in einigen Subtest

Was ist der Zahlenverbindungstests?

Intelligenztests, erfassen…
- Informationsverarbeitungsgeschwindigkeit (welche als wesentliche Grundlage von Intelligenz verstanden wird)
Aufgaben: Zahlen möglichst schnell verbinden
Erfordert Kenntnis des Zahlenraums von 1-90
sehr einfach und schnell durchzuführen (max. 10 Min) und auszuwerten (ca. 2 Min)
Einzel- oder Gruppentest

Was kann zu den Gütekriterien von Zahlenverbindungstests gesagt werden?

Reliabilität
- Testwiederholung: .84 bis .97
- Paralleltest: .95 bis .98
Validität
- Korrelation mit anderen Intelligenztests zwischen r =.40 und .83 (ok)
- Weitgehend unabhängig von Alter und Bildungsstand
- ABER: Messung von Verarbeitungsgeschwindigkeit/numerisch -> sehr spezifisch, für Screenig verwendbar aber nicht für Einzeldiagnostik
Normierung
- Umfangreiche Normen für 7- bis 80-Jährige
- Gruppe mit verschiedenen klinischen Diagnosen

Was hat John B. Caroll gemacht?

Reanalyse von 460 Datensätze zur Intelligenz (1927 - 1987)
Insgesamt 130k Personen
- theoriefreie Verwendung von exploratorischen Faktorenanalyse
- 3 Hierarchieebenen
  - g
  - Allgemeine Spezialfähigkeiten (z. Bsp. kristalline Intelligenz)
  - spezifische Teilfähigkeiten

Was kann zum Berliner Intelligenzstrukturtest und zu dessen Gütekriterien gesagt werden?

Eine der umfangreichsten Intelligenzoperationalisierung
45 Aufgaben, c.a. 2h (Langform), 45-55 Min (Kurzform)
Gruppentestung aufgrund hoher Standardisierung möglich
Sehr gute Reliabilität und Validität
Normen

Was ist Persönlichkeit und wie gut kann sie erfasst werden?

Definition
- relativ stabiles Muster von Gedanken, Gefühlen und Verhalten
- Unterscheiden ein Individuum von einem anderen
Es existiert kein perfekter Prädiktor für Persönlichkeit (da latentes Merkmal, oft so in Psychologie)
Nach dieser Definition sollte Intelligenz auch zu Persönlichkeit dazugehören, aber hat sich über die Zeit auseinanderentwickelt (u.a. weil die Korrelation zwischen Persönlichkeitstests und Leistungstests tief ausfällt)
- nicht zwingend inhaltlich sinnvoll

Wie sind Persönlichkeitsfragebogen typischerweise Aufgabaut und wie wird läuft eine Persönlichkeitserhebung mit Persönlichkeitsfragebogen typischerweise ab?

Fragen oder Feststellungen in schriftlicher Form
Selbst- oder Fremdberichte
Standardisierte Ausführung und Durchfürung
Erläuterung der gewünschten Art der Bearbeitung in einer Instruktion
- Fragen ehrlich und ohne langes Überlegen beantworten
Festgelegtes Antwortformat
- Dichotome Antwortformate (“ja” - “nein”, “trifft zu” - “trifft nicht zu”)
  - Nicht so sinnvoll, führt zu viel Reaktanz/schwarz-weiss denken
- Rating Skalen (0 = trifft nicht zu, 6 = trifft voll zu)
- Forced-choice Antworten (z. Bsp. Antworten in Reihenfolge bringen nach Präferenz)
- Freie Antwortformate praktisch nicht vorhanden -> gewinnen nun mit AI zunehmend an Bedeutung
Meist Auszählung merkmalsspezifischer Antworten mit Schablone

Welche sind die Vorteile von Persönlichkeitsfragebögen?

Einfache Erhebungsmethode
Mehrdimensionales Verfahren, gleichzeitige Erfassung von vielen Merkmalen
- z. Bsp. NEO-P-IR erfasst 30 Einzelaspekte
Ökonomisch
- selbstständige meist schnelle Bearbeitung durch Proband:innen
- Gruppentestung
- Bearbeitung Zuhause oder im Internet möglich
Zugang zu Informationen, die anderen Methoden (z. Bsp. Beobachtung) nicht zugänglich sind
- Verhaltensweisen in der Vergangenheit
- Verhaltensweisen wie Sexualverhalten und Drogenkonsum, bei denen Probandinnen einer Beobachtung nicht zustimmen würde
- Empfindungen, Geühle, Gedanken, Motive
Vergleich mit unterschiedlichen Bezugsgruppen durch Normen

Welche sind die Nachteile von Persönlichkeitsfragebögen?

Bei Selbstberichten Selbsteinsicht nötig
- Problem aufgrund von kognitiven/Reflektions-Einschränkungen, Erinnerungseinschränkungen
Erinnerungseffekte -> Antworten geben eher mentale Represäntationen als Realität wieder
Bei Fremdeinschätzung kein Zugang zu Informationen über Gefühle/Gedanken
Antwortstile: Akquieszenz, Tendez zur Mitte oder Extremurteile
Verzerrungen in Richtung eines sozial erwünschten Bildes
- Self-deception vs. impression management
Gefahr der Verfälschung (Faking) -> Proband:innen könnten versuchen, absichtlich ein besseres oder schlechteres Bild von sich abzugeben

Welche Faktoren der Big 5 werden am ehesten verfälscht? Inwiefern ist dies (Faking) ein Problem?

Studie, bei der Gruppen jeweils gefragt wurden möglichst erhlich zu antworten oder bei der Personen versuchen, bei Bewerbung einen guten Eindruck zu machen
Am meisten verfälscht:
- Höhere Gewissenheitswerte
- Niedrigere Neurotizismuswerte
- Offenheit für Erfahrung garnicht verfälsch (E und V etwas verfälscht)
Faking beeinflusst
- Skalenmittelwerte
- Konstruktvalidität -> erhöhte Skaleninterkorrelation
ABER: Metaanalysen weisen daraufhin, dass Faking die Kriteriumsvalidität kaum beeinträchtigt
- Faking als Zeichne für Intelligenz
- Soziale Erwünschtheit korreliert mit emotionaler Stabilität (.37) und Gewissenhaftigkeit (.20) -> erhöhte Werte hier entsprechend nicht unbedingt “unerklärte” Varianz durch Faking

Welche Lösungswege gibt es, um Faking bei Persönlichkeitsfragebögen entgegenzuwirken?

Zusicherung der Anonymität
Lügenskalen
Verwendung von Forced-Choice Antwortformaten, bei denen Items ungefähr gleich (un)-erwünscht sind

Was ist die Marlowe-Crowne Skala?

Kontrollskale um Faking vorzubeugen
23 Items, welche mit Ankreuzen auf “richtig” oder “falsch” bewertet werden müssen
Items sind etwas extrem, z. Bsp. “Ich höre immer allen zu” -> immer -> unwahrscheinlich dass dies Stimmt
Ähnliche Skalen sind in einigen Fragebögen enthalten, z. Bsp. MMPI-2 oder FPI-R
Hohe Werte können auf Lügentendenz hinweise, aber auch auf hohe moralische Standards implizieren
- Soll als Warnhinweis und nicht als Beleg interpretiert werden

Welche Kontrollskalen sind im 16 PF-R enthalten?

Impression Management
- 10 separate Items
- ähnlich wie Marlowe-Crow Skala -> wenn Menschen oft extremen Aussagen zustimmen wird eher angenommen, dass sie auf Faking/Impression Management anfällig sind
Akquieszenz
- Umgepolte Items
- Mehr als 70 Jas nur bei 5% der Normierungsstichprobe
- Problem: Umgepolte Items kompliziert, können falsch gelesen werden (wenn man ein “nicht” übersieht)
Infrequenz
- 51 Items im Test
- Nur Items, die bei eine der Antowrtalternativen < 5% Zustimmung hatten
- Ab Rohwerte von 9 kritisch

Wie werden Kontrollskalen (von Persönlichkeitstests) kritisiert?

Gewisse Faking-Tendenzen hängen auch effektiv mit Persönlichkeitseigenschaften zusammen, welche erhoben und gefaket werden
- Z. Bsp. Zusammenhang Faking mit Emotionaler Stabilität und Gewissenhaftigkeit
Prinzipielle Verfälschbarkeit heisst nicht, dass es systematisch gemacht wird, stark abhängig von
- Situation
- erhobenem Merkmal

Was sind die Big Five Triplets?

Persönlichkeitsfragebogen
20 Triplet von Items mit gleicher sozialer Erwünschtheit, die in Rangfolge gebracht werden müssen
- Meidung von Faking

Was kann zu Fremdbeurteilungbögen im Zusammenhang mit Persönlichkeitsfragebögen gesagt werden und wie hängen sie mit Selbstbeurteilungsfragebögen zusammen?

Fremde (bei Nullbekanntschaft) oder Bekannte (Freunde, Partner_in) schätzen Persönlichkeit der Zielperson aufgrund von ihren Beobachtungen und Vorwissen ein
Typischerweise unformulierte Selbstbeurteilungsfragebögen
FBF und SBF korrlieren bei der Messung von Persönlichkeitseigenschaften zwischen .4 und .5
Sind unabhängig voneinander prädiktiv für
- Verhalten im Labor
- Akademischer Erfolg
- Beruflicher Erfolg
FBF und SBF erfassen überlappende und spezifische Information zu Persönlichkeit
Aggregation von FBF und SBF als Gold Standard

Welche sind die Nachteile von Fremdbeurteilungsfragebögen bei Persönlichkeitsfragebögen?

Mangelnder Zugang zu Emotionen und Kongitionen
Letter of Recommendation Effekt -> soziale Erwünschtheit von anderer Person “übernehmen”, Bekannte besonders gut darstellen
Antworttendenzen

Was kann zur Objektivität und Reliabilität von Persönlichkeitsfragebögen gesagt werden?

Objektivität meistens hoch aufgrund von Standardisierung
Reliabilität
- Retest-Reliabilität abhängig von Stabilität von erhobenem Merkmal
- Banwidth-Fidelity Dilemma: zu hohe interne Konsistenz (= Homogenitätsmass) könnte darauf hinweise, dass zu enger Bereich von Merkmal erhoben wird (d.h. Konstrukt nicht flächendeckend erhoben wird)
Für Profilvergleiche sind hohe Reliabilitäten nötig, die oftmals nicht erfüllt werden

Was kann zur Validität von Persönlichkeitsfragebögen gesagt werden?

Übereinstimmung Fremd-/Selbstbericht zwischen .4 und .6
- Variiert in Abhängigkeit von
  - Beobachtbarkeit des Merkmals
  - Bekanntheitsgrad zwischen Rater:in und Target
    - romantische Partner:innnen sehr geeignet
Kriteriumsvalidität
- Lange wurde kritisiert, dass Persönlichkeitseigenschaften nur gering mit Kriterien korrelieren -> von zahlreichen Studien wiederlegt
- KV geringer bei der Vorhersage von z. Bsp. Schulerfolg oder Berufserfolg
- ABER: Vorhersage durch andere Prädiktoren - z. Bsp. IQ - kann durch hinzunehmen von Persönlichkeitseigenschaften signifikant erhöht werden, hilft bei Vorhersage von
  - Ausbildungserfolg
  - (Einkommen, Depression, Gesundheit (physisch & psychisch)) -> Ergebnisse von Studie mit relativ schlechten IQ-Tests
Faktorielle Validität kritisch
- Wird oft als Problem der Psychometrie anstatt als Problem der Persönlichkeitsdiagnostik dargestellt, fraglich ob das so stimmt

Welche Beispiele für Persönlichkeitssysteme im Sinne von BIG 5/HEXACO Tests gibt es?

NEO-PI-R (2004)
- 240 Items
- Erfasste Komponente:
  - Ocean mit 6 Facetten/Dimension
- Besonderheiten:
  - Selbst- und Fremdversion
  - Ausführliche Dokumentation
NEO-FFI (2008)
- 60 Items
- Erfasste Komponente: OCEAN
- Besonderheiten:
  - Ökonomische Erfassung FFM
BFI-2 (2016)
- 60 Items
- Erfasste Komponente: OCEAN mit 3 Facetten/Dimension
- Besonderheiten:
  - Forschungsinstrument
  - Kurzversion
HEXACO-PI-R (2007)
- 100 Items
- Erfasste Komponente: OCEAN + Honesty-Humility, 4 Facetten/Skala + Facette Altruismus
- Besonderheiten:
  - Forschungsinstrument
  - Skalen zu N/A anders als im FFMKein Manual/Normierung
  - Kurzversion mit 60 Items

Was sind die Big 5?

Die Big 5: Struktur
- Super-/Metafaktoren
  - P-Faktor (Big one): Perönlichkeit
  - Etwas weiter unten
    - Stabilität
      - +C, +A, -N
    - Plastizität
      - +E, +O
- Domäne
  - Offenheit für Erfahrung
  - Gewissenhaftigkeit
  - Extraversion
  - Verträglichkeit
  - Neurotizismus/Emotionale Stabilität
- Aspekte: weniger spezifisch als Facetten, spezifischer als Facetten
- Facetten
  - O: einfallslos, unkundig, phantasielos vs. kenntnisreich, klug, geistreich
  - C: unbeständig, arbeitsscheu, leichtsinnig - konsequent, fleissig, verantwortungsbewusst
  - E: scheu, schweigsam, zurückhaltend - temperamentvoll, kontaktfreudig, dynamisch
  - A: egoistisch, rechthaberisch, herrschsüchtig - rücksichtsvoll, gutmütig, hilfsbereit
  - N: launisch, verletzbar, empfindlich - gefühlsstabil, gelassen, unempfindlich
- Struktur der Facetten nicht genügend erforsch
- Domäne gut für Kommunikation in der Forschung, aber sehr verallgemeinert/ungenau
Hintergrund
- Spearman: Faktorenanalyse
- Allport 1936: Psycholexikalischer Ansatz
- Norman 1963: berichtete als erstes von 5 relativ unabhängigen Faktren, die Unterschiede in Personenbeschreibungen erklären -> Seitedem B5 in zahlreichen Studien als zentrale Persönlichkeitsdimensionen nachgewiesen

Was ist das NEO-PI-R und wie ist es aufgebaut?

NEO-Persönlichkeitsinventar von Costa und McCrae - Revidierte Fassung
5 Persönlichkeitsdimensionen mit 6 Facetten (random gewählt)
30 Subskalen -> 240 Items
- Pro Facette 8 Items mit fünfstufiger Antwortskale
Bearbeitungszeit ca. 30 - 40 Minuten
Liefert eine Interpretationshilfe: Persönlichkeitsbild
- Gibt an, wie z. Bsp. die Persönlichkeit einer Person mit weniger als 40 Punkten in Neurotizismus aussieht
- Kann auch bei der Verwendung von anderen Fragebögen herangezogen werden, um Ergebnisse zu erläutern

Was kann zu den Güterkriterien des NEO-PI-R gesagt werden?

Gute Reliabilität
- Retest < Interne Konsistenz
Stabile Faktorenstruktur
Bevölkerungsrepresentative Normierung
- n = 11’724
Getrennte Normen für Geschlecht und Altersgruppen
- Selbstbericht: 16 - 50 Jahre
- Fremdbericht: 16 - 30 Jahre
- Bildungsspezifische Normen für Offenheit
Lange Standardfragebogen für Persönlichkeit

Was ist das HEXACO-PI-R und wie ist es aufgebaut?

Persönlichkeitsfragebogen
Anlehnung an NEO-PI-R aber keine Anlehnung an B5 sondern an HEXACO Modell
Zahlreiche lexikalische Studien in verschiedenen Sprachen und Kulturen identifizieren 6 Persönlichkeitsfaktoren
Unterschiede zu den B5
- Offenheit, Extraversion und Gewissenhaftigkeit praktisch gleich
- Emotionale Stabilität
  - Erhebt keine Ärger-Aspekte
  - Zusätzliche Sentimentalitätsaspekte (bei B5 bei Verträglichkeit enthalten)
- Verträglichkeit
  - Zusätzliche Ärger-Aspekte
- Honesty-Humility: Aufrichtigkeit, Fairness, Genügsamkeit, Bescheidenheit
  - Plus Facette Altruismus

Was kann zu den Gütekriterien des HEXACO-PI-R gesagt werden?

Positiv
- Faktorielle Validiät bestätigt
- Interne Konsistenz
  - Für Globalskalen > .80
- Gute Passung zu NEO-FFI (Kurzversion NEO-PI-R)
- Vorhersage von unerwünschtem/Delinquentem Verhalten am Arbeitsplatz durch H-H Dimension
- Frei vefügbar in vielen Sprachen
Negativ
- Interne Kosnistenz
  - Facetten: teils eher gering
- Normierung: nicht vorhanden, nur Vergleichswerte
  - nicht Bevölkerungsrepräsentativ
-> Eher Forschungsinstrument als für Individualdiagnostik

Was ist das BFI-2 und wie ist es aufgebaut?

= Big Five Inventory 2
Persönlichkeitsfragebogen
60 Items zur Erfassung der B5 mit 3 Facetten
Deutsche Version wurde in mehrstufigem Verfahren in Anlehnung an TRAPD approach entwickelt
- Translation: Items übersetzen
- Review and adjucation: Items werden diskutiert mit Expert:innen
- Pretesting: Items empirisch erprobt
- Documentation: Items werden dikumenitert

Was kann zu den Gütekriterien und zu den Vor- und Nachteilen des BFI-2 gesagt werden?

Stabile Faktorenstruktur
Hoher interne Konsistenz
Gute Übereinstimmung Fremd- und Selbstberichte
Zahlreiche Belege für Kriteriumsvalidität
- Vorhersage
  - Bildung
  - Einkommen
  - Gesundheit
  - Zufriedenheit
Gute Normwerte
- Für 5 Domäne und 15 Facetten nach Geschlecht und Alter
- n = 1124

Was ist der BIP?

Selbst-/Fremdbericht möglich
Persönlichkeitsfragebogen für Berufseignungsdiagnostik
4 Bereiche, 14 Dimensionen, 144 Items
- Berufliche Orientierung
  - Leistungsmotivation
  - Gestaltungsmotivation
  - Führungsmotivation
- Soziale Kompetenzen
  - Sensitivität
  - Soziabilität
  - Kontaktfähigkeit
  - Durchsetzungsvermögen
  - Teamorientierung
- Arbeitsverhalten
  - Flexibilität
  - Gewissenhaftigkeit
  - Handlungsorientierung
- Psychische Konstitution
  - Emotionale Stabilität
  - Selbstbewustsein
  - Belastbarkeit
Kurzversion: BIP-6
- 6 Dimensionen, 48 Items (33 davon aus BIP)
Dauer: 30-40 Min

Was ist der BIP-6?

Kurzversion des BIP (Berufsbezogene Persönlichkeitsdiagnostik)
6 Dimensionen, 48 Items (33 davon von BIP)
- Sozialkompetenzen
- Kooperation
- Engagement
- Dominanz
- Disziplin
- Stabilität
Durchführungszeit: 10-15 Minuten

Was sind die Vor- und Nachteile des BIP und dessen Gütekriterien?

Vorteile
- Reliabilität
  - Interne Konsistenz: .74 - .91 für 14 Dimensionen
  - Retest-Reliabilität (2-3 Jahre, Selbstbericht): > .70 -> Gute Vorhesagekraft
- Validität
  - Mittlere Zusammenhänge mit
    - Einkommen
    - Erreichte Hierarchiestufe (E + EH = Indikatoren für beruflichen Erfolg)
    - Berufliche Zufriedenheit
- Normierung
  - Umfangreiche Normierung (2018): n < 22’000
    - Verfahren relativ stark im A&O Bereich eingesetzt
  - Getrennte Normen für
    - Hochschulabsolvent:innen
    - Verschiedene Hierarchiestufen (neu auch weibliche Führungskräfte)
    - Funktionsbereiche (z. Bsp. Vertrieb)
- Akzeptanz: Annahme, dass strukturiertes Vorgehen für die Kommunikation und Rückmeldung der Ergebnisse zu hoher Akzeptanz führt (unklar, ob tatsächlich höher als bei anderen Persönlichkeitsfragebögen)
Nachteile
- Reliabilität
  - Teilweise hohe Interkorrelation zwsichen Skalen (Durchsetzungsfähigkeit - Führungsorientierung: r = .75)
- Validität
  - Inkrementelle Validität: gemischte Befunde bez. Vorhersage über NEO-PI-R/FFI hinaus
    - Inkrementelle Validität: ob signifikant mehr Varianz (ggü. anderen Konstrukten oder Tests) aufgeklärt wird

Was sind die Vor- und Nachteile des BIP-6 und dessen Gütekriterien?

Vorteile
- Reliabilität
  - Interne Konsistenz: .74-.85 für 6 Dimensionen
  - Retest-Reliabilität (4-6 Wochen, selbstberich) > .80
- Validität
  - Faktorielle Struktur in CFA bestätigt
  - Konvergente Validität: Übereinstimmung mit Skalen aus anderen Verfahren hoch
  - Vorhersage von
    - subjektivem Berufserfolg
    - Objektivem Berufserfolg
      -> auch über FFM hinaus (inkrementelle Validität)
- Normierung: n = 7757
  - Differenziert nach
    - Geschlecht
    - Hierarchiestufe
    - Unternehmensbereich
    - Aufteilung der Normen für verschiedene Kontexte (Standortbestimmung vs. Bewerbugnsprozess)
Nachteile
- Validität
  - Divergente Validität: wenig Hinweise

Gibt es Sinn, Persönlichkeit mit möglichst wenigen Items zu erheben?

Asprechend, da ökonomisch, kurzer Zeitaufwand etc
ABER Problem: Wert bei Test = wahrer Wert + Messfehler
- Bei wenigen Items wird der Messfehler nicht/weniger herausgemittelt

Was kann zu den Facetten im Zusammenhang mit Persönlichkeitsfragbögen gesagt werden?

Globalskalen von Persönlichkeitsfragebögen lassen sich relative gut in B5 einordnen, aber grosser Unterschied in Anzahl und Inhalt der Facetten
Meistens Facetten nicht hinreichend reliabel -> Profilinterpreteation nicht zulässig

Was sind Traits und was sind States?

Traits:
- Relativ breite
- zeitlich stabile
- Dispositionen zu bestimmten Verhaltensweisen
- Treten relativ konsistent über verschiedene Situationen hinweg auf
  -> Meisten Persönlichkeisttests erheben Traits und nicht (direkt) States -> Traits Aggregation von States
States:
- Temporäre Zustände
- Fluktuieren über Zeit und Situationen hinweg

-> Unterscheidung keine echte Dichotomie -> Bereiche eines Kontinuums, welches von stabil bis variabel reicht

Wie werden States i.d.R. grob erfasst?

Pragmatische Unterteilung des momentanen Befindens in drei Bereiche
- Emotionale Befindlichkeit (Freude, gute Stimmung, Angst)
- Körperliche Befindlichkeit (Schmerz, körperliches Unwohlsein)
- Kognitive Befindlichkeit (Müdigkeit, Konzentration)
Ein- und mehrdimensionale Verfahren zur Erfassung momentaner Zustände
Meist Listen von
- Eigenschaftswörtern
- Substantiven
- Kurze Erlebnisbeschreibungen
Selbst- und Fremdberichte möglich

Wo überlappen Verfahren zur Erfassung von States und Persönlichkeitsfragebögen, worin unterscheiden sie sich?

Gemeinsamkeiten (von VZEVS ggü. PFB)
- Selbstbeurteilung durch Ankreuzen von Items
- Auch Fremdbeurteilung möglich
- Durchführungs- und Auswertungsobjektivität durch Standardisierung
- Bei mehreren Items pro Merkmal kann die interne Konsistenz bestimmt werden
Unterschiede (von VZEVS ggü. PFB)
- Anforderungen bei querschnittlichen Erhebungen: mit Variation des situativen Kontext (z. Bsp. Instruktionsvariante) sollte eine Varianz der Mittelwerte erkennbar sein
- Niedrigere Retest-Reliabilität bei S als bei T
- Höhere interne Konsistenz bei S anstatt bei T
- Höhere Korrelation zwischne State-Test mit gleichem Gültigkeitsanspruch als diejenigen zwischen State- und Trait-Test zum gleichen Bereich
- Normen für Zustandmasse i.d.R. nich sinnvoll

Was ist der STAI?

Persönlichkeitsfragebogen zur Erhebung von State- und Trait-Ängstlichkeit
Zwei separate Skalen:
- Angst als Zustand vs. Angst als Eigenschaft
- Je 20 Items (teilweise identitsche Formulierungen) der Formatierung
  - “Ich bin ruhig” “Mir ist zum Weinen zumute”
Vierfach abgestuftes Antwortformat
- State: überhaupt nicht/ein wenig/ziemlich/sehr
- Trait: Fast nie/manchmal/oft/fast nie

Was kann zu den Vor- und Nachteilen und den Gütekriterien des STAI gesagt werden?

Vorteile
- Reliabilität
  - Interne Konsistenz für State- und Trait-Skala: .90+
  - Retest-Reliabilität zu allen Messzeitpunkten für State-Skala deutlich niedriger als für Trait Skala (.43 vs. .86)
- Validität
  - Höhere Trait-Angst-Werte bei klinischen Gruppen
  - Geringe Variation der Mittelwerte bei Trait-Skala zwischen neutralen und Klausur-Situationen, bei State-Skala hingegen erhebliche Schwankungen
Nachteile
- Normierung: seit 1981 nicht überarbeitet und neu normiert
-> Klassisches Verfahren, aber ohne neue Normierung praktisch nicht anwendbar

Was kann zu Experience Sampling (im Zusammenhang mit Persönlichkeitserhebungen) gesagt werden?

Alternative Erhebungsmethode
Besser geeignet zur Erfassung von Zuständen als Fragebogen
Proband:innen erhalten wiederholt kurze Survey auf Smartphone und können unmittelbare Angaben zu aktuellem Befinden
Hohe ökologische Validität
Bislang wenig etabilitert und gründlich untersuchte Verfahren verfügbar

Was ist die Goldwater Rule?

Regel, dass es unethisch ist für Psycholog:innen, Diagnose auszustellen ohne Authorisierung und agemessene Diagnostik

Was sind Interessen?

Interessen als Persönlichkeitsmerkmal von hoher
- Konstanz
- Situationsabhängigkeit
Interessen sind
- relativ stabile
- in der Persönlichkeit verankerte Handlungstendenzen
  - kognitiv
  - emotional
  - werthaft
- Unterscheiden sich nach
  - Art
  - Richtung
  - Generalisiertheit
  - Intensität

Wo werden Interessenstests hauptsächlich eingesetzt?

in der Berufsberatung

Welche zwei Arten Interessen zu messen gibt es?

Normative Messung:
- Probandinnen stufen ein, wie gerne sie bestimmte Tätigkeit ausüben (z. Bsp. auf einer Skala)
Ipsative Messung
- Probandinnen ordnen Tätigkeiten danach, welche ihnen am besten oder wenigsten gefällt (Forced choice Antwortformat)

Auf welche verschiedene Arten können Berufsinteressen erfragt/geäussert werden?

Geäusserte Interessen: Person sagt von selbst, was sie interessiert
Erfragte Interessen: Person beantwortet, wie interessant sie etwas findet
Manifeste Interessen: Interessen, die sich in Taten niederschlagen (z. Bsp. Hobbie) und tatsächlich beobachtbar sind
Getestete Interessen: Erfassung unter kontrollierten Bedingungen (z. Bsp. wie lange Person sich mit Objekt auseinandersetzt), v.a. in der Berufsberatung eingesetzt

Auf welchem Ansatz basieren die meisten Interessenstests im Bereich der Berufsberatung? Wie wird dies diagnostisch umgesetzt?

Passungsansatz
- populärster Ansatz in Berufswahltheorien
- Annahme, dass in der Berufsberatung möglichst gute Passung zwischen Person und (beruflicher, ausbildungsbezogener) Umwelt angesetrebt werden soll
Diagnostische Umsetzung durch Kombination von Verfahren möglich
- Allgemeiner Interessen Struktur Test (AIST-3) und Umwelt Struktur Test (UST-3)
Viele Tests basieren auf Berufswahltheorie von John Holland (1997) (RIASEC)

Welche sind die Grundannahmen der RIASEC-Typologie von Holland?

In unserer Kultur können Menschen in sechs unterschiedliche Interessenstypen bzw. Persönlichkeitstypen eingeteilt werden
Anaolog dazu gibt es 6 Arten vor Arbeitsumgebungen bzw. Umwelten
Jede Person sucht eine Umwelt, die
- es ihr ermöglich Fähigkeiten & Fertigkeiten anzuwenden
- es ihr ermöglich Einstellungen & Werte auszudrücken
- zu ihrem Typ passt
Verhalten = Ergebniss von Interaktion zwischen Persönlichkeit und Umwelt

Welche “Interessenstypen” gibt es in der RIASEC-Typologie von Holland?

Name (englisch)	Interessensart (deutsch)	Charakteristiken	Interessen	Jobs
Realistic - the “Do-erst”	Praktisch-technische Itneressen	athletisch technische Fähigkeiten	Mit Objekten, Maschinen, Tools, Pflanzen, Tieren arbeiten Draussen arbeiten	Mechaniker:in Holzfäller:in Elektriker:in
Investigative - the Thinkers	Intellektuell-forschende Interessen	—	Beobachten Lernen Untersuchen Analysieren Probleme Lösen	Physiker:in Psycholog:in Forscher:in Programmierer:in Professor:in
Artistic - the creator	künstlisch-sprachliche Interessen	Innovativ intuitiv	Arbeitet gerne in unstrutkurierten Umwelt Nutzen von Kreativität und Vorstellungskraft	Journalist:in Künstler:in Kurator:in Schauspieler:in Übersetzer:in Tänzer:in
Social - the helpers	Soziale Interessen	Gut mit Wörtern	Helfen Lehren Heilen Erleuchten Mit Menschen arbeiten	Psychologin Sozialarbeiter:in Logopäd:in HR Priester:in
Enterprising - the persuaders	Unternehmerische Interessen		Mit Menschen arbeiten Überzeugen Führen Beeinflussen Wirtschaftliches oder Personal managen für grosse Firmen	Immobilienmarkler:in Bartneder:in Reiseberater:in Manager:in/CEO
Conventional - the organizers	Konventionelle Interessen	Kongitive Fähigkeiten Numerische Fähigketen Detailierte Arbeitsweise Befolgen Anweisungen	Mit Data/Daten arbeiten	IT Versicherungsexpert:in Buchhalter:in

Wie ist die RIASEC-Typologie von Holland aufgebaut und wie wird sie erhoben?

Distanz zwischen Typen sagt (theoretisch) aus, wie stark sie miteinander korrelieren
- d.h. Wahrscheinlicher, dass jemand sowohl Praktisch (R) als auch Forschungsorientiert (I) ist als dass jemand künstlerisch-sprachlich (A) sowie konventionell (c) orientiert ist (Zwei Interessensfelder stehen einander gegenüber)
Zum Teil ipsative Messung
Anhand der Rohwerte der Person werden die Interessenstypen in eine Rangreihen gebracht
Betrachtete werden die 3 am höchsten ausgeprägten Typen (z. Bsp. SIA)

Welche Beispiele gibt es für Interessenstests, welche auf der RIASEC-Typologie von Holland basieren?

Allgemeiner Interessens Struktur Test (AIST-3) mit dazugehörigem Umwelt Struktur Test (UST-3)
Foto-Interessen Test (F-I-T)
EXPLORIX

Was ist der AIST-3 und wie wird er durchgeführt? Was kann zur Revision gesagt werden?

Allgemeiner Interessen Srtuktur Test mit dazugehörigem Umweltstrukturtest (UST-3)
Verbaltest für Interessensdimensionen nach Holland
-> 3 -> revidierte Version, bei der veraltete oder problematische Inhalte ersetzt wurden
- Berufsregister erheblich ergänzt
- Fallbeispiele überarbeitet
- Literatur aktualisiert
Zielgruppe: Sekundarstufe I und II
Durchführung
- Selbsteinschätzung
- 60 Items (10/ Interessensrichtung) zu beruflichen Tätigkeiten
- Bearbeitungsdauer: 10-15 Min

Was kann zur Auswertung und Interpretation des AIST-3 gesagt werden?

Einteilung der Rohwerte nach RIASEC Modell von Holland -> Je nach Punktzahl unterschiedlicher Code (z. Bsp. RIA)
Weitere Indexes
- Differneziertheitsindex
  - = Grad der Klarheit/Eindeutigkeit des Personen- oder Umweltprofils
  - Hohe Differenziertheit: Personen und Umwelten, welche vorallem durch eine einezelne Grundorientierung charakterisiert sind
  - Niedrige Differenziertheit: etwa gleich grosse Ähnlichkeit zu allen Modelltypen, unabhängig vom Gesamtniveau
  - Berechnung: Interessensscore dominierendste Orientierung - IS niedrigste Orientierung
- Streuungsmass für Differenziertheit
  - Alternatives Mass für Niveau der Differenziertheit einer Person oder Umwelt
  - Weniger anschaulich
  - Berücksichtigt Information aus allen 6 Dimensionen

Was ist der Umwelt Struktur Test (UST-3) und wie ist er aufgebaut?

Gehört zu AIST-3
Erfasst schulisch berufliche Umwelt nach denselbsen Dimensionen wie AIST (d.h. nach RIASEC Typologie)
60 Items
Erlaubt Bestimmung der Kongruenz -> Übereinstimmung von Person und Umwelt (ähnliche Prioriäten)

Was kann zu den Gütekriterien des AIST-3 gesagt werden?

Reliabilität
- Interne Konsistenz: Alpha =.86 - .90
Validität
- Diskriminiert gut zwischen verschiedenen Berufsgruppen
- Register mit Holland Codes für Berufe und Ausbildung erlaubt Verknüpfung von Interessenproful und Berfusempfehlung
- Konvergente Validität mit anderen Interessenstests “erwartungsgemäss”
Normierung
- N = 4’321 Schüler:innen und Studierende zwischen 14 und 20 Jahren
- Gesamtnormen
- Altersspezifisch
- Geschlechtsspezifisch

Was ist EXPLORIX? Was sind dessen Besonderheiten und wie unterscheidet er sich von anderen Tests im selben Bereich?

Interessenstest
Basiert auf RIASEC Typologie von Holland
Besonderheit: Fragebogen wird auch online zur Selbsttestung mit anschliessenden Ergebnissen angeboten
Berufsregister von EXPLORIX…
- umfassender als der des AIST-3 und spezifisch für die Schweiz entwicklelt
- spezifisch für die Schweiz entwickelt (2024 aktualisiert)
- für unterschiedliche Bildugnsniveaus

Wie ist der EXPLORIX aufgebaut?

Fragebogen mit vier Subtests
- insgesamt 218 Items, welche nach Holland-Typen aufgeführt sind
- Tätigkeiten:
  - 11 Items pro Typ
  - z. Bsp. “Wie gerne würde Proband:in aus Holz ein Bücherregal zimmern”
- Fähigkeiten:
  - 11 Items pro Typ
  - Welche Tätigkeiten (z. Bsp. frei vor Leuten sprechen) kann Proband:in gut/kompetent ausführen?
- Berufe:
  - 14 pro Typ
  - Welche Berufe interessieren Proband:in?
- Selbsteinschätzung
  - 2 Items pro Typ
  - Wie schätzt Probandin eigene Fähigkeiten bez. “Einfühlungsvermögen” (S) ein?

Wie wird der EXPLORIX ausgewertet und wie lange dauert er?

Selbstständige Durchführung UND Auswertung
Ca. 20 Min
Für jeden Typ Bildung der Summer über alle vier Subtest hinweg
Summen werden in Rangordnung gebracht und drei höchsten Werte ergeben Holland Code
In länderspezifischen Berufsregister sind alle für Holland-Code passende Berufe mit Angaben des notwendigen Bildungsweges angegeben

Was kann zu den Gütekriterien von EXPLORIX gesagt werden?

Reliabilität
- Interne Konsistenz für 6 Typen zwischen .88-.91
- Für 4 Subtetst Kosistenz von .77 (Tätigkeit) bis .80 (Berufe)
- Retest Reliabilität für Kurzform bei Zeitintervall von 15-18 Monate .80 (variiert etwas nach Typ, A > C)
Validität
- Faktoranalyse mit schiefwinkliger Rotation der 24 Subskalen ergeben 6 schwach korrelierte Faktoren
- GEeschlechtsunterschiede “Realistic” “Social” und “Artistic” (fragwürdig ob das Validitätsbeleg ist)
- Theoretisch erwartbare Zusammenhänge mit B5 z. Bsp. Offenheit korreliert mit Artistic und Investigative zu .47/.37, Extraversion korreliert mit Enterprising zu .44
  -> Validität nicht wirklich gegeben

Was ist der Foto-Interessens-test (F-I-T)?

Interessenstest nach RIASEC Modell
Nonverabler Online Berufsinteressenstest
- Auch gut für Menschen mit Migrationshintergrund etc.
Sortierung von Fotos (von Berufen) in 3 Gruppen:
- Kein Interesse
- Mittleres Interess
- Grosses Interesse
Zielgruppe: ab 13. Lebensjahr
Durchführungsdauer: 10-20 Minuten
Normierung
- Repräsentative Normen für 13 - 16-Jährige
- Ständige Aktualisierung des Materials
Berufsregister aus EXPLORIX

Welche Probleme und Vorteile ergeben sich durch den Holland Code?

Probleme
- Code aus drei Buchstaben sagt nichts darüber aus, wie weit entfernt einzelne Buchstaben voneinander sind
- Buchstaben, welche niedrigste Punktzahl haben, werden nicht beachtet, könnten aber Zeichne für Ablehnung sein -> womöglich möchte Person mit sehr niedrigem S garnicht mit Menschen arbeiten
- Generelle Level der Interessen kann sehr tief/hoch ausgeprägt sein
- Wenig starker Fokus in der Forschung aber starke Relevanz in Praxis
Vorteile
- Hohe Augenscheinvalidität
- Interessen können über andere kognitive und nicht-kognitive Persönlichkeitseigenschaften hinaus wichtige Information zu diagnostischem Prozess beitragen
  - Interessen klären weitere Varianz von Lebensoutcomes im Beruflichen bereich auf als Persönlichkeitstests und IQ Tests alleine

Was sind Q-Data, T-Data und L-Data?

Verschiedene Arten, Persönlichkeit zu erheben
Q-Data: Fragebögen
L-Data: Ratings von Beobachtungen, Liferecords (z. Bsp. Zeugnisse)
T-Data
- “objektive” Persönlichkeitstests, welche Faking meiden
-> Q, L und T Data korrelieren viel weniger als erwartet

Wie werden objektive Persönlichkeitstets (T-Data) definiert?

Objektive Tests zur Messung von Persönlichkeit und Motivation sind Verfahren, welche folgendes messen:
- das unmittelbare Verhalten eines Individuums
- in einer standardisierten Situation
- Ohne dass das Individuum sich selbst beurteilen muss
Verfahren sollen keine (mit der Messsituation übereinstimmende) Augenscheinvalidität haben
- Kann erreicht werden durch…
  - Bestimmte Aufgabenwahl
  - Bestimmte Auswertungsmethoden
Müssen den üblichen Güterkriterien psychologischer Tests genügen

Was kann im allgemeinen zu objektiven Persönlichkeitstests gesagt werden?

Nichtverbale und möglichst objektive Erfassung
Ausschluss sozialer Erwünschtheit
Tests wirken meistens wie Leistungstests:
- Proband.innen sollen nur auf wenige Aufgaben reagieren
- Können nur zwischen wenigen Optionen wählen
  -> Durchführung und Auswertung standardisiert
Entwicklung vieler objektiver Persönlichkeitstests durch Catell
Meiste objektive Persönlichkeitstest sind relativ alt -> Idee von objektiven Tests konnte sich nicht durchsetzen, wurde irgendwann praktisch aufgegeben

Was ist der OLMT?

Objektiver Leistungsmotivationstest
Messung der Leistungsmotivation über eine kognitiv wenig anspruchsvolle Aufgabe
Probandinnen müssen eine “Strasse” am Computer runterlaufen und dabei auf die Knöpfe drücken, welche auf Bildschirm angezeigt werden
- Richtig: Proband:in legt weiteres Feld zurück
- Falsch: optische oder akustische Warnung, kein Feld weiter

Aus welchen drei Subtests besteht der OLMT?

Aufgabenbezogene Anstrengung: Erfassung der Leistung ohne Anreize
Motiavtion durch Ziele: Extraanreizbildung durch Angabe von Proband:inn vor jedem Durchgang, wieviele Felder sie schaffen wird
Motivation durch Konkurrenz: Proband:in kämpft gegen Konkurrenten -> Leistung von Konkurrenz richtiet sich an Leistung Proband:in, immer 10% schneller in letzten drei Durchgängen

Was kann zu den Gütekriterien des OLMT gesagt werden?

OLMT = Objektiver Leistungsmotivationstest
Reliabilität
- Hohe interne Konsistenz welche eher für Leistungstests typisch ist
  - Variation je nach Subtest und Altersgruppe
Validität
- Moderate Korrelation (.30) mit Leistungsmassen (Kognitive Leistungstests und Abiturnote)
- Verfälschung nur nach unten möglich
- Geringe Korrelation mit anderen Leistungsmotivationstest (müsste hingegen perfekt sein da objektiv)
Normierung
- Repräsentative Stichprobe nach Alter und Bildungsniveau
- ABER
  - 8-49: n = 170
  - 50-64: N = 72
  - 65-80: n = 124
Beurteilung nach TBS-TK
- Voll gegeben
  - Objektivität
  - Allgemeine Informationen, Beschreibung diagnostischer Zielsetzung
- weitgehend gegeben
  - Zuverlässigkeit
  - Validität

Was kann zu Smartphones als objektives Testmass im Zusammenhang mit den B5 gesagt werden?

Studie mit
- n = 624 Teilnehmenden
- 25 Mio events extrahier
Resultat: relativ hohe Korrelation so erhobener Persönlichkeit und echter Persönlichkeit
- Korrelation mit Domäne .37
- Korrelation mit Facetten: .4

Welche sind die Vorteile und Herausforderung der Erhebung von Persönlichkeitsdaten mit Smartphones?

Vorteile
- Erhebung von real-life in real time
- Faking wird gemieden
- Nicht-obstrusive Erfassung
- Objektiv
- Weltweit einsetzbar (begrenzt)
- Erlauben Sprachfreie Erfassung von Daten
- Mulitmodele Datenerfassung möglich
- Wiederholte und kontiuierliche Beobachtung möglich
Herausforderungen
- Smartphones wurden nicht als diagnostische Tools entwickelt
- Bislang unkläre Validität von Mobile-Sensing Daten für viele Konstrukte
- Bedeneken bei der Frage des Datenschutzes
- Grosse Datenmenge erfordert
  - Untensives Datenmanagement
  - Anspruchsvolle Analyse

Was sind projektive Tests? Wo werden sie am meisten verwendet?

Wohl umstrittensten diagnostische Verfahren
Begriff von Projektion geht auf Freud zurück: Eigenschaften, die Ich bedrohen und an der eigenen Person nicht wahrgenommen werden, werden auf eine Person der Aussenwelt verlegt
Projektionen sollen durch mehrdeutige Reize provoziert und folglich Auskunft über nichtbewusste Aspekte der Persönlichkeit geben
Verwendung primär im klinischen Bereich, v.a. bei Kindern und Jugendlichen

Welche verschiedene Arten von projektiven Tests gibt es?

Formdeutverfahren
- z. Bsp. Rorschachtests -> Tintenflecken deuten
Zeichnerische- und Gestaltungsverfahren
- z. Bsp. Familie in Tieren -> eigene Familie als Tiere zeichnen
Verbal-thematische Verfahren
- z. Bsp. TAT: Geschichte zu Bildern erfinden

Was ist die Geschichte des Rorschach Tests?

Erfinder: Hermann Rorschach, Schweizer Psychiater
Seit 1918 Arbeit mit von ihm entwickelten Tintenklecksen
Ursprüngliches Ziel: Diagnostik der neu definierten Schizophrenie
Buchmanuskript von mehreren Verlagen abgelehnt
Schliesslich Veröffentlichung im Bircher-Verlag
Nach Bankrott Bircher-Verlag Kauf der Rechte durch Hans Huber

Wie wird der Rorschach-Test durchgeführt und ausgewertet?

Durchführung
- Testpersonen werden nacheinander 10 Bilder vorgelegt
- Frage dazu. “Was könnte das sein?”
Auswertung
- Jede Antwort wird protokolliert und nach bestimmter Kategorie mehrfach signiert
  - Erfassungsmodus: Ganz- oder Detaildeutung (wird ganzes Objekt beachtet oder nur Teile davon?)
  - Determinanten (Form, Farbe, Bewegung): Wird der Fokus mehr auf die Form gelegt? Auf die Farbe?
  - Inhalt (Tier, Mensch, Anatomie): Was sieht die Person überhaupt
  - Grad der Originalität: (z. Bsp. Vulgärwort für häufig vorkommende interpretationen)
- Weitere Indikatoren für Psychogramm:
  - Antwortzahlen
  - Reaktionszeit
  - Sukzession der Erfassungsmodi
  - Prozentwerte für verschiedenen Erfassungs- und Erlebnistypen (Menschen-, Tier-, Anatomiedeutungen etc.)

Was kann zu den Gütekriterien des Rorschach Tests gesagt werden?

Objektivität
- Problematische Auswertungsobjektivität
- Übereinstimmung zwischen verschiedenen Auswerter:inne und Stichproben 52% bis 98%
Reliabilität
- Nicht optimal
- Halbierungskoeffizient wegen unterschiedlichen Tafeln kaum berechnbar
- Retest-Reliabilität schwierig, da Antworten leicht erinnert werden und zu Kontrastreaktionen bei Testwiederholung führen können
- Validität variiert stark
  - Konvergente Validität: .30 -> sehr niedrig, aber zeigt, dass Tests etwas messen (einfach nicht klar was)
  - Korrelation der Rorschach-Variablen mit Kriterien ist höher bei externen als subjektiven Kriterien (r = .27 vs. .08)

Was ist das Fazit zu Projektiven Tests?

Beliebt in der Praxis
Guter Eisbrecher
Erfüllen Gütekriterein grösstenteils nicht
Hoher Aufwand bei relativ geringer psychometrischer Qualität

Was ist Verhaltensbeobachtung und wovon muss sie getrennt werden?

Definition
- Systematische Beobachtung und Protokollierung des Verhaltens
- einer oder mehrerer Personen
- in einer bestimmten Situation
Beobachtung so weit wie möglich frei von Wertung -> Fokus auf Datensammlung
Abtrennung zur Verhaltensbeurteilung: Bei der Verhaltensbeurteilung handelt es sich um Schlussfolgerungen (= Interpretation), die aus der Verhaltensbeobachtung gezogen werden
Abgrenzung ist in der Praxis nicht so klar, aber ist ein Hinweis dafür, wo der Fokus gelegt werden soll

Welche verschiedene Aspekte der Verhaltensbeobachtung gibt es?

Frei vs systematisch (gebunden)
Verdeckt vs. offen
- Wenn offen, dann teilnehmend vs. nicht teilnehmend
Direkt vs. indirekt
Selbst- oder Fremdbeurteilung
Im Feld oder in Situation, die von Beobachter:in erschaffen wurde

Wie unterscheiden sich die freie und die systematische Verhaltensbeobachtung und welche Vor- und Nachteile haben die einzelnen Verfahren?

Freie Verhaltensbeobachtung
- Beobachterin entscheidet selbst, welche Verhaltensweisen beobachtet werden sollen
  - relativ explorativ -> Verhaltensweisen sammeln
  - Aufmerksamkeit gilt meist bestimmten Bereichen wie Arbeits-, Sozial-, Zwangs-, Spielverhalten oder Vermeidung von angstauslösenden Reizen
  - Ergebnis mehr oder weniger detailierter schriftlicher Bericht
Systematische Verhaltensbeobachtung
- Im Voraus wird festgelegt…
  - welche Verhaltensweisen beobachtet werden
  - wie das Beobachtete protokolliert wird
- Hypothesen erforderlich, welche spezifisieren, was in der Beobachtungssituation wichtig ist -> mehr Zeitaufwand
- Resultat: Verhaltensweisen werden kodiert (z. Bsp. einfache Strichliste)

Was soll bei der freien Verhaltensbeobachtung beachtet werden?

Kontext berücksichtigen und nennen
- Auslöser
- Konsequenzen
- Spielen andere Anwesende eine Rolle? Welche Situation? Welche möglichen Gefühle werden in dieser Situation ausgelöst?
Verhalten nicht wertend und möglichst ohne Interpretation beschreiben
- Falls Interpretation vorgenommen wird, dann sollte diese
  - als solche erkennbar sein
  - begründet sein und durch exemplarische Verhaltensweisn belegt werden (i.e. “aggressives Verhalten (Kind schupft andere, schreit andere an)

Wie unterscheiden sich die direkte und die indirekte Verhaltensbeobachtung und welche Vor- und Nachteile haben die einzelnen Verfahren?

direkte Verhaltensbeobachtung
- Beobachtende beobachten live in der Situation und nicht anhand von Aufzeichnungen
- Vorteil: Beobachter:in kann frei Blick zu dem wenden, was sie interessant findet
- Nachteil:
  - Gleichzeitige Beobachtung und Registrierung/Protokollierung nicht möglich
  - Gefahr, Wichtiges zu vergessen oder falsch wiederzugeben
indirekte Verhaltensbeobachtung
- Trennung von Situation und Beobachtung -> Situation wird aufgezeichnet (z. Bsp. mit Kameras) und im Nachhinein beobachtet
- Vorteil:
  - Aufzeichnung kann angehalten und wiederholt angeschaut werden
  - Videonalayse möglich (z. Bsp. genaue Dauer von Verhalten)
- Nachteil: Nur Perspektive der Kamera möglich

Wie unterscheiden sich Verhaltensbeobachtungen im Feld und im Labor und welche Vor- und Nachteile haben die einzelnen Verfahren?

Verhaltensbeobachtung im Feld
- Beobachtung in reeller Situation -> Kontexbedingungen werden miterfasst
- Vorteile:
  - Hohe ökologische Validität
- Nachteile:
  - Konfundierungsgefahr
  - Geringe Kontrolle
  - Ungünstig be seltenen Phänomenen
Verhaltensbeobachtung im Labor
- Von Beobachter:in geschaffene oder speziell ausgewählte laborähnliche Sitationen können standardisiert werden
- Vorteile
  - Hohe Kontrolle
  - Hohe Vergleichbarkeit möglich (z. Bsp. in Assessment Center)
  - Standardisiert
- Nachteile
  - Niedrige ökologische Validität

-> Ökologische Validität je nach Konstrukt mehr oder weniger wichtig

Wie unterscheiden sich verdeckte und offene Verhaltensbeobachtungen und welche Vor- und Nachteile haben die einzelnen Verfahren?

Verdeckte Verhaltensbeobachtung
- Beobachtende nicht sichtbar (aber können anwesend sein) umd Reaktivität zu vermeiden
  - z. Bsp. Kameras, Einwegscheibe
- Vorteil: Annahme, dass sich Person an Kamera gewöhnt und desshalb natürlicher verhält
  - Vorallem bei hoher Reaktivität sinnvoll
- Nachteil: Durchführung aus ethischen Gründen nur durch Zustimmung der Proband:innen möglich
Offene Verhaltensbeobachtungen
- Offen teilnehmende Verhaltensbeobachtung
  - Beobachtende sind anwesen und nehmen an Verfahren teil (z. Bsp. Lehrperson)
  - Vorteil:
    - Weniger Störung
    - Natürliche Situation
  - Nachteil:
    - Bei anstrengenden Aufgaben eingeschränkte Beobachtungskapazität
- Offen nicht teilnehmende Verhaltensbeobachtung
  - Beobachtende sind anwesend, nehmen aber nicht am Geschehenen teil (z. Bsp. Schulpsychologin)
  - Vorteil
    - Volle Aufmerksamkeit
    - Beobachtung kann von Expert:innen vorgenommen werden
  - Nachteil
    - Anwesenheit von Beobachtendne kann störend sein

Was ist das BAYSYS?

Beispiel für Verhaltensbeobachtungsverfahren
Erfassung der Aggressivität von 9 bis 16 Jährigen
- 5 Formen von aggresicem Schülerinnenverhalten
- 1 Form oppositionelles Verhalten
Zwei Versionen
- BAYSYS-L
  - Für Lehrpersonen -> teilnehmende offene Beobachtung im Feld (während Unterricht)
- BAYSYS-F
  - Für Fachkräfte
  - Nicht-teilnehmende Beobachtung
  - Kann zusätzliche Aspekte beachten (z. Bsp. auch Verhalten Lehrperson)

Was kann zur Selbstbeobachtung im Zusammenhang mit Verhaltensbeobachtung gesagt werden? Wie wird dies umgesetzt?

Bei Verhaltensbeobachtung denkt man oft an Fremdbeobachtung, aber Selbstbeobachtung kommt auch vor und kann sinnvoll sein, z. Bsp. aus…
- ethischen Gründen: Verzicht von Beobachtung von intimem/persönlichem Verhalten (z. Bsp. Sexualverhalten)
- Ökonomischen Gründen: z. Bsp. Frendbeobachtung von Zigarettenkonsum über den Tag wäre sehr aufwendig
Methoden:
- Tagebucheinträcht (unsystematisch, Person wählt selbst was relevant ist)
- Experience-Sampling: systematischer
Mögliche Herausforderungen
- Verlangt gewissen Grad an Introspektion
- Informationsselektion durch Proband:in (Person, welche nicht in diesem Bereich ausgebildet ist, muss entscheiden, was relevant ist)

Was ist Experience-Sampling und welche sind die Vor- und Nachteile davon?

Was Experience-Sampling ist
- Form der Verhaltensbeobachtung -> Selbstbeobachtung
- Proband:innen werden über bestimmten Zeitraum täglich mehrfach aufgefordert Angaben zu ihrem Erleben, Verhalten etc. zu machen
Unterscheidung zwischen freie Texteingabe vs. Beantwortung von Fragen mit unterschiedlichen Antwortenmodi
Vorteile
- Automatische Erinnerungsfunktion -> Vermeidung Retrospektionseffekte
- Zeitliches Protokoll der Eingaben ink. Antwortenlatenz
- Automatische Datensicherung
- Nicht manipulierbar
- Kontextvariablen leicht abzufangen

Was ist systematische Verhaltensbeobachtung und wieso braucht es sie?

Was systematische Verhaltensbeobachtung ist
- Bei einer systematische Verhaltensbeobachtung wird nie vollständige Beschreibung des Verhaltens angestrebt -> Fokus auf Teilaspekte des Verhaltens (z. Bsp. Aggressivität, Kooperation etc.)
  - Beobachtung, bei der Filter und Selektionsprozess gesteuert wird
Warum es systematische Verhaltensbeobachtung braucht
- Menschen filtern (automatisch) Information aus Umwelt
- Beobachtung keine realistische Wiedergabe der physikalischen Umwelt -> beobachtet wird, was wir für relevant halten

Welche drei Begriffe sind im Zusammenhang mit systematischer Verhaltensbeobachtung wichtig und was bedeuten sie jeweils?

Selektion:
- Verhaltensbeobachtung ist Auswahl von Ereignissen aus ständigem Fluss von Verhalten
- = z. bsp. Fokus auf Kooperation
Segmentierung
- Als relevant entdecktes wird voneinander abgetrennt und nach vermuteter Bedeutng benannt
- D.h. Kooperationsverhalten segmentieren = Unterteilung in Nachgeben, Verständnis zeigen, auf gewisse Weise Handeln etc.
Quantifizierung
- Unterteilung des Verhaltens durch Aussagen über
  - Intensität
  - Dauer
  - Häufigkeit
-> Freie Verhaltensbeobachtungen fallen praktisch nie identisch aus -> Beobachtende selektieren Unterschiedliches, benenne gleiche Dinge unterschiedlich und gehen mit Quantifizierung unterschiedlich um
-> systenatisch Verhaltensbeobachtung soll helfen, Selektion, Segmentierung und Quantifizierung zu standardisieren

Welche verschiedene Systeme der systematischen Verhaltensbeobachtung gibt es?

Zeichensysteme/Indexsysteme
Kategoriesysteme
Ratingverfahren

Was machen Zeichensysteme (im Zusammenhang mit Verhaltensbeobachtung)?

Tool der systematischen Verhaltensbeobachtung
Erfassung ausgewählter Verhaltensweisen als Indikator für gesamten Verhaltensbereich
- z. Bsp. Schlagen, Treten und Schreien als Indikatoren für Aggression
Ausprägung des beobachteten Verhaltens wird aus ANzahl der Eintragungen erschlossen
D.h. z. Bsp. Striche machen, wenn eines der Verhaltensweisen auftreten

Wie findet man die richtigen Zeichen für Zeichensysteme (im Zusammenhang mit systematischer Verhaltensbeobachtung)?

Inhaltsvalidität beachten
Theorie beachten
Expert:innenmeinungen beachten
Verhaltensweisen müssen vorkommen
Verhaltensweisen können nicht übersehen werden
Verhaltensweise sollen repräsentativ sein für das zu messende Merkmal in dem vorgesehenen Anwendungsbereich

Welche zwei Formen von Zeichensystemen (im Zusammenhang mit systematischer Verhaltensbeobachtung) gibt es und wie unterscheiden sie sich?

Beobachtungschecklisten
- Jedes mal wenn bestimmtes Verhalten auftritt einen Strich bei der jeweiligen Kategorie machen
  - Direkte Protokollierung möglich, aber Aufmerksamkeit setzt kurz aus
Time Sampling
- In vorgegebenen Zeitintervalle (z. Bsp. Minute 1, Minute 2 etc.) angeben, ob Verhalten stattgefunden hat oder nicht
  - Sagt aber nicht aus, wie oft Verhalten in jeweiliger Minute stattgefunden hat
  - 01 Kodierung
- Unterscheidung zwischen
  - Time Sampling I
    - Beobachtungsintervall wird in Zeitabschnitten unterteilt
    - Beachtung per Abschnitt und nachfolgende Protokollierung
    - Idealerweise von mehreren Beobachter:innen -> eine Person beobachtet in Minute 1 und protokolliert in Minute zwei, Person 2 beobachtet in Minute 2
      -> Reduziert Aufmerksamkeitsfehler, Trennung Beobachtung und Protokollierung
  - Time Sampling II
    - Verzicht auf Registrierungsphase
    - Festlegung von Zeitabschnitten -> nach Zeitabschnitt signalton und Protokollierung
    - Gleichzeitige Protokollierung und Beobachtung

Was ist Event Sampling? Was ist ein Beispiel hierfür?

Exakte Bestimmung der Dauer von Verhaltensweisen nur hier möglich
Fokus auf sehr bestimmtes, kurz auftretendes Ereigniss
Anfang und Ende der Verhaltenssequenz werden zeitlich genau bestimmt und daraus Dauer berechnet
Videoaufnahmen nötig
Durch wiederholtes Beachter der Aufnahmen in Slow-Motion kann Zeitpunkt des Beginns und Endes festgelegt werden
- Auch immer mehr Softwares, welche diese Aufgabe erledingen
Beispiel: FACS (Facial Action Coding System)
- Microbewegungen von Muskeln in Gesicht werden erfasst, kodiert und ausgewertet

Was sind Kategoriesysteme im Zusammenhang mit systematischer Verhaltensbeobachtung? Wie ist ihr Stand in der Praxis?

Ziel von Kategoriesystemen:
- vollständige Erfassung des Verhaltens -> Verhalten wird unterteilt in mehrere, klare definierte, voneinander abgrenzbaren Kategorien -> kein Verhalten soll unkategorisiert bleiben
  - z. Bsp. Bestrafung, Belohnung oder keine Reaktion als Erziehungsmethode
- Kriterien schwer zu erfüllen
  - Vollständigkeit
  - Eindeutigkeit
  - Überschneidungsfreiheit
- Kategorisierung immer Simplifizierung -> Details gehen verloren -> Vollständigkeit nicht gegeben
  - Entsprechend spielen Kategorisierungssysteme in der Praxis praktisch keine Rolle

Wie unterscheiden sich Verhaltensbeobachtungen von Verhaltensbeurteilungen?

Verhaltensbeobachtung
- Liefert Daten über Häufigkeit und Dauer konkreter Verhaltensweisen
- Daten können als Ausprägung von Eigenschaften interpretiert werden
Verhlatensbeurteilung
- Liefert Interpretation über Verhaltensweise -> Beobachter:in sieht Verhalten und schliesst daraus direkt auf Eigenschaft
- Registrierung entfällt
- Beurteilung in standardisierter Form (z. Bsp. mehrstufige Ratingskala)
  -> Prozesse können auch voneinander unabhängig gestaltet werden, z. Bsp. eine Person beobachtet, andere beurteilt

Was ist Interrate Agreement und welche Bedeutung hat es im Zusammenhang mit systematischer Verhaltensbeobachtung?

= Beurteiler:innenübereinstimmung
Bei sVB kritisch
Abhängig von
- Eindeutigkeit der Definitionen von Konstrukten
- Eindeutigkeit von Skalenpunkten
Je globaler das einzuschätzende Verhaltensmerkmal, desto schwieriger ist es, zwisschen verschiedenen Beobachter:innen Übereinstimmung zu erzielen

Wie kann Interrate Agreement bei der Verhaltensbeobachtung erhöht werden?

Durch Verhaltensverankerung
- Kann Maximiert werden, indem man möglichst viel Information über Bewertungsverfahren gibt
  - Verbale Verankerung (Sehr stark = 5, schwach = 0)
  - Numerische Verankerung
  - Beispiele Angeben (5 = Beissen)
- Durch Schulung kann man sicherstellen, dass Beurteilerinnen zu übereinstimmenden Ergebnissen kommen

Was ist das Linsen Modell von Brunswick (1952)?

Annahme: Menschen nehmen Umwelt nicht direkt wahr, sonder erschliessen sie aus Hinweizreisen, die von Objekten in Umwelt ausgehen
- Objekte: z. Bsp. andere Menschen
- Objektive Hinweisereize: gewisses Verhalten zweigen
- Subjektive Hinweisreize: Wahrnehmung des gezeigten Verhalteln durch Beobachter:in (kann anders interpretiert und gewichtet werden als intendiert)
Darauf basiert die Urteilsbildung
Gründe für eine mangelnde Übereinstimmung zwischen Beurteilenden
- Unterschiede in der Wahrnehmung der einzelnen Hinweisreize
- Unterschiede in der Verarbeitung der Hinweisreize
  - z. Bsp. Aufgrund von unterschiedlicher Gewichtung und Interpretation
  - Auch Abhängig von Aufmerksamkeit, Hintergrundwissen, Konzentration, Werte etc.

Welche B5 Verhaltensweises können am meisten im Schlafzimmer von Menschen erkannt werden?

Am meisten: Offenheit für Erfahrung
Am wenigsten: Verträglichkeit
Relativ gute Übereinstimmung zwischen Einschätzung von Menschen, welche Zimmer gesehen haben und B5 Fragebögen

Was Kann zur Objektivität/interrate Reliabilität von Verhaltensbeobachtungen gesagt werden? Mit welhen Formeln kann diese ermittelt werden?

Kann problematisch sein wenn Ergebnisse nicht unabhängig von der Person sind, die das Verfahren auswertet und durchführt
- Segementierung und Selektion können je nach Werten etc. einer Person unterschiedlich ausfallen
Bei jeder Beobachtung ist nicht nur das Beobachtungssystem als Instrument sondern auch die Person die beobachtet involviert
Ermittlung der Übereinstimmung der Registrierungen
- Cohen’s Kappa bei nominalskalierten Variablen (i.e. Verhaten liegt vor oder nicht)
- Intra-Klassen-Korrelation bei intervallskalierten Variablen

Wie wird Kohen’s Kappa berechnet?

Person B v	Person A ->
	Verhalten JA	Verhalten Nein	Gesamt
Verhalten JA	100	20	120
Verhalten Nein	10	70	80
Gesamt	110	90	200

k = p0 - pe/1-pe
p0 = übereinstimmende Urteile / gesamte Urteile
- Übereinstimmende Urteile = beide Nein oder beide Ja
  = 100 + 70/200 = 0.85
  -> Anteil der vorliegenden Übereinstimmungen
pe = Gesamt Ja Person A/Gesamturteil x Gesamt Auffällig Person B/Gesamturteil + Gesamt Nein Person A/Gesamturteil x Gesamt Nein Person B/Gesamturteil
= 120/200 x 110/200 + 80/200 x 90/200 =0.6 x 0.55 + 0.4 x 0.45 = 0.51
-> Anteil der Übereinstimmungen, die zufallsbedingt zu erwarten wären
k = 0.85 - 0.51/ 1 - 0.51 = 0.694 (relativ gute Übereinstimmung)

Wie kann die Validität von Verhaltensbeobachtungen bestummen werden?

Konvergente und divergente Validität:
- über Korrelation mit Fragebögen, welche das gleiche Messen
Kriteriumsvalidität
- Gruppenvergleiche
- Veränderungsmessung durch eine bewährte Intervention
Prädiktive Validität
- z. Bsp. durch zukünftigen Berufserfolg durch Beurteilung in Assessment Centers

Welche Urteilsfehler gibt es bei der Verhaltensbeobachtung?

Halo-Effekt
Logischer Fehler
Primacy- und Recency Effekt
Beobachterdrift
Reaktivität
Antworttendenzen

Was ist der Halo-Effekt, wie kann man ihn erkennen und wie kann damit (im Zusammenhang mit Verhaltensbeobachtungen) umgegangen werden?

Definition Halo-Effekt
- Urteil über ein herausragendes Merkmal (z. Bsp. sehr hohe Intelligenz) “überstrahlt” die Beurteilung anderer Merkmale
  - z. Bsp. Wenn Person ausserordentlich freundlich wirkt, werden andere Merkmale auch positive beurteilt
Wie man den Halo-Effekt entdeckt:
- Auffällig: unangemessen hohe Korrelationen von Urteilen eine:r Beobachter:in zwischen verschiedenen Merkmalen einer Person
Wie man den Halo-Effekt beheben kann:
- Nicht alle Merkmale einer Person auf einmal messen, sondern z. Bsp. zuerst bei allen nur Aggression beobachten und beurteilen, danach Kooperation etc.
  - D.h. zunächst nur Erhebung des Ausprägungsgrades eines einzelnen Merkmals bei allen einzuschätzenden Personen

Was sind logische Fehler (im Zusammenhang mit Verhaltensbeobachtungen), wie kann man ihn erkennen und wie kann damit umgegangen werden?

Bedeutung logischer Fehler
- Implizite Annahmen/Hypothesen von Beobachter:in über logische Zusammenhänge bestimmter Merkmale beeinflussen die Wahrnehmung/Interpretation eines Verhaltens
  - Bsp.: Wenn Beobachter:in glaubt, dass dominante Menschen auch aggressiv und wenig kooperativ sind, dann lässt sich Beobachter:in bei Beobachtung von Aggressivität und Kooperation bei einer dominanten Person von dieser Hypothese leiten
- Ausprägung einzelner Verhaltensweisen wird nicht unabhängig geschätzt, sondern aufgrund von implizitem Zusammenhang erschlossen
Hinweis darauf
- Hohe Interkorrelationen eines Merkmals

Was sind Primacy- und Recency-Effekte (im Zusammenhang mit Verhaltensbeobachtungen) und wie können diese Effekte erklärt werden?

Primacy Effekt: Beurteiler:in lässt sich übermässig stark von Beobachtung am Anfang beeinflussen
- Mögliche Erklärung: Frühe Bildung eines Gesamteindrucks, den man durch weitere Beobachtungen zu bestätigen versucht
Recency Effekt: Beurteiler:in lässt sich übermässig stark von Beobachtung am Ende beeinflussen
- Mögliche Erklärung: Zuletzt beobachtete Verhaltensweise ist stark präsent, deshalb stützt sich Beobachter:in stark darauf

Was ist der Beobachter:innen-Drift (im Zusammenhang mit Verhaltensbeobachtungen), welche verschiedene Formen davon und welche Gründe dafür gibt es?

Bedeutung Beobachter:innen-Drif
- Genauigkeit der Beobachtung lässt entweder über Beobachtungsphase ab oder nimmt zu
Mögliche Gründe für nachlassende Genauigkeit
- Müdigkeit
- Nachlassende Aufmerksamkeit -> weniger Verhaltensweisen, die entdeckt werden sollen, werden entdeckt
- Mangelnde Motivation
Mögliche Gründe für zunehmende Genauigkeit
- Beobachter:innen lernen im Laufe der Beobachtung hinzu
  - Besseres Verständnis, wie Messinstrument funktioniert
  - Besseres Verständnis, welche Verhaltensweisen relevant sind
- Oft aufgrund von ungenügend Beschulung

Was ist Reaktivität (im Zusammenhang mit Urteilsfehlern bei der Verhaltensbeobachtungen) und wie kann damit umgegangen werden?

Bedeutung Reaktivität
- Beobachter:in verändert durch Präsenz oder (unangemessenes) Auftreten Verhalten der zu beobachtenden Person
  - Grundsätzliches Problem der psychologischen Diagnostik
- Z. Bsp. Zeigt normalerweise aggressives Kind womöglich weniger Aggression bei sehr dominant aussehender Person
Verschiedene Beobachter:innen können unterschiedlich starke Reaktivität erzeugen
Umgang mit Reaktivität
- Klient:in direkt fragen, ob er/sie sich anders Verhalten hat
- Gewöhnungsphase vor Testung
- Verdeckte Beobachtung

Welche Antworttendenzen gibt es (bei Verhaltensbeobachter:innen)?

Milde-Effekt: Personen werden übermässig positiv beurteilt
Strenge-Effekt: Personen werden übermässig negativ beurteilt
Tendenz zur Mitte: Personen werden alle relativ nahe beieinander und als durchschnittlich/nahe beim Durchschnitt beurteilt
Extremurteile: Personen werden entweder extrem gut oder extrem schlecht beurteilt

Welche Massnahmen gibt es zur Verbesserung der Gütekriterien von Verhaltensbeobachtungen?

Klare Instruktionen in Manual
Training/Schulung von Beobachter:innen & Beurteiler:innen
- Standardisierte videobasierte Lernzielkontrollaufgaben zur Überprüfung, ob Teilnehmende Verfahren beherschen
Erkennung von unsachgemässen Skalengebrauch durch Analyse der Antwortverteilungen (z. Bsp. bei Antworttendenzen)
- Nachschulung der Beobachter_inn und Ausschluss von Beobachter:innen bei klaren Antworttendenzen

Was kann zusammenfassend über Verhaltensbeobachtungen und -beurteilungen sowie dessen Wert gegenüber Fragebögen und Tests gesagt werden?

Verhaltensbeobachtungen und -beurteilungen eine Methode von vielen im “multimethodalen Handwerkskoffer” der psychologischen Diagnostik
VB liefern spezifische und zusätzliche Information zu Tests, Interviews etc.
Nebengütekriterium der Ökonomie i.d.R. weniger Vorteilshaft als bei Fragebögen und Tests
Im Vergleich zu Fragebögen und Tests gibt es weniger “fertige” Verfahren
- Vorallem deshalb, weil die Entwicklung von VB-Verfahren aufwändigen Entwicklungsprozess braucht, um reliable und valide Informationen als Entscheidungsgrundlage für die diagnostische Fragestellung nutzen zu können
- VB oft individuelle Verfahren, die anhand spezifischer Fragesetellung entwickelt werden
Freie VB liefert auch wertvolle Information in der explorativen Phase
- Verständnis über Operationalisierung der Eigenschaft, Entwicklung Kategoriesysteme etc.

Was ist das Diagnostische Interview? Welche weitere Differenzierung gibt es hier?

Verwendungszweck als Abgrenzungsmerkmal
Oberbegriff für alle Methoden zur Erhebung von diganostisch relevanten Informationen mittels Gespräch
Spezifizierung nach Art der zu erhebenden Information
- Anamnese: Gesprächsweise Erkundung der Vorgeschichte einer Erkrankung/Störung
- Exploration: Erkundung des subjektiven Lebensraums einer Person
- Einstellungs-/Auswahlgespräch: Information über Eignung einer Person für bestimmten Kontext (Studium oder Beruf)

Wo werden diagnostische Interviews am meisten eingesetzt und wie unterscheiden sich die beiden Einsatzbereiche?

Vorallem in der klinischen Diagnostik und Eignungsdiagnostik
Klinische Diagnostik;
- Interviews zur Diagnostik psychische Störung
- Mittel Manual über Testverlage vertrieben
Eignungsdiagnostik
- Fragen nach Anforderungen, die mit einer bestimmten Stelle verbunden sind -> Keine universell einsetzbaren Interviewverfahren (da je nach Stelle unterschiedliche Anforderungen)
- Mutlimodales Interview als Bauanleitung für Einstellungsgespräch

Welche drei Eigenschaften von diagnostischen Interviews können unterschieden werden?

Gesprächsmodus
- Face to Face
- Telefonisch
- Videocall
Grad der Strukturierung
Grad der Standardisierung

Wie sehen unterschiedlich stark standardisierte diagnostische Interviews aus?

Unstandardisiertes Interview
- Nur Zweck des Gesprächs steht fest (z. Bsp. Einstellung der Person für Berufstätigkeit)
- Fragen ergeben sich im Laufe des Gesprächs
- Zwei unstandardisierte Interviews können sich selbst bei identischer Fragestellung stark unterscheiden
Halbstandardisiertes Interview
- Standardisierung angesrebt, aber Festlegung auf exakte Wortlaute und Abfolgen nicht gewollt oder nicht möglich
- Themen mit stichpuktartig charakterisierten Fragen können als Vorlage dienen
Standardisiertes Interview
- Jede Frage im Voraus genau festgelegt und immer im gleichen Wortlaut vorzutragen
  - Drehbuch der Situation steht fest

Wie unterscheiden sich Strukturierung und Standardisierung im Zusammenhang mit diagnostischen Interviews?

Keine einheitliche Verwendung bzw. Unterscheidung
Strukturierung bezieht sich meist auf den systematischen Aufbau
- Es wird vorab festgelegt, welche Themen und Fragen wann und unter welche Umständen (je nach Antworten und vorhergegangenen Fragen) angesprochen werden
- Wortlaut kann standardisiert oder unstandardisiert sein
Teilweise als Sysnonym bzw. Einheit

Wie werden standardisierte diagnostische Interviews ausgewertet?

Standardisierung der Auswertung (Regeln)
- Meist bei jeder Frage Vergabe von Punkten für die Antworten
- Verhaltensverankerung hilfreich
Verrechnung über alle Fragen hinweg nach vorab festgelegten Regeln (z. Bsü. Gewichtung nach Anforderungsmerkmalen, Mindestewerte)

Was ist das SCID-5-CV und wie ist es aufgebaut?

Strukturiertes klinisches Interview für DSM-5 Störungen
Halbstrukturiertes Interview für die Diagnostik von psychischen Störungen nach DSM-5
- ca. 45 - 90 min
- Kann von Kliniker:innen oder geschultem Fachpersonal eingesetzt werden
- Leitet Anwender:innen Schritt für Schritt durch diagnostischen Prozess
Umfass DSM-5 Diagnosen, welche am häufigsten auftreten
in 10 relativ eigenständige diagnostische Module eingeteilt

Aus welchen 10 Modulen besteht das SCID-5-CV?

A: Affektive Episoden
- Depressive Episoden
- Manische Episoden
- Persistierende D. Störung
B: Psychotische und Assoziierte Symptome
C: Differenzialdiagnose Psychotische Störungen
D: Differenzialdiagnose Affektiver Störungen
E: Störungen durch Substanzkonsum
F: Angststörungen
G: Zwangsstörungen und Posttraumatische Belastungsstörung
H: ADHS
I: Screening für andere aktuelle Störungen
- Essstörungen
- Pathologisches Horten
- Gambling
- Dysphorie
- Intermittierende Explosive Störung
J: Anpassungsstörung

Weshalb ist es wichtig, dass klinische Interviews standardisiert werden?

Um mangelnder Objektivität entgegenzuwirken

Was kann zu den Gütekriterien des SCID-CV-5 gesagt werden?

Auswertungsobjektivität: Übereinstimmung zwischen Auswerter:innen
Kappa-Koeffizien im Mittel bei .70
- Je eindeutiger Symptome definiert sind, desto leichter wird das Vorliegen eines Symptoms erkannt
Retest-Reliabilität
- Bei n = 390 Personen über 21 Störungen hinweg Kappa von .61 mit erheblicher Variation zwischen Diagnosen
  - Bessere Werte für häufig vorkommende Störungen (Major Depression, Drogenabhängigkeit)
    -> Erkenntnis: Diagnose, welche Interviewer:in aufgrund von Patient:innenangabe stellt, hängt in erhelblichem Mass davon ab, wer Interview führt und auswertet
Gründe für unterschiedliche Retest-Reliabilität
- Merkmale der Interviewer:in wie Alter, Geschlecht etc.
- Unterschiedliche Auskünfte der Patient:innen
- Unterschiedliche Durchführung/Auswertung Interview
- Tatsächliche Veränderung (untwahrscheinlich)
Validität
- Schwer zu beurteilen
- Gute Validitätskriterien fehlen, weil Interviews in der Praxis als beste verfügbare Methode zur Diagnosefindung gelten (Goldstandard)
- Ergebnisse von Validitätsstudien sagen mehr über Validität der anderen Verfahrenals über die des Interviews aussagen

Welches ist die am weitesten verbreitete Methode zur Personalauswahl?

Vorstellungsgespräche/Eignungsinterviews

Welche zwei Fragenformate gibt es bei Einstellungsinterviews?

Biografische Fragen
- Frage nach realem Verhalten in eigener Biografie
- Annahme, dass vergangenes Verhalten Verhalten in der Zukunft voraussagt
Situative Fragen
- Schilderung von fiktiven Situationen in denen Anforderungen relevant sind
- Frage, wie sich Bewerber:in in Situation verhalten würde
- Annahme, dass geschilderte Handlungen auch in realen, zukünftigen Situationen gezeigt werden
Multimodales Interview

Was sind die Vor- und Nachteile von Situativen Fragen vs. biografischen Fragen in Einstellungsinterviews?

Biografische Fragen
- Zeigen sich in Metaanalysen durchgehend situativen Fragen überlegen -> höhere Validität (zwischen .56 und .63 vs. .43 und .47 für situative Fragen)
Situative Fragen
- Hilfreich, wenn Bewerber:innen noch keine Erfahrungen haben
- Situative Faktoren könnten vergangenes Verhalten beeinflusst haben
- Fragen können besser aus zukünftige Anforderungen angepasst werden
  -> Je nach Kontext können situative Fragen auch biografische Fragen ergänzen

Was ist das Multimodale Einstellungsinterview von Schuler (1992) und wie ist es aufgebaut?

Konstruktionsprinzip/Leitlinie zum Aufbau eines Einstellungsgesprächs
Multimodall weil unterschiedliche Methoden eingesetzt werden (situative und biographische Fragen als Herzstück (wichtigster Bestandteil))
Inhaltliche Ausgestaltung variiert in Abhängigkeit von der zu besetzenden Stelle
Verlauf
1. Gesprächsbeginn
  - Kurze informelle Unterhaltung
  - Hauptfunktion: Aufbau der Varfahrensablaufs
2. Selbstvorstellung der bewerbenden Person
  - Freier Bericht über persönlichen und beruflichen Hintergrund, ggf. Schwerpunkt definieren
3. Berufsinteressen und Berufswahl
  - 4 standardisierte Fragen zu Berufswahl, Berufsinteressen, Organisationswahl und Bewerbung
4. Freies Gespräch
  - Funktion: Auflockerung
  - Offene Fragen und Anknüpfen an Selbstvorstellung und Bewerbungsunterlagen
5. Biografiebezogene Fragen
6. Realistische Tätigkeitsinformation
  - Vermittlung von positiven Seiten sowie Probelme des Jobs
7. Situative Fragen
  - Auf CIT basierend
8. Gesprächsabschluss
  - Gelegenheit geben, Fragen zu stellen
  - Zusammenfassung, weitere Vereinbarungen
    -> Nur Abschnitte 2, 3, 5, 7 Bewertung anhand von Ratingskalen

Welche Urteilsfehler ergeben sich bei der Eignungsdiagnostik?

Interviewer:innen unterliegenpotentiell gleichen Fehlerquellen wie bei der Verhaltensbeobachtung
In Vorstellungsgesprächen versuchen auch Bewerber:innen sich von der besten Seite zu zeigen
Drei potenzielle Einfussfaktoren auf die Beurteilung gut erforscht
- Äusseres Erscheinungsbild
  - Bei niedrig strukturierten Interviews höchster Einflus auf Bewertung des Interviews (.88 vs. .18 bei hoher Strukturierung)
  - praktisch unbedeutenden Einfluss auf Berufserfolg (.14)
- “Impression Management”
  - Mittelässiger Einfluss auf Bewertung des Interviews, höher bei niedriger (.46) als bei hoher (.21) Strukturierung
  - Gleich wenig Aussagekraft auf Berufserfolg (.15)
- Verbales und nonverbales Verhalten
  - Einfluss auf Bewertung des Interviews höher bei niedriger (.69) als bei hoher Strukturierung (.37)
  - Bei hoher Strukturierung bedeutendster Urteilsfehler
  - .23 Zusammenhang Berufserfolg

Was kann zu den Gütekriterien von Einstellungsgesprächen gesagt werden?

Analog zu Fragebögen und Tests
Objektivität kann durch Standardisierung erhöht werden
Reliabilität: Beobachterübereinstimmung
- Bedeutend höher wenn Interviewers Interview zusammen leiten (.74) als getrennt (.44)
Validität
- Inhaltsvalidität: Anforderungsanalyse
- Zahlreiche Studien zu Kriteriumsvalidität
  - Abhängig von der Art

Wann ist die Konstruktion eines Interviews erforderlich und welche drei Aufgaben beinhaltet die Konstruktion eines Interviwes?

Erforderlich, wenn keine ausgearbeitete Interviews vorliegen, ein unstandardisiertes Gespräch jedoch nicht in Frage kommt
Die Erstellung eines guten Leitfadens beinhaltet mindestens drei Aufgaben:
- Anforderungsanalyse und Fragen identifizieren
- Grobaufbau des Leitfadens
- Feinaufbau des Leitfadens

Wie wird eine Anforderungsanalyse bei der Konstruktion eines Interviews durchgeführt?

Allgemeine Fragestellung gibt Hinweise auf Ziel
- Überlegung: auf welche Fragen möchte man durch das Interview Antworten finden?
- Lassen sich Informationen zuverlässiger und valider durch andere Verfahren erheben?
Wissen über Messgegenstand erforderlich
- Bei Eignungsfragen: Rückgriff auf vorliegende Anforderungsanalysen oder Durchführung einer eigenen Arbeits- oder Anforderungsanalyse
- Informationsentnahme aus einschlägiger Fachliteratur
Vorinformationen über Klient:innen nutzen
- Sichtung von Bewerbungsunterlagen, Zeugnisse, Akten usw.
- Telefongespräch oder Fragebogen
Es kann sinnvoll sein, eine Eigenschaft/Sachverhalt einer Person aus mehreren Quellen zu schöpfen (multimodales Vorgehen)
Zum Beispiel Ergänzung von Interviewinformation mit Testinformation

Was gehört in den Grobaufbau bei der Konstruktion eines Interviews?

Festlegung von Themeblöcken und Erstellung einer Reihenfolge
- Multimodales Interview als Beispiel für Grobstruktur eines Interviews

Welche Themen gehören in die Einleitungsphase und in die Abschlussphase eines Interviews?

Einleitungsphase
- Vorstellung weiterer beiteligten Personen mit Namen und Funktion
- Nennen der Ziele und Fragestellung
- Angaben zum Ablauf (Themen, Dauer, auf Möglichkeit für eigene Fragen hinweisen)
- Aufklärung über Rechte
- Information darüber, wer was erfährt
- Hinweis, dass Interviewer:in Schweigepflicht unterliegt
- Einverständnis Einholen bei Ton- und Videoaufnahmen
- Zur Überleitung auf Informationserhebungsphase itnerviewte Person nach kurzer Schilderung des Problems aus ihrer Sicht bitten
Abschlussphase
- Zusammenfassung der wichtigsten aus Interview gewonnenen Informationen
- Nachfrage, ob etwas wichtiges fehlt
- Klärung wichtiger Ergänzungen und Fragen
- Ansprechen eines neutralen Themas, falls interviewte Person sehr emotional erregt
- Vorstellung des weiteren Vorgehens

Was gehört in den Feinaufbau bei der Konstruktion eines Interviews? Welche Vor- und Nachteile haben fertig vorformulierte vs. stichpunktartige Fragen?

Ausformulierung von Fragen innerhalb eines Tehmenblocks
Fixierung durch Stichpunkte oder Ausformulierung
Vorteile fertig formulierter Fragen
- Entlastung Interviewer:in während Gespräch
- Hohe Standardisierung der Durchführung
Nachteile fertig formulierter Fragen
- Erhöhter Aufwand für Vorbereitung des Interviews
- Interview kann Charakter eines starren Abfragens annehmen

Was soll bei der Fragenformulierung beim Feinaufbau von Interviews beachtet werden?

Abschnitt möglichst mit offener Frage beginnen
Möglichst kurze und verständliche Sätze
Nach konkretem Verhalten fragen
Keine Suggestivfragen
Keine wertenden Fragen
Fachbegriffe und Fremdwörter meiden
Kontext als Gedächtnisstütze nutzen
-> Abweichungen möglich, z. Bsp. Fachbegriffe bei Personen mit Hochschulabschluss angemessen

Weshalb kann die (Vor)Konstruktion eines Interviews nützlich sein?

Sicherstellung, dass alle wichtigen Fragen gestellt werden
- Abhaken bereit beantworteter Fragen
Vergleichbarkeit von Interviews
Entlastung der Interviewer:in während Gespräch
- Mehr freie Kapazität für Verhaltensbeobachtung
Erleichterte Auswertung des Interviews
Bei Ankreuzen von Antwortkategorien direkte Verwertung der Antworten

Welche Probleme können sich bei der Gesprächsführung bei diagnostischen Interviews ergeben?

Geringe Gesprächsbereitschaft
Probandin scheint bei Thema abzublocken
- P gibt vor, sich nicht mehr erinnern zu können oder liefert vage Antworten
Es geht um heikle Themen
Proband:in schweift immer wieder ab

Wie kann man Personen bei diagnostischen Interviews zum Reden motivieren?

Über Ziele und Fragestellung sowie Ablauf des Gesprächs informieren
Überleitung von einem Thema zum anderen gibt nötige Orientierung
Offene Fragen zu Beginn eines Themenblocks
Vorgabe von Antwortalternativen
Aktives Zuhören

Wie sieht aktives Zuhören aus?

Vermittlung von Aufmerksamkeit
- Entspannte Körperhaltung
- ANgemessener Blickkontakt
- Nicken/hmm/aha -> signalisieren, dass man zuhört
Paraphrasieren: Äusserung mit eigenen Worten aufgreifen
Zusammenfassen: am Ende eines Themenblocks wichtigsten Aussagen zusammenfassen

Wie erkennt man in einem diagnostischen Interview Wiederstand und was ist Wiederstand?

Wiederstand = jeder bewusster oder unbewusster Versuch, Gesprächsthema zu vermeiden
Erkennungsmerkmale
- Direktes Ansprechen: Darüber möchte ich nicht sprechen
- Indirekte Anzeichen von Wiederstand:
  - Verspätetes Erscheinen zum Interview
  - Nonverbale Anzeichen
    - Gähnen
    - Erröten
    - Auf Uhr schauen
    - Blickkontakt meiden
    - Schweigen
- Verbales Vermeidungsverhalten
  - Sich nicht erinnern können
  - Thema wechseln
  - Unpräzise Angaben/Auslassungen

Wie kann man in einem diagnostischen Interview mit Wiederstand umgehen?

Verständnis zeigen
- Überzeugen, dass Ängste unbegründet oder negative Gefühle bei Thema normal/angemessen sind
Bei Schweigen abwarten
Fragen leich umformuliert wiederholen
Gefühle verbalisieren
Nachgereichte Begründung für die Frage (wieso ist sie wichtig?)
Unter Umständen Konfrontation

Wie kann man in einem diagnostischen Interview mit heiklen Themen umgehen?

Angemessene Einleitung von Fragen zu Themen, die Scham auslösen können
- Benennung des Themas und kurze Begründung, weshalb Frage dazu gestellt wird
- Einfache und direkte Formulierung kritischer Fragen
  - Eindruck vermeiden, dass es Interviewer:in selbst peinlich ist

Wie kann in einem diagnostischen Interview mit Abschweifen umgegangen werden?

Auf Ausgangsfrage zurückkommen
Äusserugn für Überleitung auf eigentliche Frage nutzten
Vermehrt geschlossene Fragen stellen
Paraphrasieren und das Wichtigste auffassen
Nonverbale Signale geben, dass Äusserungen nicht wichtig sind
- Mit dem Anfertigen von Notizen aufhören
- Verstärker (Nicken etc.) einstellen
Nonverbale Verstärker bei angemessenen Antworten

Wie unterscheiden sich Status- und Veränderungsdiagnostik und welche verschiedene Formen von Status- und Veränderungsdiagnostik gibt es?

Statusdiagnostik: Erfassen des aktuellen Zustandes
- Eingangsdiagnostik: Diagnostik um zu prüfen, ob Intervention erforderlich ist
Veränderungsdiganostik: Evaluation der Intervention als Erfolgskontrolle oder begleitende Prozessdiagnostik
- Erfolgskontrolle: wurde angestrebtes Ziel erreicht?
- Verlaufs-/Prozessdiagnostik: kontinuierliche Erfassung der zu verändernden Merkmalen und gegebenfalls Anpassung der Intervention

Was ist bei der Erfolgskontrolle durch Veränderungsmessung zu beachten? Was kann dagegen vorgenommen werden?

Probleme
- Einfluss von Drittvariablen kann Ergebnis beeinflussen
- Regression zur Mitte
- Testeffekte (= Übungseffekte)
Lösungsansätze
- Kontrollgruppen (bei wissenschaftlichen Untersuchunge)
- Bei Eizelfalldiagnostik Kontrollgruppen schwierig, aber diese Effekte bei der Evaluation dafür im Hinterkopf behalten

Wie unterscheide sich Selektions- und Modifikationsdiagnostik?

Selektionsdiagnostik: Suche nach Passung von Personen und Bedingungen bei vileen diagnostischen Fragestellungen
- Selektion von Personen -> welche Person passt zu diesem Setting?
  - Auszubildende
  - Studierende
  - Stellenbewerbende
- Selektion von Bedingungen -> welches Setting passt zu dieser Person?
  - Berufsberatung
  - Studienberatung
  - Trainingsmassnahmen
Modifikationsdiagnostik: Welche Merkmale der Person oder der Situation müssen verändert werden, um Passung herzustellen?
- Modifikationsdiagnostik von Verhalten -> wie muss Verhalten verändert werden, damit es in Setting passt?
  - Training
  - Ausbildung
  - Fortbildung
  - Coaching
- Modifikationsdiagnostik von Bedingungen -> wie müssen Bedingungen verändert werden, damit sie zu Person(en) pass(en)?
  - Anpassung der Arbeitszeiten
  - Anpassung der Arbeitsplatzes

Was ist ein diagnostisches Urteil?

Beantwortung einer Fragestellung
Unter Verwendung von bereits vorliegenden diagnostischen Informationen
-> meist am Ende eines diagnostischen Verfahrens

Wie lässt sich die Richtigkeit eines diagnostischen Urteils prüfen?

Lässt sich anhand von vorliegendes Kriteriumswerten prüfen
Forschungsfragen zur Richtigkeit diagnostischer Urteile
- Vergleich Laien vs. Expert:innen
- Varuation von Art und Umfang der zur Verfügung gestellten information
- Expert:innen vs. Computermodell
  - klinische vs. mechanische/statistische Urteilsbildung

Was tat und zu welchen Ergebnissen kam die Studie von Christiansen et al. (2010), welche die diagnostische Urteilsbildung von 160 Berater:innen aus der Personalauswahl untersuchte (bez. Präferen Persönlichkeit oder Kognition + Einfluss von Information zur sozialen Erwünschtheit)?

Studie untersuchte, wen Berater:innen für geeigneter hielten für eine Manager:innen-Position:
- Person A: sehr hoher IQ
- Person B: besonders günstige Persönlichkeitsmerkmale
Zusätzlich Untetrsuchung von Moderatorvariable soziale Erwünschtheit
Ergebnis
- Person B > Person A
  - d.h. günstige Persönlichkeit > hoher IQ
    - Dies, obwohl IQ besserer Prädiktor ist für Berufserfolg
- Moderatorvariable soziale Erwünschtheit
  - Wenn Person B sich sozial erwünscht darstellt, wird Person B als weniger geeignet eingestugt
  - SE hatte kaum Einfluss auf Einschätzung von Person A
  - Dies, obwohl soziale Erwünschtheit die Validität der Antworten nicht milxdert!

Was ist die klinische und was ist die mechanische Urteilsbildung? Welche weitere Form der mechanischen Urteilsbildung gibt es?

Klinische Urteilsbildung: Individuelle Urteile von Menschen (Diagnostiker:innnen)
Mechanische Urteilsbildung: Daten werden nach einer Formel verrechnte, die zuerst von empirischen Daten abgeleitet wurde
- Statistische Urteilsbildung: Wenn Formel durch statistische Analyse begründet ist

Was ist der Goldberg-Index?

Bekanntes statistisches Modell zur Einschätzung, ob Patient:in psychotisch ist
Abschätzung anhand von MMPI-Testergebnissen
Fünf Skalenwerte werden anhand der folgenden Formel verrechnet: L + Pa + Sc - Hy - Pt
- L = Lügenskala
- Pa = Paranoia
- Sc = Schizophrenie
- Hy = Hysterie
- Pt = Psychasthenie
Wenn Index über 45 liegt, gilt Patient:in als psychotisch
Ist klinischer Urteilsbildung durch Expertinnen überlegen (Trefferquote 74% vs. 68%)

Was ist besser, die klinische oder die mechansiche/statistische Urteilsbildung?

Mechansiche/Statistische Urteilsbidlung ist klinischer Urteilsbildugn überlegen:
- Goldberg-Index: Trefferequote 74% (vs. 68% bei klinischer Urteilsbildung)
- Meehl (1954): Auswertung von 22 Studie zum Vergleich von klinischen und statistischen urteilen -> Überlegenheit statistische Urteilsbildung
  - Deshalb galt statistische Urteilsbildung lange klinischer Urteilsbildung als überlegen
- Grove et al. (2000): Meta-Analyse von 136 Studien -> statistische Urteilsbildung überlegen, aber nur sehr kleiner Effekt

Welche Moderatorvariablen gibt es welche beeinflusse, wie stark die mechansiche/statistische Urteilsbildung der klinischen Urteilsbildung überlegen ist?

Mechansiche/statistische Urteilsbidlung klinischer Urteilsbildung besonder überlegen bei…
- Forensichen/medizinischen Kriterien/Urteilen
- Vorhersage von Gewalttätigkeit (d = .17)
- Auswertung von Informationen in Form von Interviewdaten
- Statistische Regressionsmodelle (d = .15 vs. d = .03 bei nicht-statistischer mechanischen Analyse)
- Kliniker:innen zusätztliche Informationen erhalten
- Kliniker:innen die statistische Formel kennen

Welche Probleme treten bei der klinischen Urteilsbildung auf (welche erklären, weshalb die mechanische Urteilsbildung überlegen ist)?

Menschen ignorieren oft die Bassirate
- Überschätzung von seltenten Diagnosten, wie z. Bsp. Hochbegabung
Falsche Gewichtung von Informationen
- Availability Heuristik: stärkere Berücksichtigung von Informationen, welche leicht verfügbar sind
- Halo-Effekt
Vernachlässigung der Regression zur Mitte

Welche sind die Grenzen der statistischen Urteilsbildung? Wie soll folglich in der Praxis mit der Verwendung der klinischen und mechansichen Urteilsbildung umgegangen werden?

Grenzen der statistischen Urteilsbildung
- Keine Universallösung
- Kann nur auf Daten basiere, welche für alle Proband:innen vorliegen
  - Je nach dem nicht ausreichend Information vorhanden
- Auswertung von nur einem Test zur Urteilsbildung unrealistisch
- Oft keine einschlägigen Forschungsergebnisse, welche Verrechnungsformel bergründen können
Umgang in der Praxis
- Vor- und Nachteile beider Methoden beachten und Nutzen
- Stateistischer Urteilsbildung nicht blind vertrauen, sondern durch klinische Urteilsbildung reflektieren (z. Bsp. individuelle Rahmenbedingungen be9i Rückfallprognose Straftäter:innen)
- Statistische Urteilsbildung immer präferieren, aber nicht ausschliesslich diese verwenden

Wie oft werden in der Praxis die klinische vs. die mechanische Urteilsbildung eingesetzt?

98% Psycholog:innen nutzen klinische Urteilsbildung
nur 4 von 180 Befragten nutzen ausschliesslich mechansiche Urteilsbildung
56% nutzten neben klinischer Urteilsbildung auch Informationen aus statistischen Modellen
47% nutzente nur klinsiche Urteilsbildung

Aus welchen Gründen nutzen viele Psycholog:innen die mechansiche Urteilsbildung nicht in der Praxis?

40% statistisches Modell nicht verfügbar
36% nicht gut genug mit Methode vertraut, um sie anzuwenden
32% kann nicht alle Faktoren berücksichtigen, die für Urteil nötig sind
32% glauben nicht, dass Methode so genau ist wie andere
27% zu teuer
23% ineffizient

Was sind kompensatorische, disjunktive und konjunktive Entschiedungsstrategien?

In diagnostischen Praxis werden meistens mehrere Prädiktoren erhoben -> Verschiedene Methoden, wie man diese Information verrechnet
Kompensatorische Entscheidungsstrategie
- Prädiktoren können sich gegenseitig ausgleichen
  - Prädiktoren können dabei aber auch unterschiedlich gewichtet werden
- Berechnung eines Summenwerts
- Implikation: ein und derselbe Prädiktionswert ist durch verschiedene Merkmalskonfigurationen in Einzeltests erreichbar
Disjunktive Entscheidungsstrategie
- Oder Strategie: Es muss kein Gesamtwert berechnet werden
- Hohe Punktewerte/Erreichen des Cutoff-Werts in einem der Prädiktoren genügt
- Sinnvoll, wenn die durch das Kriterium geforderte Leistung enweder auf die eine oder andere Weise erbracht werden kann
Konjunktive Entscheidungsstrategie
- Und-Strategie: Forderung nach Mindestleistung in allen Berreichen
- In beiden Präditkoren muss Mindestwert erreicht werden
- Konservativeres Vorgehen -> Anforderungen für die Kategorie der Zugelassenen sind höher
Kombination der Strategien:
- Kombination kompensatorische und konjunktive Strategie:
  - Prädiktor A kann Prädiktor B zwar ausgleichen, aber Prädiktor B muss trotzdem gewissen Mindestwert erreichen (welcher aber niedriger ist wenn A hoch ist)
  - Oder auch nach Anwendung der Konjunktiven Strategie Probandinnen wählen, wessen Werte sich besser ausgleichen

Welche Ein- vs. Mehrstufige Entscheidungsstrategien gibt es?

Einstufige Entscheidungsstrategien
- Single Screen: Auf ein diagnostisches Verfahren allein fussen alle Entscheidungen
  - d.h. z. Bsp. eine Prüfung, wenn Cut-off Wert erreicht wird dann bestanden
  - Beispiel: Psychologie-Prüfungen einzelner Vorlesungen
- Nicht-sequenzielle Batterie: gesamte Batterie des diagnostischen Verfahren wird allen Probandinnen vorgelegt
  - d.h. z. Bsp. mehrere Prüfungnen, welche alle Proband:innen ausführen und dann ausgewertet werden
  - Beispiel: Propedäutikum
Mehrstufige/Sequentielle Entscheidungsstrategien
- Vorauswahl-Strategie:
  - Pre-reject
    - Nach einem Test werden alle Personen, welche Mindestwert nicht erreicht haben, von weiteren Untersuchungen ausgeschlossen
    - Verbleibende Proband:innen absolvieren weitere Verfahren
    - Entscheidung über Annahme von Proband:innen wird aus Kombination zwischen Erst- und Folgetetst getroffen
    - Beispiel: Vorstellungsgespräch/Stellenausschreibung
  - Pre-accept (Vorentscheidungs-Strategie)
    - Nach einem ersten Test werden alle Proband:innen, welche einen Mindestwert überschreiten (sehr hohen Wert) akzeptiert
    - Mit verbleibenden Probandinnen werden weitere Tests druchgeführt
    - Entscheidung über Annahme oder Ablehnung wird aus Kombination zwischen Erst- und Folgetest getroffen
    - Beispiel: Aufnahme bei ZHAW Master, wobei man bei einem gewissen BA Notenschnitt kein Aufnahmeverfahren machen muss
- Vollständig sequentielle Strategie
  - Kombination von Vorausahl- und Vorentscheidungsstrategie
  - Anhand der Testergebnisse erfolg Zuteilung:
    - Terminal akzeptiert
    - Terminal abgewiesen
    - Folgetest
  - Entscheidung über Annahme oder Ablehnung der Folgetestgruppe wird aufgrund von Kombination von Erst- und Folgetest getroffen
  - Beispiel: Gymi-Aufnahmeprüfungen mit alternativen Mündlichprüfungen

Was ist besser, einstufige oder mehrstufige/sequentielle Entscheidungsverfahren?

Tendenziell sequentielle Entscheidungsverfahren besser
Aber: Kopplung an Nurtzenüberlegungen
- z. Bsp. gibt mehrstufiges Verfahren in diesem Fall ökonomisch Sinn?

Was sind Cut-Off Werte? Wann würde es zu einem Optimalen Cut-Of Wert kommen?

Sinn von Cut-Off Werten: auf Basis von dimensionalen Testwerten spezifisieren, dass ein Schwellenwert erreicht wurde -> so können Entscheidungen zu Klassifikationen vorgenommen werden
Optimaler Cut-Off Wert wenn Verteilungen garnicht überlappen, d.h. wenn z. Bsp. Werte von gesunden und von kranken Menschen garnicht überlappen/klar trennbar sind
- in der Praxis praktisch nicht gegeben -> Deshalb festlegen von Cut-Off Werten nötig

Welche Formen von Zuordnungsentscheidungen (Falsch Positiv etc.) und Zuordnungsfehlern gibt es?

Zuordnungsentscheidungen
- Richtig Positiv: Testperson erfüllt Kriterium und wird auch entsprechen zu Betroffenengruppe zugeteilt
- Richtig Negativ: Testperson erfüllt Kriterium nicht und wird auch entsprechen NICHT zu Betroffenengruppe zugeteilt
- Falsch Positiv: Testperson erfüllt Kriterium nicht, wird aber fälschlicherweise zu Betroffenengruppe zugeteilt
- Falsch Negativ: Testperson erfüllt Kriterium, wird aber fälschlicherweise NICHT zu Betroffenengruppe zugeteilt
Zuordnungsfehler
- Fehler 1. Art/Alpha-Fehler
  - Falsche Positive
  - Personen werden fälschlicherweise Betroffenengruppe zugeteilt
- Fehler 2. Art/Beta-Fehler
  - Falsche Negative
  - Personen werden fälschlicherweise Betroffenengruppe NICHT zugeteilt

Was sind

Sensitivität
Spezifität
Positiver Prädiktorwert
Negativer Prädiktorwert
1- Sensitivität
1-Spezifität
… und was sind die dazugehörigen Berechnungsformeln?

Sensitivität
- Trefferquote
- Wahrscheinlichkeit, mit der vorliegender positiver Zustand erkannt wird
- Formel: richtig positive/ richtig positiv + falsch Negative
Spezifität
- Quote korrekter Ablehnung
- Wahrscheinlichkeit, mit der vorliegender negativer Zustand erkannt wird (d.h. WSK mit der erkannt wird, dass Person NICHT betroffen ist)
- Formel: Richtig Negative/richtig Negative + falsch Positive
Positiver Prädiktorwert: Wahrscheinlichkeit, mit der positive Diagnose zutreffend ist
Negativer Prädiktorwert: Wahrscheinlichkeit, mit der negative Diagnose zutreffend ist
1-Sensitivität: Verpasserquote
- Formel: falsche negative/falsche Negative + richtig Positive
1-Spezifität: Quote falscher Alarme
- Formel: falsch Positive/falsch Positive + richtig Negative

Wie ist die Beziehung zwischen Sensitivität und Spezifität? Wie kann damit umgegangen werden?

Sensitivität und Spezifität sind abhängig vom Cut-Off Wert
Ob man eher Sensitivität oder Spezifität stärker gewichten möchte ist abhängig von Fragestellung
In vielen Fällen nicht klar, ob Sensitivität oder Spezifität zu priorisiere sind -> in einem solchen Fall Cut-Off Wert wählen, welcher beides optimiert anhand von folgenden Methoden:
- ROC-Kurve + Youden Index
- Taylor-Russel Tafeln
Wenn man Cut-Off Wert nicht wählen kann (z. Bsp. schon festgelegt, dass 20 Bewerbende

Was ist die ROC-Kurve und der Youden-Index und wie können diese Interpretiert werden?

Methoden, um optimale Balance zwischen Sensitivität und Spezifität herauszufinden
ROC-Kurve:
- Graphische Darstellung
- Graphik mit…
  - X-Achse: 1-Spezifität
  - Y-Achse: Sensitivität
  - Diagonale gestrichelte Linie
- Optimale Balance an oberen linken Ecke
  - Je weiter die beiden Verteilungen auseinander liegen, desto eher verlaufen ROC Kurven an der linken oberen Ecke
- Bei vollständig übereinanderliegender Verteilung verläuft ROC-Kurve auf gestrichelter Diagnoale
  - Anders gesagt: in diesem Fall wäre eine Sensitivität nahe 1 nur durch eine Spezifität nahe 0 zu erreichen (und umgekehrt)
Youden-Index: rechenrische Bestimmung des optimalen Cut-Off Werts
- Sensitivität + Spezifität - 1
- Cut-off mit höchstem Index wird gewählt

Wie hängt die Grundrate/Basisrate mit Spezifität, Sensitivität, Prädiktionswerten und mit dem Cut-Off Wert zusammen?

Sensitivität und Spezifität lassen sich unabhängig von Grundrate/Prävalenz bestimmen
- ABER: Prädiktionswert (Wahrscheinlichkeit für richtig Positiv/richtig Negativ) ist von Prävalenz/Grundrate abhängig
Durch Verringerung der Grundrate des zu entdeckenden Zustandes…
- verschlechters sich der positive Prädikitonsrwert (Wahrscheinlichkeit betroffen zu sein, wenn man als betroffen kategorisiert wird)
- Verbessert sich der negative Prädiktionswert (Wahrscheinlickeit nicht betroffen zu sein, wenn man als nicht-betroffen eingestuft wird)
Cut-Off Wert: bei mehr Bewerberinnen verschiebt sich der Cut-Off Wert nach unten (d.h. wenn man 20 BewerberInnen von 100 wählen muss -> 20% Cut-Off wert, bei 20 Bewerber_innen von 200 -> 10% Cut-Off Wert) -> so kann Trefferquote/Positiver Prädiktionswert erhöht werden

Was sind Taylor-Russel Tafeln?

Dienen dazu, die Trefferquote eines Instruments zu bestimme in Abhängigkeit von der
- Validität des Instruments
- der Selektionsrate (d.h. Verhältnis zwischen Anzahl Auszulesenden und Bewerbenden)
- Basisrate
Zusammenhang zwischen genannten Grössen stellt sich wie folgt dar:
- Je höher die Basisrate, desto höher die Erfolgrate
- Je niedriger die Selektionsrate, desto höher die Erfolgsrate
- Niedrige Basisrate in Kombination mit hoher Selektionsquote erfordert hohe Validität des Verfahrens
  -> d.h. wenn einen Job Grossteil der Bewerbenden gewählt wird (Selektionsrate) und die Anzahl der geeigneten Bewerbenden in der Bevälkerung niedrig ist (Basisrate), dann muss ein hochvalides Instrument gewählt werden

Was ist die Arbeits-, Organisations- und Wirtschaftspsychologie?

Arbeits-, Organisations- und Wirtschaftspsychologie befasst sich mit Wechselwirkung zwischen
- Arbeits-, Organisations- und Wirtschaftszusammenhängen einerseits und
- menschlichen Erleben und Verhalten andererseits
Befunde können von Unternehmen genutzt werden, um
- aktiv aktuelle und zukünftige Arbeitsbedingunge zu gestalten
- Passung zwischen Beschäftigten und Arbeitskontext zu erhöhen
- um so die Gesundheit, Motivation und Leistungsfähigkeit von MA zu fördern

Was ist Organisationsdiagnostik?

Diagnostik der psychologischen Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen
Ziel: Beschreben, Erklären und Vorhersage von…
- Regelhaftigkeit im Erleben, Verhalten und in der Interaktion einer Organisation

Welche Datenquellen nutzt die Organisationsdiagnostik?

Analyse von Dokumente (z. Bsp. Organisationsdiagrammen)
Organisations- und betriebwirtschaftliche Statistiken (z. Bsp. Fluktuation)
Befragung von
- Schlüsselpersonen
- Führungskräften
- MA
Gruppendiskussionen
Analyse von Interaktionen
Beobachtungen am Arbeitsplatz
Physikalische Methoden (Messung von Lärm, Beleuchtung)
Physiologische Methoden (Messung von Beanspruchung, Stress)

Welche Merkmale von Organisationen/Tätigkeiten sind relevant für die Organisationsdiagnostik?

Berufliche Aufgaben
Befriedigungspotential einer Tätigkeite
Berufliche Anforderungen
Team-/Organisationsklima
Werte einer Organisation
Führungsstile
Gesundheitsförderliche/-schädliche Aspekte

Was ist eine Arbeitsanalyse?

Systematische Erfassung und Bewertung von Informationen über die Interaktion von Mensch und Arbeitsbedingung
In der psychologischen Arbeitsanalyse geht es um die Analyse und Bewertung der Arbeitsaufgaben und der Arbeitsbedingungen -> Arbeitsaufgabe/Bedungungen im Zentrum

Was ist eine Anforderungsanalyse?

Untersucht die Merkmale eines…
- Arbeitsplatzes
- Ausbildung
- Beruf/beruflicher Tätigkeit
welche für beruflichen Erfolg oder berufliche Zufriedenheit bedeutsam sind
Aus Anforderungsanalyse gehen relevante Merkmale und dessen Ausprägung hervor
Systeaitsche Analyse von Anforderungen und Motivations-/Demotivationspotenzial der Tätigkeit
Ziel: Ermittlung relevanter Eignungsmerkmale von Personen sowie deren Ausprägung bzgl.
- der erforderlichen Leistungen
- der Zufriedenheit mit dem Arbeitsplatz, dem Aufgabenfeld, der Ausbildung bzw. dem Studium
  oder dem Beruf

Wie unterscheidet sich die Aufgabenanalyse von der Anforderungsanalyse?

Aufgabenanalyse bezieht sich auf Arbeit/Tätigkeit -> Anforderungsanalyse leitet aus dieser Kenntnis ab, welche Merkmale Menschen aufweisen sollten, um diese Tätigkeit erfolgreich zu erledigen

Welche Erhebungsmethoden gibt es bei Aufgaben- und Anforderungsanalysen?

Arbeitsplatzanalytisch-empirische Methode (Aufgabenanalyse)
- Metkmale der Stelle anahand standardisierter Information
Personenbezogene-empirische Methoden (Anforderungsanalyse)
- Empirische Korrelation zwischen Persönlichkeitsmerkmalen und Kriterien des Ausbildungs- oder Berufserfolgs
- Aus eigener Institution oder aus Forschung (insb. Meta-Analysen)
Erfahrungsgeleitet-intuitive Methode (beide)
- Freie, nicht formalisierte Beurteilung basierend auf fachliche Expertise
- Interviews oder Workshops mit Stelleninhaber:innen oder Vorgesetzten

Welche Instrumente gibt es welche für die Aufgabenanalyse (arbeitsplatzanalytisch empirisch) genutzt werden können?

Fragebogen zur Arbeitsplatzanalyse (FAA)
Tätugkeitsbewertungssystem (TBS)
Work Design Questionaire (WDQ)
Umwelt-Strukturtest (UST)

Was ist das Tätugkeitsbewertungssystem (TBS)?

Standardisiertes System um Job zu beschreiben und Kompetenzen zu finden, welche besonders wichtig sind
Wird v.a. zur Arbeitsgestaltung eingesetzt
52 Items sollen 5 Dimensione erfassen:
1. Organisatorische und technische Bedingungen
2. Kooperation und Kommunikation
3. Verantwortung, die aus dem Arbeitsauftrag folgt
4. Erforderliche kognitive Leistungen
5. Qualifikations- und Lernerfordernisse
Ziel:
- objektive Gegebenheit einer Arbeitstätigke analysieren und bewerten
- Persönlichkeitsförderlichkeit einer Tätigkeit bewerten
- Ursachen von arbeitsbedingten Beeinträchtigungen bewerten (z. Bsp. psychische Ermüdung, Stress)

Welche sind die besten Methoden um passende Bewerbende zu finden?

Strukturierte Eignungsinterviews
Arbeitsproben
Kognitive Tests, Integritätstests, Jobwissenstests
-> auch eine Glaubensfrage, nicht klare Übereinstimmung bei unterschiedlichen Analysen/Studien
Auch immer bedenken, was ökonomisch/ökologisch sinnvoll ist

Was ist, was macht und wie funktioniert die Critical Incident technique (CIT)?

Auf fast alle Stellen anwendbar, auch ausserhalb des A&O Bereichs
Ablauf
- Führungskräfte/MA sollen Verhaltensweisen beschreiben, welche (bei MA) zu Erfolg/Miserfolg geführt haben
- Antworten werden zu Kategorien ähnlicher Verhaltensweise gruppiert
  - können je nachdem auch unterschiedlich gewichtet werden
- Häufigkeit bestimmter Nennungen nur Hinweis auf Bedeutsamkeit
- Wichtigkeit der genannten Ereignisse soll von Vorgesetzte/MA eingeschätzt werden
- ergibt Kriteriumsraster
  - Sollte sich nicht allzu stark von Metaanalysen unterscheiden

Wie werden eignungsdiagnostische Verfahren definiert? Was sind die Ziele von eignungsdiagnostischen Verfahren?

Methodologie der
- Entwicklung
- Prüfung
- Anwendung
psychologischer Verfahren zum Zwecke
- eignungsbezogener Erfolgsporgnosen und
- Entscheidungshilfen im beruflichen Kontext
Ziele
- Berufsfeldentschiedung
- Bewerberauswahl
- Wiedereingliederungsentscheidung
- Karriereentscheidung

Welche eignungsdiagnostische Verfahren werden in Deutschland am häufigsten verwendet, welche haben von 2007 bis 2008 abgenommen und welche haben zugenommen?

Häufig verwendet
- 72% strukturierte Interviews
- Referenzen
- AC
zugenommen
- Online-Leistungstests
- Online-Persönlichkeitstest
- Telefoninterview, strukturiert
Abgenommen
- AC
- unstrukturierte Interviews
- Referenzen
- Kongitive Leistungstest

Welche eignungsdiagnostische Verfahren werden in der Schweiz am häufigsten verwendet?

80% Srukturierte Interviews
80% Referenzen -> schwer auf Validität zu prüfen
63% Arbeitsproben
40% strukturierte Interviews

Was ist der Trimodale Ansatz von Schuler und Höf (2007)?

Multimethodale eignungsdiagnostisches Verfahren
Umfassende Beurteilung der Eignung einer Person
Drei Kategorien von Anforderungen
- Aufgabe und Ergebnise -> kann mit Simulationsorientierten Verfahren oder Biografieorientierten Verfahren erhoben werden
- Verhalten -> kann mit Biografieorientierten Verfahren erhoben werden
- Eigenschaften -> können mit allen drei Verfahren erhoben werden
Drei Kategorien von Verfahren
- Simulationsorientierte Verfahren:
  - AC
  - Cimputersimulationen
  - Arbeitsproben
- Biografieorientiert Verfahren:
  - Interview
  - Kenntnisprüfung
  - Analyse Bewerbugnsunterlage
  - Biografische Fragebögen
- Eigenschaftsorientierte Verfahren:
  - Intelligenztests
  - Persönlichkeitstests
  - Leistungstests

Welche eignungsdiagnostische Verfahren sagen den Ausbildungs- und Berufserfolg am besten voraus?

Kognitive Leistugnstests sagen beides am besten voraus
Berufserfolg wird auch noch gut vorausgesagt von
- Arbeitsproben
- Leistungstests
- Strukturierten Interviews

Welche Probleme treten bei eignungsdiagnostischen Verfahren auf?

Kosten
Faireness
Aufwendig
Effekte sozialer Erwünschtheit
Objektivität
Oft wenig standardisiert
Verfahren sind auch Form von Produkt (z. Bsp. AC), will man überhaupt schlechte Validität herausfinden?

Was ist das DIN 33430?

Hilfestellung für Anforderungen an diagnostische Verfahren
Kein Gesetz, aber wird ab und zu bei Gericht heangezogen
Qualitätskriterien und -standards für berufsbezogene Eignungsdiagnostik
- Qualifikation der beteiligten Personen
- Qualifiaktion der verwendeten Instrumente
- Zusammenspiel und Design von Prozesschritten und Abläufen
Kann in Checkliste überprüft werden
Zertifizierung von Personen über unabhängige Zertifiizierungsstelle
Anforderungen an diagnostische Verfahren
- Bezug zu den Anforderung transparent machen
- Handhabung muss erklärt sein
- Objektivität, Reliabilität, Validität
- Genügen Informationen für kritische Bewertung

Was ist das SN33430?

Hilfestellung für Anforderungen an diagnostische Verfahren in der Schweiz, angelehnt an deutsche Version (DIN33430)
beschreibet, wie
- Personalentscheidungen vorbereitet
- Beurteilungen durchgeführt
- Eignungsrelevante Information ausgewählt
- werden
Zertifizierung als Institut oder Person (wie in DE) (noch) nicht möglich

Was sind Assesment Centers?

Eingnungsdiagnostisches Verfahren zur Potenzial- und Eignungsbeurteilung
Im Rahmen von Personalauswahl- oder Entwicklungsfragestellungen
Kombination mehrere Methoden
Teilnehmende werden von mehrereh Assessorinnen beobachtet und beurteilt
Besonderheit Simulationsprinzip: Nutzung von Simulationen als spezifische Charakteristk des AC-Ansatzes die einen komplexen Zugang zu komplexen berufsbezogenen Verhaltenskompetenzen ermöglicht

Welche sind die 5 Prinzipien von Assessment Centers?

Anforderungsbezug: Erfassung von für die Tätigkeit relevanter Merkmale und Verhaltensweisen (spezifisch)
Simulation: Übungen und Fallstudien sollen dem später erwarteten Arbeitsverhalten möglichst ähnlich sein
Methodenvielfalt: Jedes Anforderungsmermal wird mit verschiedenen Verfahern erfasst
Einsatz mehrere Beobachter:innen: Erhöhung der Reliabilität durch Aggregration
Transparenz: Teilnehmer:innen werden vor AC über Übungen und Anforderungskriterien informiert
-> AC nicht EIN Verfahren

Welche typischen AC Methoden gibt es und welche werden am häufigsten eingesetzt?

87% Gruppendiskussionen (zu kontroversen Themen) -> gemeinsame Lösung finden
- je nach dem wird Kooperation oder Durchsetzungsvermögen beobachtet
- 41% mit Rollenausweisung
- Teilweise auch geführte Gruppendiskussionen
76% Rollenspiele
- z. Bsp. Verkaufsgespräch
- Rollenspiele mit anderen Teilnehmenden oder mit Assessor:innen (76% mit professionellen Rollenspieler:innen)
- 1-6 Mitspielenden
76% vorbereitete Präsentation
- 1-120 min Vorbereitung (Md. 25 Min)
- 3-45 Minuten dauer (md. 10 Min)
- Auch unvorbereitete Präsentationen werden eingesetzt
70% Interview (standardisiert)
64% Selbstvorstellung
47% Postkorb unter Zeitdruck bearbeiten und entscheidungen treffen
- Geht darum, richtige Aufgaben zu priorisieren
- Bei domänenspezifischem Kontext wird Postkorb mehr akzeptiert von Teilnehmenden, aber keine Validitätsunterschiede
Fallstudie zu komplexem Branchenspezifischen Theman (mit Zeitdruck) bearbeiten
- Geht oft mehr um Lösungsweg als um eigentliche Lösung
Oft auch Einsatz von traditionellen Persönlichkeits- und Leistungstests

Was kann zur Durchführung von AC Aufgaben gesagt werden?

Aufwändige Vorbereitung (ink. Schulung Assessor:innen)
Durchführung so weit wie möglich standardisiert
Teilnehmende erhalten je nach Übung unterschiedliche Materialien
Für Interview müssen Aufgaben ausgearbeitet werden (ink. Kriterien - Übunsgmatrix -> verschiedene Verfahren, welche dafür eingesetzt werden, einzelne Kompetenzen zu messen

Was kann zur Auswertung von AC Aufgaben gesagt werden?

Strikter Trennung Beobachtung und Beurteilung
Beobachter:innenkonferenz: Beobachter:innen tauschen sich aus
Verhaltensverankerte Skalen zur Beurteilung -> hilft Assessor:innen, zu ähnlciher Einschätzung zu kommen
Schulung der Beobachter:innen im Gebrauch von Skalen und in ihren Aufgabne unterlässlich -> sehr wichtig für Validität

Was kann zur Reliabilität von ACs gesagt werden?

Meisten Befunde beziehen sich auf Interrateragreement (Übereinstimmung Beurteiler:innen)
- Eigentlich Auswertungsobjektivität
- Spanne von .5 bis .98, Median .75
- Beobachter:innenübereinstimmung stark abhängig von Beobachter_innentraining
Retest-Reliabilität
- Wird kaum erhoben, da Wiederholung des ACs sehr kostspielig ist
- Entsprechend kaum qualitativ hochwertige Studien vorhanden

Was kann zur Kriteriumsvalidität von ACs gesagt werden?

Zusammenhänge mit beruflichen Kriterien variieren
- Validität hängt auch von Faktoren ab wie
  - Alter der Studien
  - Einbezug von Intelligenztests
  - durchgeührte Korrekturen
  - Kennwert für die Beurteilung im AC
- Im Durchschnitt Validität von .37 (viele andere Methoden höhere Konstruktvalidität)

Was kann zur Konstruktvalidität von ACs gesagt werden?

Ergebnisse unklar und unbefriedigend
Niedrige Korrelation von AC-Dimensionen mit
- relevanten Perönlichkeitseigenschaften (zwischen (-) .01 und (-) .13)
- Intelligenz (zwischen .17 und .29)
Zu niedriger konvergente, zu hohe divergente Validität
- Dimensionen korrelieren über die Übungen hinweg zu niedrig
- Korrelationen zwischen den Dimensionen fallen zu hoch aus
Beurteilende differenzieren zu schlecht zwischen den zu beurteilenden Dimensionen -> Halo Effekt?
ABER: aus Kriteriumsperspektive funktionieren ACs trotzdem -> nicht ganz klar wieso, aber klappt irgendwie

Was kann dazu gesagt werden, dass sich einige Teilnehmende auf ACs vorbereiten?

Vorebreitung mit Literatur, Internetrecherche zu Abläufen konkreter ACs.
- kann sich sowohl positiv als auch negativ auswirken
- Unterschiedliche Erfahreungen der Teilnehmenden
Erfahrene AC-Teilnehmende werden besser beurteilt
- ABER: tatsächliche Verbesserung der Merkmale nicht auszuschliessen

Was ist das Work Design Questionaire und welche Merkmalsbereiche deckt es ab?

Arbeitsplatzanalytishc-empirisches Verfahren zur Arbeitsanalyse
Erhobene Merkmalsbereiche
- Aufgabenmerkmale
  - Autonomie
    - Planung
    - Entscheidungen
    - Methode
  - Aufgabenvielfalt
  - Wichtigkeit
  - Ganzheitlichkeit
  - Rückmeldung durch die Aufgabe
- Wissensmerkmale
  - Komplexität
  - Informationsverarbeitung
  - Problemlösen
  - Anforderungsvielfalt
  - Spezialisierung
- Soziale Merkmale
  - Soziale Unterstützung
  - Initiierte Interdependenz (können andere Arbeit beenden, wenn man eigene Aufgabe nicht fertig hat?)
  - Rezipierte Interdependenz
  - Interaktion ausserhalb der Organisation (z. Bsp. Kommunikatoin mit externen Firmen, Liefereant_innen etc.)
  - Rückmeldung durch andere
- Kontextuelle Merkmale
  - Ergonomie
  - Physische Anforderungen
  - Arbeitsbedingunge
  - Technikgebrauch

Welche sind die Aufgaben der klinischen Diagnostik?

Qualitative und quantitatie Beschreibung der vorliegenden (psychischen) Störung/ Symptome
Klassifikation psychischer Störungen
Anamnese: Exploration besonderer lebensgeschichtlicher Bedingungen bei Entstehung und Verlauf von Störung
Verlaufsdianostik/adaptive Diagnostik: Beobachtung des Verlaufs bei der Intervention und Veränderung der Sympotmatik
Evaluation des Therapieerfolgs
Prognose

Was kann zur Indikation und zu den Indikationsformen in der psychologischen Diangostik gesagt werden?

Psychologische Diagnostik ist im klinischen Kontext umfassender zu konzeptualisieren -> diagnostische Aussagen als Handlungsweisungen für therapeutische Entscheidungen
Verschiedene Inikatinosstellungen in der Psychotherapie, bestehen aus hierarchischen Entscheidungen
- Psychotherapie-Indikation: ist in diese Fall Psychotherapie überhaupt angezeigt? -> Klassifikation psychischer Störungen
  - Behandlungsbezogene Indikation: Welche Massnahmen sind agebracht?
  - Differentielle Indikation: sind gewisse Massnahmen besser geeignet als andere?
  - Selektive Indikation: Zuordnungsproblem, Selektionsstrategie
    - Adaptive Indikation: Anpassung der therapuetischen Intervention an Einzelfall
    - Prozessurale Indikation: Wie können Massnahmen an Verlauf der Behandlung angepasst werden?

Welche Klassifikationssysteme für psychische Störungen sind besonders bekannt und wie unterscheiden sie sich (Nutzen, Gebrauch in der Schweiz, zugehörige Messinstrumente etc.)?

	DSM-5	ICD-10
Allgemeiner Nutzen	Spezifischer Bezug auf psychische Störungen	geht um alle existierenden Krankheiten -> Kapitel 5F psychische Störungen
Gebrauch in der Schweiz	Hauptreferenz für die Forschung	Hauptreferenz für Diagnostestellung
Beschreibung der Krankheiten	Ausführlich, mehrere Seiten zu gleicher Störung, explizite Auflistung von Sympotmen Versuch von Transfer in andere Klassifikationssysteme	Relativ kurze Beschreibung, allgemeine Merkmale und unterschiedliche Formen Kapitelgliederung
Zugehörigen Messinstrumente	SCID-5-CV und SCID-5-PD	IDCL, IDCL-P

Welche Kritik an den Klassifikationssystemen von psychischen Krankheiten (ICD-10 und DSM-5) gibt es (auch spezifisch auf Persönlichkeitsstörungen bezogen)?

Zugrundeliegendes normatives Modell einer gesunden Persönlichkeit unklar
Kategoriale Einteilung von latenten Merkmalen problematisch, da latente Merkmale kontinuierlich verteilt sind
Diagnostischer Schwellenwert willkürlich festgelegt
Annahme der Gleichgewichtung aller Kriterien für bestimmte PD empirisch nicht halbtar
Zeitliche stabilität von kategorialen PD Diagnosen eher gering
Zuordnung der Kriterien zu den Kategorien entspricht nicht empirischer Kovariation

Welche Verfahrenstypen werden in der klinischen Diagnostik eingesetzt?

Diagnostisches Gespräch und strukturierte und standardisierte Interviews
Fragebogen und Tests
Projektive Verfahren
Beobachtungsmethoden
Psychophysiologische und biologische Verfahren

Welche Rolle spielt das diagnostische Gespräch in der klinischen Diagnostik und was ist erforderlich, um ein solches Gespräch erfolgreich durchzuführen?

Zentraler bestandteil der psychologisch-klinischen Diagnostik
Erfordert…
- theoretisches Wissen (Stärungswissen, Veränderungswissen)
- Spezifische praktische Fähigkeiten
  - Interaktionskompetenzen
  - Empathische Grundhaltung bei gleichzeitiger Professionalität
  - Aufbau einer guten Beziehung mit Klient:innen
Je nach Kontext ist die Diagnostik mehr oder weniger eine abgegrenzte Tätigkeit

Welche sind die Funktionen des klinsch-psychologischen Interviews?

Exploration der aktuellen Problematik
- Beschreibung des Problems und der aktuellen Beschwerden und Einschränkungen
  - Häufigkeit und Dauer
  - Intensität
  - Situations- und Kontextabhängig
  - Gedanken und Gefühle
  - körperliche Reaktionen
  - Reaktionen des Umfelds etc.
- Validierung (Abgleich des Erklärungsmodells mit Ratsuchenden)
- Kommunikation (Abstimmun): Verständnis zentral für Erfolg der therapeutischen Intervention
Exploratoin der Problemvorgeschichte und biografische Anamnese
- Entstehungsbedingungen, Information zur Lebensgeschichte

Welche standardisierten Interviews können zur Diagnose von Symptomstörungen und zur Diagnose von Persönlichkeitsstörungen eingesetzt werden?

Symptomstörungen	Persönlichkeitsstörungen
IDCL: Internationale Diagnosecheckliste für ICD-10	IDCL-P: Internationale Diagnosecheckliste für ICD-10 für Persönlichkeitsstörungen
SCID-5-CV: Strukturiertes klinisches Interview für DSM-5-Störungen klinische Version	SCID-5-PD: : Strukturiertes Klinisches Interview für DSM-5 – Persönlichkeitsstörungen
DIPS Open Access (Kurzinterview und Kinder- und Jugendversion)	IPDE: International Personality Disorder Examination
CIDI und DIA-X-CIDI (Computerversion): Composite International Diagnostic Interview

Was macht das SCID-5-CV, für wen ist es geeignet, wie ist es aufgebaut, und wie sind dessen Cutoffwerte und Gütekriterien?

Diagnose der häufigsten psychischen Störungen nach DSM-5
ab 18 Jahre
Dauer: 45-90 Minuten
Halbstrukturiertes Interview: zu jedem DSM-5 Kriterium gibt es Interviewfragen
10 eigenständige Module
- A: Affektive Episoden
- B: Psychotische und assoziierte Symptome
- C: Differenzialdiagnose Psychotischer Störungen
- D: Differenzialdiagnose Affektiver Störungen
- E: Substanzkonsumstörungen
- F: Angststörungen
- G: Zwangsstörung und PTBS
- H: Aufmerksamkeitsdefizitstörung
- I Screenung für andere aktuelle Störungen
- J Anpassungsstörung
Kriteriumsorientiertes Testen, d.h. keine Normwerte
Reliabilitätskennwerte betragen überwiegende mindestens .70
DIA-X -> zuerst übergreifendere Diagnose, danach spezifischer

Wie unterscheiden sich Fragebögen von standardisierten Interviews in der Diagnostik der klinischen Psychologie und welche Vorteile haben sie? Welches Beispiel gibt es für einen solchen Fragebogen?

Im Gegensatz zu den meisten standardisierten Interviews…
- Orientieren sich Fragebögen NICHT systematisch am Klassifikationssystem und den dort festgelegten Kriterien
- Liegt der Fokus vermehrt auf der Ausprägung der Störung und nicht auf der Kategorisierung
Beispiel: Beck Depressoins-Inventar (BDI-II)
Vorteile von Fragebögen:
- Psychometrische Gütekriterien
- Kosten-Nutzten-Verhältnis (meisten kleinerer Zeitaufwand etc.)
- Stärke der Ausprägung gut erfassbar -> dimensionaler Ansatz

Was ist das BDI-II/Beck Depressions Inventar, wofür ist es ein Beispiel, und wie wurde es entwickelt? Was kann zu den Gütekriterien dieses Instruments gesagt werden?

Beispiel für einen Fragebogen in der Diagnostik der klinischen Psychologie
Isntrument zur Erfassung der Schwere einer Depression
Anwendunsbereich: psychiatrisch diagnostizierte Personen ab 13 Jahren
Dauer: 5-10 Minuten, Einzel- und Gruppentestung
Aufbau:
Jeweils 4 Aussagen zu 21 Symptomen in letzten 2 Wochen
Cut-Off Werte anhand der ROC-Kurve
- 0-8: keine Depression
- 9-13: minimale Depression
- 14-19: leichte Depression
- 20-28: mittlere Depression
- 29-63: schwere Depression
Geschichte des BDI-II:
- BDI: ursprünglich 21 Items basierend auf typischen Aussagen von psychiatrischen Patient:innen mit Depressionen
- BDI-II: Überabrieutng mit Neukonstruktion von Items an Anlehnung von DSM-IV-Kriterien
Gütekriterien
- Retest-Reliabilität basieren auf zahlreiche Studien .78 für 5 Monate
- Normen: 385 depressive Personen, 582 gesunde Personen
- Validität: konvergente Validität überzeugend, diskriminante nicht
  - ABER: niedrige d. Validität allgemein Problem bei Diagnose psychischer Störungen -> eher inhaltliches Problem
- Weiteres Problem: da es um einen Vergleich geht (wie viel schlimmer in letzten zwei Wochen) womöglich schwierig auszufüllen für chrnonisch depressive Menschen

Wie wurder das Minnesota-Multiphasic-Personality Invetory (-2) konstruiert?

Empirisch: Anfänglich 100 Items zur Erfassung psychopathologischer Symptome, u.a….
- allgemeine Symptome
- Familiäre Beziehungen
- Sexuelle Einstellungen
- Religiöse Einstellungen
- Emotionale Zustände
Vergleich der Ergebnisse von klinisch auffälligen Gruppen mit unauffälligen Kontrollpersonen
Externale Konstruktion: Skalen verwenden 567 Items, welche Patient:innen von Kontrollpersonen am besten diskriminieren
- MMPI-2:
  - 310 Items aus MMPI
  - 149 Items unformuliert
  - 108 Items neu konstruiert

Was ist das Minnesota-Multiphasic-Personality-Inventory-2 (MMPI-2), was ist dessen Ziel und Durchführung und wie sind dessen Gütekriterien?

Weltweit gebräuchlichstes Persönlichkeitssystem für klinischen Bereich
Ziel: Zuordnung von Proband:innen zu diversen psychiatrischen Kategorien oder zu unauffälliger “Normalpopulation”
Durchführung
- Ab 18 Jahre
- verschiedene Sprachversionen vorhanden
- Einzel-oder Gruppentestung
- Paper-Pencil oder Computerversion
- Bearbeitungszeit: 60-90 Minuten
Reliabilität:
- Alpha = .60 - .88
- Retest: .62 - .91 (n = 49 m, 58 w)
Normen: 958 Personen zwischen 18 und 70 Jahren
Validität: im Testmanual nur faktorenanalytische Befunde

Wie wird das Minnesota-Multiphasic-Personality-Inventory-2 (MMPI-2) kritisiert?

Viele Items sind Bestandteile mehrerer Skalen, da sie zugleich mehrere Patient:innengruppen von den nicht-Patient:innen unterscheiden
Theoriefreier Ansatz führt dazu, dass Items nicht immer inhaltlich nachvollziehbar sind
Generalisierbarkeit muss geprüft werden
-> Aber: MMPI-2-RF als überarbeitete Version!

Wo wird das MMPI-2-RF Eingesetzt? Wie wurde es konstruiert und wie wird es durchgeführt?

Einsatzbereiche
- Klinische Psychologie und Psychiatrie
- Gutachten mit klinischem Bezug
- Persönlichkeitsdiagnostische Fragestellungen vor klinischem Hintergrund
Konstruktion
- überwiegend faktorenanalytisch und nicht mehr basierend auf externalen Ansatz
- Auswahl von 338 Items des MMPI2
- Neukonstruktion aller 51 Skalen: Orientierung an…
  - modernen psychopathologischen Konzepten
  - Aspekten des originalen MMPI
Durchführung
- Testdauer 30-45 Minuten
- Paper Pencil (mit digitaler Auswertung) oder komplett digital

Wie ist das MMPI-2-RF aufgebaut?

3 Skalen höherer Ordnung basierend auf klinischen Skalen
- Internalisierungsstörungen: mit Stimmung und Affekt verknüpfte Probleme
- Externalisierungsstörungen: Probleme, die mit unkontrolliertem Verhalten verbunden sind
- Denkstörungen: mit Denkstörungen verknüpften Problemen
9 klinische Skalen
- Entmutigung
- Zynismus
- Mangel an positien Emotionen
- Dysfunktionale negative Emotionen
- Abweichende Erfahrungen
- Verfolgungsgedanken
- Hypomane Aktivierung
- Körperbeschwerden
- Antisoziales Verhalten
9 Validitätsskalen
- Zur Erfassung von inhaltsinadäquaten Antworten (fehlenden Antworten, Tendenz zur Mitten, Lügenskale, Seltenheitsskala, Antworttendenzen)
- Über- bzw. Untertreibung von Beschwerden
23 Spezialproblemskalen
- Aspekte, die in klinischen Skalen nicht ausreichend abgebildet sind
  - Suizidgedanken
  - 5 Personality Psychopathology Five-Skalen (Anlehnung an Big Five): Agressivität, Psychotizismus, Unbeherrschtheit, Negative Emotionalität

Was kann zu den Gütekriterien des MMPI-2-RF gesagt werden?

Reliabilität
- Cronbachs Alpha für 3 Skalen höherer Ordnung und 9 restrukturierten Skalen .80
- retest: .83 (N = 105, 10 Tage)
- Zuverlässigkeit der 23 kürzeren Spezialproblemskalen schwankt
Validität umfangreich erforscht, insbesondere Mittelwerte (T-Werte) für verschiedene Patient:innen-Gruppen mit verschiedenen ICD-Diagnosen
Normierung: N = 916 aus einer repräsentativen Stichprobe; deutsche Bevölkerung im Alter von 18-70 Jahren

Welche verschiedenen Arten von Evaualtion der Behandlugn gibt es bei der Diagnostik in der klinischen Psychologie und welche weiteren Methoden können hier unterschieden werden?

Veränderungsmessung: Einstufung davon, wie stark eine Veränderung stattgefunden hat
- Direkte Veränderungsmessung: Vorgabe eines Veränderungsfragebogens nach der Behandlung -> Person muss selbst einschätze, ob Veränderung stattgefunden aht oder nicht (Validität fragwürdig)
- Indirekte Veränderungsmessung: Verfahren zur Erhebung des Ist-Zustandes werden vor und nach Behandlung vorgegeben
- Katamnesische Untersuchung: Zur Überprüfung der Stabilität des Behandlungserfolgs (12 Monate nach Abschluss)
Zielerreichungsbeurteilung: Einstufung, inwieweit die zu Beginn der Behandlung vereinbareten Ziele erreicht wurden

Was ist der Veränderungsfragebogen des Erlebens und Verhaltens (VEV)? Was kann zu dessen Gütekriterien gesagt werden?

Instrument der klinischen Diagnostik zur Erhebung von Veränderungsmessung mittels direkter Veränderungsmessung
- Klient:innen schätzen erlebte Veränderungen retrospektiv selbst ein
Reliabilität: Alpha > .97, retest =.61 (8 Wochen)
- Alpha fast zu einheitlich
Vorgegebene Veränderungsnormen mit kritischen Grenzen -> ab welcher Veränderung kann man von Erfolg sprechen?
Weiterentwicklung zum Bochumer Veränderungsfragebogen-2000

Wie kann das Kriterium der klinisch bedeutsamen Verbesserung in der Diagnostik der klinischen Psychologie bestimmt werden?

Annahme, dass klinisch bedeutsame Verbesserung bestenfalls Symptomfreiheit (»Heilung«) oder Problemlösung bedeutet
Zumindest aber merkliche Symptom- bzw. Problemreduktion
Vorschlag von drei Möglichkeiten nach Jacobson und Truax (1991)
1. Ausmass der Symptomatik sollte nach Behandlung mind. zwei Standardabweichungen unter dem Mittelwert der kranken Population liegen
2. Ausmass der Symptomatik sollte nach Behandlung max. zwei Standardabweichungen vom Mittelwert der gesunden Population entfernt liegen
3. Ausmass der Symptomatik sollte nach Behandlung näher am Mittelwert der gesunden als am Mittelwert der kranken Population liegen
  -> Je nach Kriteriumswahl unterschiedliche Erfolgsquote
Auch Möglich: Auswertung mit Reliable Change Index (RCI)

Was ist der Reliable Change Index?

Formel zur Berechnung…
- Ob sich Patient:innen nach Intervention tatsächlich in dem relevante Merkmale verbessert haben
- Fall tatsächlich Verbesserung stattgefunden hat, Angabe zu Ausmass von Veränderung
Berechnung:
- Differenz der Werte vor (x1) und nach (x2) Behandung
- geteilt durch Standardmessfehler der Differenzen
  - sx (= Standardabweichung der Testwerte= x Wurzel (2 x (1 - rtt (= reliabilität der beiden Messungen)
- (x1 - x2) / sx x Wurzel (2 x (1 - rtt))
Kann wie z-Wert interpretiert werden:
- RCI > 1,98 (p < .05) wird als wahre Veränderung gewertet

Was braucht es alles für eine erfolgreiche psychologische Diagnostik im klinischen Bereich?

Kenntnisse über statistische Grundlagen diagnostischer Prozesse
Kenntnisse über mögliche Fehler und Fehlerwahrscheinlichkeiten im diagnostischen Prozess und Umgang mit möglichen Fehlern
Fertigket angemessene diagnostische Verfahren auszuwählen und fachgerecht einzusetzen und auszuwerten
Fähigkeit, auf den Befunden aufbauend
- korrekte handlungsorienterte Schlüsse ziehen
- korrekte Empfehlungen auszusprechen
- Behandlungsindikationen stellen
Zusätzlich auch hohe interpersonelle Kompetenzen wichtig

Was ist der häufigste Anlass für Diagnose und Intervetnion im Aufgabenbereich der pädagogischen Psychologie?

Deutlich negative und nicht vorübergehende abweichung der Schüler:innenleistung von
- Klassenbezogener Norm
  - bedeutend schlechtere Leistung als Mitschüler:innen
- Individuellen Erwartung (d.h. Nachlassen der Leistung eines/einer bisher guten Schülers/Schülerin)

Durch was sind Lernschwierigkeiten bedingt?

Multifaktoriell bedingt
- Personenmerkmale
  - Kognitive (z. Bsp. Intelligenz) und nicht-kognitive Personenmerkmale (z. Bsp. Motivation, Leistungsängstlichkeit)
    - Zusätzliche Unterscheidung: Übergreifend vs. fach- bzw. bereichsspezifisch
  - Faktoren, die zur Entwicklung eines Merkmals beitragen ( familiäre und schulische Bedingungen, organisch-biologische Voraussetzungen)
- Situationsmerkmale
  - Schul- oder Klassenklima (z. Bsp. Mobbing)
  - Familiäre Schwierigkeiten
  - Unterrichtsqualität
  - Art der Leistungsbeurteilung
- Interaktion von Situation und Person
  - Z. Bsp. Leistungsängstlichkeit + viele benotete Prüfungen
  -> wichtig, immer mehrere Aspekte zu berücksichtigen!

Was sind Teilleistungsschwierigkeiten? Wie werden diese im ICD-10 und im DSM-5 genannt?

Leistungsdefizite, die anders als eine Lernstörung/ “Lernbehinderung” auf einen bestimmten Bereich schulischer Fähigkeiten beschränkt sind
Im DSM-5: spezifische Lernstörungen
- Dyslexie (Lesen)
- Dyskalkulie (Rechnen)
- Legasthenie (Schreiben)
Im ICD-10: umschriebene Entwicklungsstörung schulischer Fertigkeiten

Wie werden Teilleistungsschwierigkeiten diagnostiziert?

Gut normierte Schulleistungstests zur Messung des altersgemässen Standards in Lesen, Rechnen, Schreiben
Leistungen müssen weit unter Klassennorm liegen
Niedrige Intelligenz muss ausgeschlossen werden -> Intelligenztests wessen Inhalt möglichst unahängig von betroffenen Fertigkeiten ist
Auch körperliche Ursache (z. Bsp. Hören, Sehen ) und Kontextfaktoren müssen ausgeschlossen werden
- Diagnostisches Interview
- Anamnesebogen
- Aktenanalyse

Welche Herausforderungen ergeben sich bei der Diagnose von Teilleistungsstörungen?

TLS gehen mit einer erhöhten Rate anderer Störungen einher
Vorallem Komorbidität mit
- ADHS
- Angststörung
- Störung Sozialverhalten
-> Differnzialdiagnose wichtig

Welchen Fragestellungen wird bei der Diagnostik von Hochbegabung nachgegangen (ink. Fachbegriffe)?

Akzeleration: Soll ein Kind früher eingschult werden/Klasse überspringen?
Separation: Soll Kind in eine Förderklasse/-schuole gehen?
Enrichment: soll ein Kind in ein Förderprogramm aufgenommen werden?
Lliegt Underachievement vor? (Schulische Leistungsproblem trotz bzw. wegen Hochbegabung)

Wie kann Hochbegabung unterschiedlich definiert werden?

Ein- vs. Merhdimensionale Definitionen
- Eindimensional: Hochbegabung wird über ein Konstrukt (z. Bsp. allgemeine Intelligenz) oder für einen spezifischen Bereich definiert
- Mehrdimensional: Hochbegabung wird über mehrere Persönichkeitsmerkmale (z. Bsp. Intelligenz, Leistungsmotivation), z. T. in Wechselwirkung mit Umweltmerkmalen definiert
Kompetenzdefinitionen: Hochbegabung definiert als extrem hohes Entwicklungspotential -> (noch) nicht zwingend sichtbar in Leistung -> Fokus auf Persönlichkeit
Performanzdefinitionen: Hochbegabung definiert über bereits gezeigte hervorragende Leistungen (z. Bsp. Schulnoten, Berufserfolg, Innovationen) -> Fokus auf Output

Wie ist das Münchner Begabungsmodell aufgebaut und was sind dessen Hauptaussagen?

Hochbegabung ergibt sich aus Interaktion zwischen
- Begabungsfaktoren (Intellektuelle Fähigkeiten, Soziale Kompetenzen, Kreative Fähigkeiten etc.) stehen in Wechselwirkung mit…
- …Nicht-kognitive Persönlichkeitsmerkmale
  - Stressbewältigung
  - Leistungsmotivation
  - Arbeits- und Lernstrategien
  - Prüfungsangs
  - Kontrollüberzeugungen
- …Umweltmerkmale
  - Familiäre Lernumwelt
  - Familienklima
  - Instruktionsqualität
  - Klassenklima
  - kritische Lebenseregnisse
  -> aus diesen drei Kategorien ergibt sich (sichtbare) Leistung (Sport, Sprachen, Technik, Soziale Beziehungen)
Implikationen
- Hohe Begabung allein nicht ausreichend, um überdurchschnittliche Leistungen zu zeigen
- Überdurchschnittliche Leistungen nicht nur auf hohe Intelligenz/kognitve Fähigkeiten zurückzuführen
- Zur Entfaltung von Begabung braucht es betimmte Persönlichkeits- und Umweltmerkmale
-> Kompetenzdefinition

Welche Probleme weiesn mehrdimensionale Hochbegabungmodelle auf?

In Praxis beliebt aber kaum empirisch validiert/validierbar
Unklares Konzept -> wie kann man Hochbegabung von “normaler” Begabung abgrenzen?
Gefahr, Zielgruppe “wegzudefinieren” wenn zu viele Kriterein vorliegen

Was kann zur allgemeinen Intelligenz als einzelnes Kriterium für Hochbegabung gesagt werden?

Gut begründbar und weitgehend konsensfähig
Weniger komplex und leichter validierbar als mehrdiemnsionale Hochbegabungskriterien
Festsetzung der unteren Grenze von Hochbegabung bei zwei Standardabweichungen über dem Populationsmittelwert -> IQ > 130 (2% Bevölkerung, 68% zwischen 85-114, 13.6 % überdurchschnittlich (115-129)
Klare diagnostische Entscheidung möglich

Welche Anforderungen gelten für Intelligenztests und spezifisch für IQ Tests welche Hochbegabung erfassen sollen?

Sollten mehrere Teilbereiche erfassen oder Kombination mehrere Tests sein
Aktuelle Normen (siehe Flynn-Effekt) -> Verwendung veralteter Normen kann zu Überschätzung führen
Gute Differenzierung der Normen im oberen Leistungsbereich
Repräsentative und grosse Eichstichprobe
Idealerweise durchschnittliche Leistung aus 2 unterschiedlichen UIntelligenztests nutzen

Was ist das BIS-HB? Was kann zu dessen Durchführung und Gütekriterien gesagt werden?

Berliner Intelligenzstruktur-Test für Jugendliche: Begabungs- und Hochbegabungsdiagnostik (BIS-HB)
Speziell für den Einsatz in der Hochbegabungsdiagnostik konzipiert
- Erlaubt genauere Differenzierung im oberen Leistungsbereich: Deckeneffekte sind auszuschliessen und breiter Begabungsbereich ist abgedeckt
Durchführung
- Altersbereich: 12 bis 16 Jahre
- Einzel und Gruppentestung möglich
- Gedamtform mit 45 Aufgaben (ca. 3 h mikt Pause), kurze Form mit 16 Aufaben ca. 1 h
Gütekriterien
- Reliabilität: ⍺ = .81 – .95; rtt = .71 – .84 (6 Monate)
- Validität: faktorielle Validität; konvergente Validität; Kriteriumsvalidität (z.B. r = .57 für Gesamtnotenschnitt)
- Normen: 1.328 Schülerinnen und Schülern an Haupt- und Realschulen, Gymnasien und speziellen Schulen für intellektuell besonders Begabte. Separate Altersnormen.

Was kann zu Hochbegabtendiagnostik durch Lerhpersonal und andere Menschen gesagt werden?

Studie von Wild (1993): Übereinstimmung zwischen Lehrkafturteilen und Intelligenztestergebnissen
- Pro Schüler:in für dre Intelligenztests Prognose auf siebestufiger Skala (extrem schwach bis exzellent)
- Nomination von max. je drei Schüler:innen mit hoher Ausprägung auf begabungsrelevantem Merkmal
Resultat
- Korrelationen zwischen Testleistungen und Ratings / Nominierungen variierten stark zwischen den Klassen
- Über alle Klassen hinweg korrelierte Intelligenztestleistung (aggregiert über alle 3 Tests) mit gemittelten Lehrkrafteinschätzungen zu .59, mit der Nomination zu .47
- Von den „exzellent“ eingestuften SchülerInnen erwiesen sich 35,1% als tatsächlich hochbegabt
- Von den tatsächlich hochbegabten SchülerInnen wurden lediglich 16,4% entdeckt
Schlussfolgerung
- Urteile durch Lehrpersonen eignen sich ggf. für eine Vorselektion, ersetzen aber nicht die psychologische Diagnostik
- Meta-Analyse zur Einschätzung: r = .43 (Intelligenz); r = .36 (Begabung)
- Ebenfalls kritisch: Eltern, Freunde, Mitschüler:innen

Welche sind die Ziele und Herausforderungen von internationalen Schulleistungsvergleichstudien?

Ziele:
- Bericht über aktuellen Zustad von Bildungssystemen und Ergebnissen
- Rückschlüsse für mögliche Ursachen für bestimmte Ergebnisse (Kausalrückschlüsse NICHT zulässig)
Herausforderungen
- Komplexität und Informationsmenge zwingt zu Fokussierung
  - je nach Studie Auswahl von bestimmten Kompetenzen und Altersbereichen
  - je länger eine Erhebung, desto geringer die Motivation der Teilnehmer

Welche Schulleistungsvergleichsstudien gibt es und was sind dessen Merkmale?

PISA (Programme for International Student Assessment)
- Ziel: vergleichende Daten über die Leistungsfähigkeit der Bildungssysteme der OECD-Mitgliedsländer erfassen
- Gemessen: grundlegende Kompetenzen wie Lesekompetenz, mathematische und naturwissenschaftliche Grundbildung
- Daten werden bei 15-jährigen Schüler:innen gemessen
  - In kleinen Ländern Gesamtstichprobe, sonst Teilstichprobe
TIMSS (Third International Mathematics and Science Study)
- untersucht, inwieweit sich curriculare Inhalte in mathematisch-naturwissenschaftlichen Fächern in den schulischen Leistungen niederschlagen
- International bei 4., 8. und 12. Klässler_innen erhoben
IGLU
- Leselesitungen von vierten Jahrgangsstufe
PIAAC
- Grundlegende Kompetenzen im Erwachsenenalter (16-65 Jahre)

Was kann zu PISA (Programme for International Student Assessment) gesagtg werden?

Erfasst alle drei Jahre Lese-, Mathematik- und Naturwissenschaftliche Kompetenzen bei 15 Järhigen
Schwerpunktfach rotiert alle 3 Jahre
Fragestellung: Inwiefern verfügen 15-Jährige über diejenigen Kompetenzen, die für eine erfolgreiche Teilhabe an der Gesellschaft notwendig sind (Literacy / Grundbildung)?
Literacy Konzeption

Was ist die Literacy Konzeption?

Mehr als die Anwendung von Fachwissen
Verständnis von Alltagsphänomenen
Anwenden fachlicher Kompetenzen
Kommunikations- und Urteilsfähigkeit
Wertschätzung von Bildungsinhalten
Vertrauen in die eigenen Kompetenzen
-> Sehr umfassendes Konzept, was sich in der Umsetzung entsprechend von Leistungstests unterscheiden sollte

Inwiefern unterscheiden sich Schulleistunsgtests von Intelligenztests?

Grosse Überschneidung (oft kritisiert)
Viele internationale Schulleistungsvergleichsstudien orientieren sich am Kompetenz- oder Literacy-Konzept
Erkenntnisse aus der kognitiven Persönlichkeitspsychologie und der psychologischen Diagnostik nicht umfänglich berücksichtigt
Bei Diagnostik schulischer Kompetenzen werden immer auch Fähigkeiten (mit-)erfasst, die Intelligenz zugeordnet werden können
Unterscheidung zwischen „traditionellen Leistungstests“ und „bildungswissenschaftlichen Kompetenztests“ nicht eindeutig
Unterschied:
- Domänenspezifität bzw. curricularer Bezug der Kompetenztests
- Kriteriumsorientiertes Testen

Was ist kriteriumsorientiertes Testen?

Test, der die Gesamtheit einer wohldefinierten Menge von Aufgaben enthält oder repräsentiert
und die zu dem Zweck konstruiert ist
- die Fähigkeit des Probanden zur Lösung der Aufgaben der definierten Menge zu schätzen oder/und
- ihn gemäß dieser Fähigkeit einer Klasse von Probanden zuzuordnen
Ziel:
- Messinstrument für einen bestimmten, definierten Inhaltsbereich (z.B. Lehrstoff, Curriculum)
- welches die individuelle Kompetenzausprägung anhand einer kriterialen Bezugsnorm in diesem Bereich zuverlässig erfassen kann

Was ist Evaluation?

Definition:
- Die systematische Analyse und empirische Untersuchung von
  - Konzepten
  - Bedingungen
  - Prozessen
  - Wirkungen zielgerichteter Aktivitäten
- zum Zwecke ihrer
  - Bewertung
  - Modifikation
- Evaluation als eigenständiges (Methoden-)Fach
- aber Diagnostik ist neben der Versuchsplanung ein notwendiger Bestandteil der Evaluationsforschung
  -> Schwächen in der Diagnostik mindern die Aussagekraft der Evaluationsforschung!

lsfnksd

fskldnflkds

Beitreten

Vorschau

Author

12DayFIsh

Informationen

Zuletzt geändert
vor einem Jahr

Kurs melden

PD

Author

12DayFIsh

Informationen