Definition: Evaluation
Der Prozess und das Ergebnis einer Beurteilung des Wertes eines Produkts. Prozesses oder eines Programms
Definition Evaluationsforschung
Prozess bei dem nach zuvor festgelegten Zielen und explizit auf den Sachverhalt bezogenen und begründeten Kriterien ein Evaluationsgegenstand bewertet wird
Mithilfe von sozialwissenschaftlicher Methoden
Produkt des Prozess besthet in Rückmeldung verwertbarer Ergebnisse in Form von Beschreibungen, begründeten Interpretationen und Empfehlungen
Was können Evaluationsgegenstände sein?
fast alle Aktivitäten und Stukturen können evaluiert werden
im psychologischen Kontext: Projekte, Programe, Therapien, Interventionen
Was sind typische Evaluationskriterien
Wirksamkeit ( Effektiviät)
Transfererfolg
Kosten-Nutzen-Bilanz (Effizienz)
Bedarf
Qualität des Interventionskonzepts
Qualität der Einführung und Implementation
Akzeptanz
Nachhaltigkeit
State of Art
Evaluationskriterien - Wirksamkeit (Effektivität)
Was wird darunter verstanden?
erwartete Wirkungen?
unerwartete Neben- oder Folgewirkungen?
Ist Wirkung von Maßnahme A besser als die von Maßnahme B?
Wirkungen langfristig messbar?
Evaluationskriterien - Transfererfolg
Situationstransfer = Inhalte von einer Situation in einer anderen fremden übertragen
Anforderungstransfer= Wissen von einem Beispiel auf ein anderes Kontextähnliches übertragen
Evaluationskriterien - Kosten Nutzen Bilanz (Effizienz)
steht wirksamkeit in angemessenen verhältnis zu den Kosten?
wie hoch sind tatsächliche Kosten der Maßnahme
Wie hoch betrieb. / volkswirtschaftlicher Nutzen
Ist Kosten-Nutzen Bilanz von Maßnahme a besster als von Maßnahme B?
Evaluationskriterien - Bedarf
soziales Problem das einführung einer Intervention rechtfertigt/erfordert?
Wie ist unerwünschter Zustand?
Wer hält den zustand für unerwünscht? In welchem Ausmaß?
Evaluationskriterien - Qualität des Interventionskonzepts
Wie ist die Intervention Konzipiert?
Welches Wirkmodell
basieren die expliziten/implizierten Annahmen die der Interventionskonzeption zugrunde liegen, auf plausiblen und empirisch bestätigt Theorien
Evaluationskriterien - Qualität der Einführung und Implemantation
Rahmenbedingungen für erfolgreiche Umsetzung gegeben?
SInd alle Beteiligten informiert?
Wird Maßnahme so umgesetzt wie vorgesehen?
Evaluationskriterien - Akzeptanz
Wird Maßnahme angenommen? Zufriedenheit der Teilnehmer?
Evaluationskriterien - Nachhaltigkeit
Sind Konzeption einer Maßnahme und die Evaluation der Wirksamkeit auf Nachhaltigkeit ausgelegt?
Evaluationskriterien - State of Art
Orientiert sich die Konzeption, die Implementierung und Evaluation einer Maßnahme an allgemeinen Standarts?
Arten von Evaluationsforschung
Welche Rahmenbedingungen gibt es?
Feld vs Labor
Parteiliche vs objektive/überparteiliche Evaluation ( parteilich= nicht wissenschaftlich)
geschlossene vs offene ( wie konkret ist Auftrag?)
vertrauliche vs. öffentliche ( Ergebnisse öffentlich zugäglich?)
Welche Evaluationsmodelle gibt es ?
Praxisorientiert
Entwicklungsorientiert ( verbesserung ähnlicher maßnahmen in zukunft)
Theorieorientiert ( Testung theoretischer fundierung einer Maßnahme)
Wie/ Auf was kann Evaluation ausgerichtet sein?
Makroebene =Gesamtbewertung
Mikroebene=einzelne Aspekte
Programmevaluierung
Imputevaluation ( Ressourcen, Rahmenbedingungen / andere Imputs für Maßnahme)
Complianceevaluation= Mitarbeit der Klienten
Outputevaluation= Ergebnisbewertung
Verschiedene Zeitpunkte für Evaluation
Prognostische Evaluation = Waas wird sein/ wie wird es sich entwickeln?
Prospektive Evaluation= Wie würde sich die Maßnahme auswirken?
Prozessevaluation = Begleitend, Zwischenevaluationen
Ergebnisevaluation = Outputevaluation
Welche Durchführungsmodi gibt es?
Intrinsische vs extrinsische Evaluation = innere struktur der Maßnahme vs deren Wirkung
interne vs extrerne E. = Selbstevaluation vs externe E
Summative vs formative E = Bewertung im Nachinein vs Optimierung
Vergleichende vs nicht vergleichende E = einer Maßnahme oder Vergleich
Was sind Metaevaluation und Metaanalyse
Metaanalyse = summative Metaevaluation = systematische Zusammenfassung mehrerer Evalauationen gleicher Maßnahmen
Programm Design Evaluation = Erfahrungszusammenfassungen mehrerer Maßnahmen für zukünftige Durchführungen
Zielsetzungen von Evaluationsforschung
Zustandsevaluation
Veränderungsevaluation
Wirksamkeitsevaluation
Zielsetzungen von Evaluationsforschung - Zustandsevaluation - Was ist das?
Ermitteln aller Eigenschaften/Attribute die Evaluationsgegenstand definieren und abgrenzen
z.B. Erhebung der Wartezeit auf Therapieplatz
Veränderungsevaluation - Was ist das?
Zustand des Evaluationsgegenstandes im zeitlichen Prozess
Diagnose:Veränderung über mehrere Erhebungen hinweg
Prognose: Aussagen über einen Zeitpunkt in der Zukunft
Retrognose: Aktuelle sutation wird mit Vergangenheit verglichen
Z.B. PISA
Wirksamkeitsevaluation - Was ist das?
Evaluation der Folgen einer Intervention
z.B. Effektivität einer Therapie
Gütekriterien von Evaluationen
Allgemeine Gütekriterien - Komplexität eines Evaluationsgegenstandes
alltagspraktische Komplexität sollte abgebildet werden
muss sich in theorie und methodischem Zugang wiederspiegeln
Allgemeine Gütekriterien - Gultigkeitsbereich einer Fragestellung
Gultigkeitsbereich & Anwendbarkeit muss klar definiert sein
bsp: LernApp für bestimmte Klassen/ Schulen / mit oder ohne Anleitung
Allgemeine Gütekriterien - Objektivierbarkeit
Erkennbarkeit: muss empirisch erfasst sein
Bestammbarkeit : bestimmte Parameter müssen definiert werden
Dokumentierbarkeit: Beobachtungen müssen dokumentiert werden
BSP: Lehrqualität vs. Bauchgefühl
Allgemeine Gütekriterien - Transparenz
was auf welche Art beobachtet wurde muss Transparent werden
Psychometrische Gütekrierien
Objektivität, Reliabilität, Validität
Skalierung und Normierung
Ökonomie
Nützlichkeit
Zumutbarkeit
Unverfälschbarkeit
Fairness
Interne Validität
Hypothesenbasiertes Evaluationsdesign ist in der Lage eine eindeutige Aussage über die Annahme oder Ablehnung der entsprechenden Hypothese zu liefern
Externe Validität
Es ist möglich die Ergebnisse auf andere Kontexte zu generalisieren
—> Interne Validität ist nicht hinreichend für externe Validität
Evaluationsstandards - Nützlichkeit
Identifiezierung der Beteiligten und Betroffenen
Klärung Evaluationszwecke
Glaubwirkeits/Kompetenz der Evaluatoren
Auswahl /Umfang der Infos
Transparenz der Werte
Vollständigkeit / Klarheit der Berichterstattung
Rechtzeitigkeit der Evaluation
Nutzen / Nutzung der Evaluation
Evaluationsstandards - Durchführbarkeit
Angemessene Verfahren = Praxisverträglich
Diplomatisches Vorgehen für hohe Akzeptanz
Effizienz= angemessenes Kosten-Nutzen Verhältnis der Studie
Evaluationsstandards - Fairness
Formale Vereinbarungen
Schutz individueller Rechte
Vollständige und Faire Überprüfung
Unparteiische Durchführung und Berichterstattung
Offenlegung der Ergebnisse
Evaluationsstandards - Genauigkeit
Eindeutige Beschreibung des Evaluationsgegenstandes
Kontextanalyse
Beschreibung von Zwecken/Vorgehen
Angabe von Infoquellen
Valide und reliable Infos
Systematische Fehlerprüfung
Begründete Schlussfolgerungen
Evaluationsmodelle
Evaluationsprozess nach Tyler (1949)
Schritte der Evaluation besodners im Bildungsbereich
Grundidee: Zielle—> Operationalisierung durch Verhalten —> Messung —> Inerpretation
7 Schritte
Darstellung in Tyler Matrix
Evaluationsprozess nach Tyler (1949) die 7 Schritte
Formulierung allgemeiner Ziele
Klassifikation der Ziele
Beschreibung dieser Ziele durch geeignete Verhaltensbereiche
Identifikation von Situation und Bedingungen in denen das fragliche Verhalten gezeigt werden kann
Auswahl oder Entwicklung von wissenschaftlichen Messmethoden
Datengewinnung
Vergleich zwischen Ergebnissen und Zielen
Evaluationsprozess nach Tyler (1949) - Die Tyler Matrix
In jeder Zelle werden spezifische Situationen und Bedingungen beschrieben, in denen das relevante Verhalten beobachtet werden könnte
Bewertungsorientierte Ansätze nach Owen/Wolf
Idee: Evaluation ist wie die Urteilsbildung in einem gerichtsverfahren = Judical Evaluation Model
Zwei Evaluatoren mit teams die gegensätzliche Positionen vertreten
Jury aus Auftraggeber, Betroffenen , Beteiligten
Prozess mit Plädoyers, Zeugenanhärungen, Verhören, Diskussionen
Nutzungsorientierte Ansätze nach Kirkpatrick(1959)
kategorien von Zielen und Kriterien für Evaluationen im Bildungsbereich
Evaluationsergebnisse auf unterschiedlichen Ebenen
Reaktionsebene (reaction,satisfaction)
Ebene des Lernerfolgs ( learning)
Verhaltensebene ( behavior)
Objektive Endergebnisse (results, outcome)
Nutzungsorientierte Ansätze nach Kirkpatrick(1959)- Die erweiterung durch Schenkel (2000)
Produktebene : Qualität des Produkts
Reaktionsebene: Akzeptanz,Zufriedenheit,Nutzungsbereitschaft,Nützlichkeit
Lernebene: Erfolge auf Wissens-/Kompetenzebene
Handlungsebene: beobachtbares Verhalten z.b. Transfer
Erfolgsebene: Effizienz
Return on Investment Ebene (ROI) : Langfristige Gewinne
Normative Ansätze nach Balzer (2005) - Rahmenschritte des Prozesses
Evaluationsbedarf
Evaluationsauftrag
Evaluationsgrundlagen (Mikromodell)
Rahmenbedingungen der Evaluation
Methodische Planungen
Durchführung der Evaluation
Datenauswertung
Präsentation und Berichtlegung
Dissemination der Ergebnisse
Nutzung der Ergebnisse
Bewertung der Evaluation
Normative Ansätze nach Balzer (2005) - Aufsplittung des Schrittes Evaluationsgrundlagen = Mikromodell
Bestimmung des Evaluationsgegenstandes
Bestimmung der Akteure ( Auftraggeber, Entscheidungsträger, Evaluatoren etc)
Evaluationsziele und fragenbereiche
Bestimmung der Bewertungskriterien
Bestimmung theooretischer Grundlagen
Was wird unter einer quantitativen Metaanalyse verstanden ?
Besondere Form der Übersichtsarbeit
spezielle Forschungssynthese
Ziel: Zusammenfassung der Ergebnisse aus verschiedenen Primärstudien die sich mit der gleichen Forschungsfrage befasst haben zu einem Gesamteffekt (=Berechung eines gewichteten Mittelwerts aus Effektstärken der Primärstudien)
Einsatz vonstatistischen Verfahren
Keine einheitliche statistische Datenanalysemethode : Gruppen von Verfahren, unspezifisches Untersuchungsdesign
bestimmte Gewichtungen sowie Modellannahmen werden getroffen (Effektmodell)
Wahrscheinlichkeit ist wahren Populationswert aufzudecken bei Metaanalyse höher durch Teststärke, Konstruktvalidität, Interne/externe Validität
Verschiedene Einsatzbereiche/Themenfelder/Fragestellungen = Wissentransfer, Wirksamkeitsüberprüfung, Auswirkungen bestimmter Verhaltensweisen
Untersciedliche Ansätze von Metaanalyse -Welche gibt es?
Homogenitätsbasierte MA
Psychometrische MA
Bayes´sche MA
Aber: auch innerhalt eines Ansatzes unterschiede z.b. unterschiedliche strenge ein/ausschluss kriterien, verschiedene Annahmen zum Effektmodell
Probleme bei der Durchführung von Metaanalysen
Welche gibt es ?
Notwendige Mindestanzahl an Primärstudien
Publication Bia
Apfel/Birnen Problem
Garbage in Garbage Out Problem
Problem abhängiger Untersuchungsergebnisse
Missung Data Problem
Was versteht man unter :
Aussagekraft steigt mit steigender Anzahl Primärstudien
Relevanz davon abhängig von welchem modell ausgegangen wird
A priori Teststärkenanalyse kann dies berechnen aber sorgt für neue Probleme
Pragmatisch : erst ab best. Anzahl an Zusammenfassungen zielführend —> Themenabhängig
Bei neuen Forschungsfeld mit wenig Primärstudien sind prospektive kommulative MA denkbar
Publication Bias
Tendenz: Theoriekonforme Befunde werden eher publiziert/ als publizierwürdig erachtet
File-drawer Problem
Würde MA nur mit veröffentlichten Primärstudien durchgeführt, Gefahr einer systematischen Verzerrung in Richtung signifikanter Ergebnisse
—>Gegenmaßnahmen: unpublizierte Primärstudien recherchieren, Verfahren, die Verzerrungen abschätzen bzw. korrigieren
im weiteren Sinne Language Bia, Citation Bias, Availability Bias
Äpfel und Birnen Problem
Uniformitäts Problem
Gegenmaßnahmen: Kriterien, die Primärstudie für die Aufnahme in die Metaanalyse erfüllen muss
Voraussetzung: Methodenwissen sowie inhaltliche Erfahrung im spezifischen Forschungsfeld
Prüfen, ob Ähnlichkeit einen Einfluss hat
Garbage in Garbage out Problem
Wenn Primärstudien qualitativ wenig hochwertig sind ( Garbage in) dann kann das Ergebnis der MA auch nicht hochwertig werden ( Garbage out)
Gegenmaßnahme: Methodische Prüfung der Primärstudien, Statistisch prüfen ob methodische Quali der Primärstudien den Gesamteffekt unterschiedliche beeinflussen
i.d.r nicht nur eine Effektstärke in Primärstudie berichtet—> abhängige Ergebnisse sowie eine Mehrfachrepräsentation in MA stichprobe als folge
Gegenmaßnahmen: unterschiedlich z.b. Auswahl wichtigester Effektstärken
Missing Data Problem
In Primärstudien werden Effektstärken nicht / unvollständig berichtet
Gegenmaßnahme: Anschreiben der Autoren
Durchführung einer Metaanalyse- die 9 Schritte
Forschungsfragen der MA formulieren
Primärstudien —> Literatursuche
Geeignete Primärstudien auswählen und kodieren
Metaanalystisches Modell
Primärstudien: einheitliche Effektstärkenberechnung
Gesamteffekt berechnen und Prüfung auf signifikanz
Homogenitätsprüfung
Heterogenität erklären : Moderatorvariablen und Subgruppenanalyse
Ergebnisse präsentieren und interpretieren
Durchführung einer Metaanalyse - 1. Forschungsfrage(n) der MA formulieren
Forschungsthema wählen
Forschungsproblem eingrenzen
konkrete Forschungsfragen und hypothesen ableiten
vorraussetzung fragestellung wurde schon untersucht,
identifikation& verdeutlichung von relevanten Fragestellungen des Forschungsfeldes statt generierung neuer Fragen
abklärung relevanter konstrukte
entscheidung über aussagekraft der MA wird hier getroffen
Durchführung einer Metaanalyse - 2. Primärstudien:Literatursuche
Ergebnis der MA abhängig von Quantität & Qualität der Primärstudien
Ziel: alle geeigneten Arbeiten im Themenfeld vollständig erfassen
Elektronische Datenbanken oder Zitierte Literatur
Verhinderung von Publication Bias durch Einbeziehen nicht publizierter / künftig publizierter Literaut
Grad der Verzerrung statistisch abschätzen durch Funnel Plot ,Fail-Safe-N, Trim-and-Fill-Prozedur
Was ist die Trim-and-Fill Prozedur
Imputationsverfahren
Ziel: Effektstärkenschätzung, die vom Publications Bias bereinigt wurde
Trim: iterativer Prozess= Kleine Studien mit extremen Effekten werden von der Gesamteffektberechnung ausgeschlossen, Endet, wenn der Funnel Plot Symmetrie aufweist
Neue Effektstärkenberechnung mit reduzierten Studienpool
Fill: eliminierte Effekte der Studie werden mit spiegelsymmetrischen Wert eingesetzt
Erhöht Varianz, wobei neue Gesamteffekt unverändert bleibt
Starke Veränderung des Gesamteffektes durch diese Prozedur gelten als Hinweis auf Publication Bias
Stärke des Ausmaß der Fehleinschätzung des Populationseffekt wird deutlich
Was ist ein Funnel Plot
Weitgehend symmetrischer Trichter = unwahrscheinlich, dass Publication Bias vorliegt
Asymmetrie erkennbar = Publication Bias liegt nahe
Was ist Fail Safe N
Abschätzung, wie viele nichtsignifikante Studien eingehen müssen, die nicht publiziert wurden, um einen signifikanten Gesamteffekt statistisch auf einen nichtsignifikanten Gesamteffekt zu reduzieren
Einsatz fragwürdig: Methode wird als problematisch angesehen und deren Sinn diskutiert
Durchführung einer Metaanalyse - 3 Geeignete Primärstudien auswählen und kodieren
Sichtung der gefundenen Literatur nach inhaltlichen& methodischen Kriterien —> Ausschluss von ungeeigneten Studien
Entwicklung von theoretisch begründeten Ein- und Auschlusskriterien
Inhaltliche Begründung durch Forschungshypothese
MethodischeMindestanforderungen explizit erwähnt umd Grabage in/garbage Out problem vorzubeugen
UV und AV sowie Kontrollvariablen untereinander vergleichbar sein
Umgang mit mehreren Teilergebnissen an der gleichen Stichprobe
auswahl relevante Teilergebnisse
Selektion auf wenige Effektstärken
gesonderte univariate MA für interessierende Effektstärken
Multivariate MA
Studienanzahl die eingeschlossen werden kann stark variieren
Kodierung der eingeschlossenen Studien nach allen relevanten Merkmalen: Stichprobenumfang, Effekstärkenmaß, Moderatorvariablen, methodische Merkmale
Flussdiagramm PRISMA
Durchführung einer Metaanalyse - 4 Metaanalystische Modell
Abhängig on metaanalytischen Modell variiert Berechung der Gewichtungsfaktoren der Primärstudieneffektstärken aus denen Gesamteffekt geschätzt wird
Modelle sind Fixed Effect Modell, Random Effect Modell, Mixed Effect Modell
Fixed Effect Modell
Annahme: alle Studien erfassen exakt denselben Populationseffekt
Quelle für unterschiedliche Effektstärken: Stichprobenfehler
Studien mit geringen Stichprobenumfang weisen einen höheren Stichprobenfehler auf
Prüfung der Nullhypothese: geschätzte Populationseffekt jeder Primärstudie ist Null
Sinnvoll einsetzbar, wenn sich eingehende Studien nicht stark in der Operationalisierung unterscheiden
Kann mit Homogenitätstest geprüft werden
Bei vorliegender Heterogenität muss Unterschiedlichkeit durch Moderatorvariablenanalyse und Subgruppenbildung erklärt werden
Random Effects Modell
Annahme: Primärstudien messen verschiedene Populationseffekte
Quelle von Unterschieden in den Effektstärken Stichprobenfehler und systematische Unterschiede zwischen Primärstudien
Prüft Nullhypothese: Mittelwert der Effektstärkenschätzung der Primärstudien beträgt Null
Kann bei vorhandener Heterogenität angewendet werden und diese nicht vollständig durch die Moderatorvariablenanalyse aufgeklärt werden kann
Konfidenzintervalle breiter als bei Fixed Effect Modell
Mixed Effect Modell
Kombination aus Fixed Effect Modell und Random Effects Modell
Modell kommt bei heterogenen Primärstudien imHinblick auf inhaltlicher konzeptioneller und statistischer Ebene zum Einsatz
Nur ein Teil der Heterogenität lässt sich durch Moderatorvariablenanalyse aufklären
Durchführung einer Metaanalyse- 5. Primärstudien: einheitliche Effektstärkenberechung
Um Gesamteffektschätzung zu machen müssen Effektstärken der Primärstudien in einheitliches Effektstärkenmaß transformiert werden
Effektstärkemaß abhängig von Ziel der Forschungshypothese z.b. Vergleich von Interventions- mit Kontrollgruppe —> standardisierte Gruppendifferenzmaße Cohens d oder Hedges g
Durchführung einer Metaanalyse - 6 Gesamteffekt berechnen und Prüfung auf Signifikanz
Zusammenfassung der Effektstärken in gewichteten Mittelwert
Gewichtung abhängig von MA modell
Durchführung einer Metaanalyse - 7 Homogenitätsprüfung
Durchführung einer Metaanalyse - 8 Heterogenität erklären: Moderatorvariablen und Subgruppenanalyse
Moderatorvariablen können theoretisch begründete ausgewählte Variablen sein
Überprüfung bsp mit Meta Regression —> bei signifikanten ß der Moderatorvariablen bildung von Subgruppen
Subgruppenanalyse beim Fixed Effect Modell —> Überprüfung der Bedeutsamkeit eines möglichen Moderators, Homogenitätsprüfung der durch Moderatorvariable gebildeten Subgruppen
Durchführung einer Metaanalyse - 9 Ergebnisse präsentieren & interpretieren
Tabellarische Darstellung der Ereignisse z.v. Forrest Plot
Genause Interpretation der Ergebnisse —> Theoretische Bedeutung, Praktische Bedeutung
Was ist Zustandsevaluation
Beschreibung und Bewertung des ISt- Zustands
Meist mit Ziel der Optimierungsbedürftigkeit —> Evaluation als Basis für Entscheidung ob Intervention Notwendig ist
Ziele und Funktionen der Zustandsevaluation
Ermittlung des Bedarfs für eine Intervention
Erfüllung gesetzlich vorgeschriebener Berichtspflicht ( z.b. Nachweis über Lehrdeputat)
Entscheidung über Fortführung einer Maßnahme
Beschreibung /Bewertung von Zuständen
Was ist Multimethodale Diagnostik
Wenn Variablen nicht direkt beobachtbar sind —> mehrere unterschiedliche Methoden nützlich
z.b. Unterschiedliche Datenquellen ( Perspektiven), Methoden der Datengewinnung (Leistungstests, Verhaltensbeobachtung, Textanalyse etc), Manifestationsebenen ( Kognition, Emotion,Verhalten)
Was ist der Qualitative Ansatz
Ziel: Exploration eines Zustandes
Subjektivität erwünscht, Realität ist was Betroffene denken
Qualitätskriterium: Inhaltsvalidität
Flexible Datenerhebungsmethoden
Ausprägungsunterschiede zwischen Personen,Situationen und Zeitpunkten können verglichen werden mit “ anders als”
Was ist der Quantitative Ansatz
Ziel: Messung der Merkmalsausprägungen
Objektivität ist Qualitätskriterium, Realität möglichst reliabl und valide abgebildet
Qualitätskriterien: Objektivität, Reliablilität, Validität
Datenerhebungsmethode mit Messmodell
Ausprägungsunterschiede sind “gleich” “mehr” oder “weniger”
Gefahren bei Messungen - Was sind die typischen motivierten Verzerrungen& Verfälschungen die (auch) im Feld auftreten?
Selbstdarstellungstendenz, soziale Erwünschtheit
Aufforderungscharakter der Befragungssituation ( Erwartungen der Teilnehmer)
Hawthrone Effekt ( Teilnehmer wissen das sie beobachtet werden)
Rosenthal Effekt / Pygmalion Effekt
Gefahren bei Messungen - Was sind die typischen unmotivierten Verzerrungen & Verfälschungen bei Fremdbeurteilungen die (auch) im Feld auftreten?
Primacy Effekt (erster Eindruck)
Recency Effekt (letzter Eindruck)
Halo Effekt (Überstrahlung)
Bestätigungsfehler
Assimilationsfehler (oberflächlich ähnliche Personen, werden ähnlich bewertet)
Kontrasteffekt
Beschreibung / Bewertung von Zustanden
Beschreibung der Häufigkeit - Schwierigkeiten bei Häufigkeitsmessungen
Zeitliche Fluktuation
Unmöglichkeit der Totalerhebung
Hellfeld vs Dunkelfeld
Beschreibung der Häufigkeit - Epidemiologie - Prävalenz und Prävalenzrate
Prävalenz = Anzahl der Erkrankten
Prävalenzrate= Anteil der Erkrankten
Beschreibung der Häufigkeit - Epidemiologie - Lebenszeit Prävalenz und Inzidenz
Lebenszeitprävalenz= Wahrscheinlichkeit der Erkrankung über die Lebensspanne
Inzidenz : Neuerkrankungen innerhalb eines Zeitraumes
Strategien der Stichprobenziehung
Probabilistische vs. nicht probabilistische Stichproben ( Wahrscheinlichkeit der Auswahl bekannt)
Stratifizierung ( geschichtete Stichprobe)
A priori Stratifizierung: Zufallsauswahl nach Schicht z.b. Geschlecht
Ex Post Stratifizierung : Gewichtung der Ergebnisse im Nachinein
Quotenstichprobe: wie Stratifzierung aber Auffüllen der Schicht statt Zufallsauswahl
Vergleichskriterien - Welche Möglichkeiten um Ist- Zustand zu bewerten?
Normative Vergleiche
Idealnorm ( 600 PISA Punkte)
Kriterale Normen ( Klausur bestehen)
Realnorm ( Durchschnittswerte haben)
Empirische Vergleiche
sozialer Vergleich z.b. Gruppen oder Regionen
Temporaler Vergleich
Statistische Signifikanz - Hypothesen Testung
Wahrscheinlichkeit das die vorliegende Stichprobe aus einer Population mit bestimmten Eigenschaften stammt z.b. mit ANOVA, z Test etc
Statistische Signifikanz - Praktische Bedeutsamkeit
bedeutet nicht gleich praktische bedeutsamkeit
Effektstärkemaß zur Abschätzung z.b. Cohens d
Empfehlungen zur Bewertung dieser Effektstärkemaße, z. B. Cohens d=0.5 entspricht einem „mittelgroßem “ Effekt
Zustandsevaluation PISA
Wofür steht PISA und was wird da gemacht?
PISA = Programme for International Student Assessment
Vergleichsstudie der OECD
Datenerhebung alle 3 Jahre seit 2000
Hauptfragestellung: Wie gut sind 15 Jährige auf die Anforderungen in einer Wissensgesellschaft vorbereitet
Hauptziel: Feststellen, wie gut Jugendliche ihr in der Schule gelerntes Wissen in alltäglichen Situationen anwenden können
Bewertet Mathe, Naturwissenschaften, Lese Kompetenzen
Deutsche Beteiligung
Alle 16 Bundesländer
Schüler in Testgruppen unterteilt.
In Deutschland insgesamt 12300 Schüler—> Pro schule 30 und zusätzlich 15 ( nationaler vergleich) der 9. Klasse
Unterschiedliche Schüler bekommen unterschiedliche Auswahl an Fragenpools
ca 2 Stunden
Wie läuft die Kompetenzmessung und wann gilt Kompetenz als erreicht
Unterschiedliche Itemschwierigkeiten
Kompetenzstufe erreicht wenn Aufgaben dieser Schwierigkeit mit hinreichender Sicherheit gelöst werden
Kompetenzmessung - Lesekompetenz/ mathematik und Naturwissenschaften
Lese: Verstehen und Nutzen von texten sowie Reflexion, Lesekompetenz sehr breit und komplex
Mathe: Grundbildung, Aus alltag bekannte begriffklickeiten, Entnahme von Infos aus Tabellen etc
Naturwissenschaften: Wissen anwenden. Eigenschaften der NW als eine Form emnschenlichen Wissens und Forschens verstehen
Kritik
Nicht rein wissenschaftlich z.b. Items werden geheim gehalten, Daten nicht mehr veröffentlicht
Utilitarisches Bildungsziel
Qualität der Aufgaben z.b. unterschiedliche Kompetenzen je nach Lösungsweg
Mangelnde interkulturelle Vergleichbarkeit z.b. Übersetzungsprobleme, Textlänge, Vertrautheit mit Aufgabenformat
Testung einer Alterskohorte statt einer Klassenstufe—> benachteiligung bei späterer Einschulung oder Wiederholung
Anlage vs. Umwelt gehen unterschiede wirklich auf Scule zurück?
Schule vs außerschulische Bildung
“Sehr aufwändige IQ messung”
Beschreibung und Bewertung von Veränderungen
Veränderungen - Was kann Sich verändern? Mit Beispielen
Quantitative Veränderung ( “mehr” oder “weniger” stark ausgeprägt)
Investitionen, Prävalenz von Depression
Qualitative Änderung ( Andersartigkeit)
neue Formen von Gewalt, Kommunikationskanäle von Schulern
Mischformen
neue Kommunikationskanäle dazu gekommen und Nutzungsgrad hat sich verändert
Unterschiedliche Analyseeinheiten wie Individuum, Gruppe, eine Sache
Individuum: Therapieverbesserung
Gruppe : Nutzung von Öffis
Sache: Ausstattung von Schulen in PISA
Welche Veränderungsmaße gibt es
Differenzmaße auf Einzelfallebene ( Punkte einer Person haben sich reduziert ) und Gruppenebene ( Belastung durch Depression während Covid hat in bevölkerung zugenommen) —> Relativierung mithilfe von Merkmal. Standartabweichung wichtig
Häufigkeitsveränderungen auf Populationsebene
Trendanalyse
Zeitreihenanalyse
Maße auf Einzelfallebene - Was ist die Standardisierte Differenz und Klinische Signifikanz?
Standardisierte Differenz: Individuelle Differenz relativiert an der Standardabweichung des Merkmals
Klinische Signifikanz: Reliable Change Index (RCI), Individuelle Differenz relativiert an der Standardabweichung der Veränderung
Maße auf Gruppenebene
Was ist die Durchnittliche intraindividuelle und interindividuelle Veränderung?
Durschnittliche intraindividuelle Veränderung = Veränderung der gleichen Personen über die Zeit ? Messwiederholung
Durchschnittliche Interindividuelle Veränderung = Vergleich unterschiedlicher Personen über die Zeit
Häufigkeitsveränderungen
auf Populationsebene?
auf Populationsebene : Prävalenz , Inzidenz
Chi Quadrat Test bei Kontingenztabellen
Bezugssystem wichtig
oft mithilfe von Regressionsmodellen mit Zeit als Prädiktor
Lineare oder quadratische Trends oder Trends höherer Ordnung
Zeitreihenanalysen - Was ist das
Verfahren zur Analyse von intraindividuellen Veränderungen in bezug auf Trends oder z.b. saisonale Veränderungen
Vorhersage von Verkäufen mit saisonaler Schwankung und Konfidenzintervallen
Methode Probleme - Welche können auftreten?
Direkte vs indirekte Messung der Veränderung
Verzerrungen und Verfälschungen
Änderungssensitiviät
Regressionseffekt
Methode Probleme - Direkte vs indirekte Messung
Indirekte Messung = zwei Messzeitpunkte z.b. Vorher nacher Messung
Pro = weniger anfällig für absichtliche Verzerrungen, guter indikator für objektivierbare Veränderungen
Con= Anfällig für Effekte die mit echter Veränderung nichts zutun haben , Gefahr der selketiven Drop outs
Direkte messung= subjektive veränderung im Rückblick
Pro= ökonomisch weil nur ein Messzeitpunkt, guter indikator für subjektive Veränderung
Con=Anfällig für absichtliche Verzerrungen wie Konfirmationseffekt, selektive Gedächtniseffekte ; hoher Aufforderungscharakter
Methode Probleme - Verzerrungen und Verfälschungen
bei indirekter Messung
Errinerungseffekte = VP weiß noch was beim ersten mal geantwortet wurde
Testübung = Test bei wiederholung leichter
Sensibilität für Fragestellung
Zwischenzeitliches Geschehen z.b. wirtschaft hat sich verändert
Response shift: subjektiver Maßstab bei Rating kann sich verändern
bei direkter Messung
Konfirmationseffekt = Endergebnis bekannt daraum selektive oder verzerrte Erinnerung
Selektive Gewichtung von Infos z.b. recency effect
Assimilations und KOntrasteffekte = abweichungen werden über oder unterschätzt
Methode Probleme - Änderungssensitivität
Messinstrument muss in der Lage sein die Veränderung auch zu messen
Probleme : zu hohe oder geringe psychometrische Schwierigkeit
Messung von stabilen Eigenschaften ( traits) statt von zustanden (states)
Methode Probleme - Regressionseffekt
“regression zur Mitte”
Statistischer effekt durch Untersuchung einer Extremgruppe
Tritt immer auf wenn Autokorrelation <1 und identische Varianzen der Messzeitpunkte da sind
Was ist eine Moderatorvariable
Zusammenhang zweier Variable wird durch eine dritte Variable Verändert
Moderatoren von Veränderungen
Kann wichtig sein zu analysieren wovon Veränderung abhängt oder unter welchen Bedingungen sie auftritt
z.b.
Subgruppen wie Geschlecht/ Alter
Kontextbedingungen wie Region/ Schultyp
Zeitpunkte wie Training nur im Winter effektiv
BSP= Therapeierfolg bei Depressionen durch Moderator Therapeutenbeziehung beeinflusst
Evaluation der Wirkung und Wirksamkeit einer Maßnahme
Unterschied Wirksamkeit und Wirkung
Wirksamkeit= die durch eine Maßnahme verursachten beobachteten Konsequenzen ( Effekte)
Wirkung= die modelltheoretisch angenommenen Mechanismen ( Prozesse) die zu den Beobachteten Effekten geführt haben
Welche Gründe gibt es für Wirksamkeitsforschung?
Optimierung der Maßnahme geht nur wenn Wirkmachanismus bekannt ist
Notwendige Bestandteile oder Durchführungsbedingungen können nur mit Wirkungsanalyse identifiziert werden
Kostenreduktion für Maßnahme nur möglich wenn Wirkmachanismus bekannt ist
Wirkmodelle - Was ist die theoretische Basis der Wirkungsanalyse
Spezifikation der Prozesse
Begründung warum eine Maßnahme wirken sollte
Randbedingungen von denen die Wirkung abhängt
Theorie und Wirksamkeit
Welche Ursachen gibt es für einen ausbleibenden Effekt?
Grundlagenebene = Theorie falsch, Randbedingungen nicht erfüllt
Technologische Ebene = Intervention nicht korrekt aus Grundlagentheorie abgeleitet
Implementationsebene= konkrete Umsetzung mangelhaft
Evaluationsebene= Effekt ist aufgetreten wurde von Evaluation aber nicht nachgewiesen z.b. durch mangelnde sensitivität oder ungeeignete Kriterien
Welche Wirkzusammenhänge gibt es außer Ursache-Wirkung?
Multiple Ursachen
Multiple Auswirkungen
Moderatorvariable = Verändert zusammenhang zwischen zwei Variablen
Mediatorvariable= stellt zusammenhang zwischen zwei Variablen her
Moderatorvariable Beispiel
Zusammenhang von “in einer Beziehung” und “Lebenszufriedenheit” unterscheidet sich in verschiedenen Altersgruppen —> Bei 35-39 mehr als bei 60+
Stat. analyse —> Nachweise meist über Interaktionseffekt in Regression bzw in der Varianzanalyse
Mediatorvariable Beispiel
Kontakt mit einer Minderheit reduziert Angst. Weniger Angst fürt zu weniger Vorurteilen gegenüber Minderheit
Stat. Analyse—> Nachweis über Mediatoranalyse: Vergleich der direkten Regression mit den Teilregressionen
Wie wird die Wirksamkeit gemessen
Festlegung von Wirkungsbereichen z.b. durch Ableitung aus Zielen, Ebenenmodell von Kirkpatrick
Operationalisierung festlegung
Datenquellen definieren ( z.B. Selbsteinschätzung, Fremdeinschätzung,Dokumentenanalyse)
Welche Gütekriterien gibt es zusätzlich hierzu ?
Anlehnung an die Inhalte der Maßnahme
Neutralität gegenüber der Intervention
Angemessene Schwierigkeit
Was ist Persistenz und wie wird die gemessen
= Effekte der Maßnahme ( z.b. Erwerb von Fähigkeiten) sollen dauerhaft seon ( Nachhaltig)
Messung durch Follow up ein oder mehrfach
Unterschiedliche Zeitverläufe möglich z.b. stabile Wirksamkeit, Wirksamkeitsverlust, Wirksamkeitsgewinn ( Persistenzgradient
Was ist Transfer ? Welche zwei Arten von transfer gibt es?
=Effekte der Maßnahme sollen auch in Kontexten außerhalb der Maßnahme verhaltenswirksam sind
Arten: Situationstransfer = ANwendung auf gleichartige Situationen; Anforderungstransfer= das gelernte hilft auch neue anforderungen besser zu meistern
Was ist transfer aus psychologischer Sicht
Überführung von deklarativen Wissen in prozedurales Wissen
Vermittlung metakognitiver Strategien
Nutzung von Prinzipien studierten Lernen
Bedingungen für erfolgreichen Transfer
Variation von Praxisbedingungen
Kontextuelle Interferenz, komplexes Lernumfeld
Verteiltes Lernen
Eingeschränktes Feedback —> erst viel dann weniger
weniger lernen mehr abrufen
Neben und Folgewirkungen
Nebenwirkungen= Wirkungen, die paralell zur Wirksamkeit verlaufen aber nicht intendiert und Einfluss auf die Wirkung haben —> positiv und negativ
Folgewirkungen= Wirkungen die sich erst später manifestieren aber auf die Intervention zurückzuführen sind —> positiv und negativ
Robustheit was ist das
Idealerweise generalisiert die Wirkung über Kontexte, Personen, Zeitpunkte und Evaluationsstudien
Spezifikation von Moderatorvariablen hilft Randbedingungen zu erkennen
MA als stat. Mittel zur Überprüfung der Robustheit
Evaluation des Nutzen und der Kosten einer Maßnahme
Entscheidung über Maßnahmen - welche Kriterien gibt es dazu ?
Anhang absoluter Kosten = Was ist günstigste Maßnahme unabhängig von der Wirksamkeit
Allein anhand Wirksamkeit= Was ist effektivste Maßnahme unabhängig der Kosten
Anhand Wirksamkeit im verhältnis zu den Kosten = Was ist die effizienteste Maßnahme ?
Quantifizierung von Kosten - Verscheidene Kostenarten
Manifeste Kosten ( tatsächlich gezahlt) z.b. Planungskosten oder Materialkosten
Latente Kosten z.b. staatliche Versorgungsmaßnahmen, volkswirtschaftlichen Schaden
Opportunitätskosten: entgangener Nutze durch nicht wahrgenommene Möglichkeiten
Nutzen - Was ist das
Nutzen belegt Wirksamkeit mit einem Wert
Nutzen = Wirksamkeit x Wert
Nutzen - Besonderheiten und Schwierigkeiten
Quantifizierung sozialer Werte, z. B. Leben, Krankheit, verhinderter Unfall
Quantifizierung von Neben und Folgewirkungen: nicht immer bekannt
Zeitpunkt und zeitliche Dynamik der Wirksamkeit (vgl. Persistenzgradienten ): wenn sich die Wirksamkeit verändert, muss das auch bei der Nutzenbewertung berücksichtigt werden
Wirkungs-Nutzen Relation: Zusammenhang von Wirkung und Nutzen nicht immer linear
Perspektivenabhängigkeit: Wert und Nutzen kann für unterschiedliche Beteiligte stark variieren; Beispiel: Kosten für einen Gefangenen aus Sicht des Anstaltsleiters vs. Gesellschaft
Multivariate Nutzenfunktionen
Wirkungs-Nutzen-Relation erklären an Beispiel
Jede verhinderte HIV Infektion erhöht den Nutzen (1)
Steigerung der Absatzzahl bringt dem Unternehmen ab einem bestimmten Punkt durch höhere Kosten keinen Vorteil mehr (2)
Erhöhung der sozialen Kompetenz wird erst ab einer bestimmten Effektgröße sichtbar(3)
Übermäßige Gewichtsabnahme ist schädlich (4)
Nutzen , Besonderheiten& Schwierigkeiten
Perspektivenabhängigkeit - mögliches Vorgehen
getrennte Kosten Nutzen Analysen für
Perspektive des Individuums
Perspektive des Geldgebers/Sponsors
Perspektive der sozialen Gemeinschaft
Modelle der Effizienzanalyse
Wie Sollen kosten und Nutzen miteinander verechnet werden?
Kosten Nutzen Analyse
Kosten Effektivitäts Analyse
Modelle der Effizienzanalyse - Kosten Nutzen Analyse Kennwerte
Nettonutzen NN = Differenz von Nutzen und Kosten NN= N-K
Nutzenquotient= Verhältnis von Nutzen zu Kosten
Profitrate PR = Verhältnis vom Nettonutzen zum Nutzen
Modelle der Effizienzanalyse - Kosten Effektivitäts Analyse
Nutzen nicht immer in Geld ausdrückbar
Stattdessen Vergleich von Maßnahmen über Wirkungseinheiten
bsp Kosten pro erfolgreich behandelter Person
Nutzenschwelle
Break Even Point= ab welchem Punkt entsprechen sich Kosten und Nutzen?
bsp: Mindestabsatz, Mindeszahl zu erreichender Personen durch Präventionskampange
Prospektive Evaluation und Maßnahmenplanung
Prospektive Evaluation - Was ist das und welche Ziele werden verfolgt
“nach vorne schauende” Evaluation
Ziele : Bedarfsanalyse: Besteht Interventionsbedarf?
Bestimmung des Problem
Bestimmung der Zielgruppe
Bestimmung und Bewertung des Ziels der Intervention
dann: KOnzeptionsanalyse: Wird eine konkrete Maßnahme diesem Bedarf gerecht ?
Bedarfsanalyse
Was ist Bedarf und wie wird er Begründet
Bedarf ist nicht objektiv feststellbar sondern soziale Konstruktion
Begründung durch vergleich mit Ist Zustand mit
Idealnorm
Realnorm
Soziale Norm
Temporale Norm
Beispiel für Ideal-,Real-,Soziale- und Temporale Norm anhand von Selbsthilfe Gruppe
Idealnorm: Jeder soll innerhalb von 10 km von seinem Wohnort Zugang zu einer Selbsthilfegruppe haben
Realnorm: Im Bundesdurchschnitt gibt es pro 100.000 Einwohner eine Selbsthilfegruppe
Soziale Norm: Hannover und Kassel haben
auch Selbsthilfegruppen
Temporale Norm: bis vor 3 Jahren gab es
eine Selbsthilfegruppe
Bedarfsanalyse - Stakeholder
Rollen und Interessen all jener Personen dievon den Ergebnissen direkt oder indirekt betroffen sind
Interessen können abweichen oder sich widersprechen
Es sollten möglichst alle Stakeholdertransparent in Planung, Durchführung undDokumentation des Evaluationsvorhabens in angemessener Weise eingebunden werden.
Problembestimmung- Leitfragen
Wo ist das Problem angesiedelt
Wie lange existiert das Problem bereits?
Wie groß ist das Problem?
Wie ist das Problem über soziale Einheiten, sozio demographische Einheiten oder räumlich verteilt?
Kann die Ursache des Problem ermittelt werden?
Bestimmung der Zielgruppe - Elemente der Zielgruppe
Soziale Einheiten ( Personen)
Sozialstrukturelle Einheiten ( Schichten)
Räumliche Einheiten( Wohngebiete)
Bestimmung der Zielgruppe - Spezifität der Zielgruppe
Universelle Ansätze: Maßnahmen richtet sich an alle
Indizierte Ansätze = Maßnahme richtet sich an Personen die Problemverhalten zeigen
Selektive Ansätze= Maßnahme richtet sich an Personen die zu einer Risikopopulation gehören
—>bei indizierte und selektive Ansätze sind passende Inklusionskriterien zu definieren
Ausschöpfungsquote= Ausmaß in dem richtig positiv und richtig negativ korrekt differenziert werden
Zielbestimmung - Zielhierarchien
was ist das und welche gibt es
= Unterschiedliche Formen Ziele festzulegen und darzustellen
Arbeitsschritthierarchien = welche Schritte auf dem Weg zur Zielerreichung notwendig sind
Bedingungshierarchien= erreichte Ziele können Bedingung für Oberziele sein
Konkretheitshierarchien= Ziele mit unterschiedlichen Abstraktionsniveau
Wirkebenen ( Kirkpatrick) = Reaktion, Lernerfolg, Verhaltensebene , Ergebnis
Konzeptionsanalyse - Was ist das und was wird gemacht?
= Ist die Maßnahme geeignet um vom Problem ( Ist Zustand) zum Ziel ( Soll Zustand) zu gelangen?
—> Bedarfsorientierung, Bewertung des Wirkmodells, Anpassung der Maßnahme an die Rahmenbedingungen
Konzeptionsanalyse - Bedarfsorientierung - Welche Fragen werden hier gestellt?
Greift die Maßnahme da, wo das Problem angesiedelt ist?
Ist die Maßnahme für Größe und Ausprägung des Problems angemessen?
Berücksichtigt die Maßnahme hinreichend die Verteilung des Problems?
Setzt die Maßnahme an den richtigen Ursachen des Problems an?
Ist die Ausschöpfungsquote hinreichend?
Konzeptionsanalyse - Bewertung des Wirkmodells - Welche Fragen werden sich gestellt?
Sind die Ziele eindeutig definiert und operationalisierbar?
Sind die Ziele realistisch?
Mit welchen Neben und Folgewirkungen ist zu rechnen?
Sind die Wirkmechanismen theoretisch gut begründet?
Ist hinreichend geklärt, wie die Zielgruppe identifiziert werden kann?
Sind die Ziele und Komponenten hinreichend
definiert?
Konzeptionsanalyse - Bewertung des Wirkmodells - Die Delphi-Methode
ein systematisches, mehrstufiges Befragungsverfahren für Experten mit Rückkopplung
Schätzmethode, die dazu dient, zukünftige Ereignisse, Trends, technische Entwicklungen möglichst gut einschätzen zu können
Ablauf
Problemstellung wird vorgegeben
Experten geben unabhängig voneinander Schätzung/Meinung (und evtl. Begründung) ab
Schätzungen zusammengefasst und rückgekoppelt
Wiederholung der Schätzung bis Abbruchkriterium (z.B. hinreichende
Übereinstimmung) erreicht
Konzeptionsanalyse - Bewertung des Wirkmodells -
Planungszelle
Bürgerbeteiligungsverfahren
25 Bürger werden für eine Woche von ihren Verpflichtungen befreit und erarbeiten Lösungsvorschläge für ein gegebenes Planungsproblem
Beispiel Hannover: Verbesserung des ÖPNV
Szenario-Technik
Methode der Strategischen Planung und eine Prognosetechnik
Beschreibung alternativer zukünftiger Situationen und wie diese entstehen
Unter anderem: positives und negatives Extremszenario, Trendszenario
Konzeptionsanalyse - Anpassung an die Rahmenbedingungen- Welche Fragen werden sich hier gestellt?
Verfügen Teilnehmer über notwendigen Entwicklungs oder Persönlichkeitsvoraussetzungen?
Sind die Teilnehmer ausreichend informiert und motiviert?
Verfügen die Durchführenden über notwendigen Voraussetzungen?
Liegen Materialien vor?
Personelle, räumliche, zeitliche, rechtliche und finanzielle Voraussetzungen gesichert?
Formative Evaluation- Programmoptimierung und Implemantationskontrolle
Formative Evaluation - Was ist das
verfolgt Ziel die Programmdurchführung zu optimieren & Programmkonzeption zu verbessern
setzt in Phase der Planung und Vorbereitung eines Programms an
Richtet sich an Autoren Trainer Therapeuten etc
Summative Evaluation - Was ist das
Verfolgt Ziel die Wirksamkeit eines Programms zu beurteilen ohne es optimieren zu wollen
stetzt meist nach abschluss ( Ergebnissevaluation) an , kann aber auch bereits im vorfeld ( prospektive E) relevant sein
Programmoptimierung - Was ist das
nicht hypothesentestend sondern erkennen von schwachstellen
Qualitative Aspekte im Vordergrund
Typische Merkmale der Datengewinnung z.b. Interviews, Expertertenurteile, Fokusgruppen,Beobachtungen
Programmoptimierung - Welche Kommunikationspläne können bei Datengewinnung helfen ?
Wer soll befragt werden?
Mit welchem Ziel/Zweck?
Mit welcher Kommunikationsart? z.b. Interview, schriftlich,gruppendiskussion
Wie befragt? Checkliste, Gespräch etc?
Wann und wie oft ?
Implementationskontrolle - was ist das? Welche Leitfragen gibt es?
= Überprüfung der Qualität der Umsetzung einer Maßnahme
Leitfragen =
Sind Leitlinien und Prinzipien erfüllt die der Maßnahme zugrunde liegen?
Wird Maßnahme genauso umgesetzt wie sie geplant wurde?
Entsprechen Ablauf und Inhalt einer Trainingsdurchführung dem Trainingsmanual?
Implementationskontrolle - Wie wird auf Ausführungsintegrität geprüft?
Standartisierungsgrad = gibt es ein Manual? Wie genau schreibt dieses Ausführung vor?
Wo gibt es Abweichungen von Manual ? Rechtfertigung?
Methoden = Beobachtung der Durchführung, der Durchführenden, der Teilnehmer
Checklisten z.b. ITIPS
Standardisierungsgrad - Vorteile
Bessere Identifikation von maßnahmenspezifischen Wirkungen
Positive Wirkungen lassen sich besser auf die Maßnahme zurückführen
Bei negative Wirkungen sind die Erklärungsmöglichkeiten eingeschränkter
Unterschiedliche Implementationen können besser verglichen werden
Bessere Rechenschaft gegenüber Auftraggebern
Einzelfallstudien und Qualitative Datenanalyse
Gruppenstatistische Kennwerte - Was sagen sie über den Einzelfall aus ?
Je nach Datenlage kann der Gruppenmittelwert evtl nicht für eine Vorhersage im Einzelfall verwendet werden
nur für Aggregat hypothesen geeignet “Frauen sind im Mittel sozial intelligenter”
Einzelfallstudien- Wann sind sie besonders geeignet?
idiographische hypothesen = Studentin B hat überdurchschnittlichen IQ
bei seltenen phänomenen
Vorstudien zur Hypothesengenerierung
Als Opterationalisierungshilfe z.b. Test einer experimenteller Prozedur
zur Illustration von gruppenstatistischen Ergebnissen
Einzelfallstudien - Versuchsdesign
Psychometrische Einzelfalldiagnostik, z. B. Vergleich mit Normstichprobe
Quasi experimentelle Einzelfall Designs
(AB Design): Baseline (A) und Intervention(B)
Replikationsdesign (ABAB Design): Wiederholung der Intervention zur besseren Kontrolle
Qualitative Einzelfallstudien
Qualitative Forschung/Datenerhebung
Ziel= transparenter Analyseprozess statt Objektivität
Sicht der betroffenen steht im Mittelpunkt
Realitätsnahe Daten
Dynamisch
Entdecktung und entwicklung von Hypothesen und Theorien aus dem Material
Induktiv, Sinnverstehen
Erforschung von Lebenswelten und Interaktionen
z.b. Interview, Gruppendisskusion, Beobachtung, Tagebücer, Zeichnungen, Videos
Quantitative Forschung/Datenerhebung
Sicht des Forschers/ Außenperspektive
replizierbare Daten
Statisch
Bestätigung vorab festgelegter Gypothesen
deduktiv, messen
Erklären kausaler zusammenhänge, verallgemeinbarkeit von Stichproben auf Population
z.b. Versuch, Experiment, Beobachtung
Grounded Theory
Ziel: Entwicklung einer in den Daten gegründeten bzw. verankerten Theorie ohne Vorannahmen
Sich wiederholender Prozess der Datenerhebung und Analyse
Coding(offenes, axiales, selektives Kodieren)
Memoing (Strukturierung, Reflexion, Theoriebildung)
Theoretical Sampling (Auswahl neuer Fälle)
Qualitative Inhaltsanalyse
theorie und regelgeleitete sowie methodisch
kontrollierte Auswertung qualitativer Daten
Definition von Kategorien
Kodierregeln
Korrespondenzanalytische Auswertung (Clusterbildung,Abdeckung)
Großer Aufwand
Planung von Evaluationsstudien
Kausalität und Validität - Was steckt dahinter?
inwiefern lässt Untersuchungsdesign kausale Interpretation zu ?
Keine wissenschaftlichen plausiblen alternativen Bedingungen können effekt erklären
strenge Kausalitätsbedingungen: nur UV beeinflusst AV
Starke Kausalitätsbedingung : auch störvariablen können AV beeinflussen wenn nicht mit UV korreliert oder nicht mit UV interagieren
schwache Kausalitätsbedingung = Minimalbedingung für kausale Interpretation, Störvariablen verteilen sich gleichmäßig auf alle stufen der UV —>Idealerweise durch Randomisierung sichergestellt
Konfundierung Was kann passieren wenn Störvariable mit UV korreliert ?
—> Gleisinnige Konfundierung = Störvariable beeinflust hypothesen konform, Hypothese wird artifiziell bestätigt
—> gegensinnige Konfundierung = Störvariable beeinflusst hypothesen konträr, hypothese wird artifiziell widerlegt
Randomisierung
Zufällige Zuordnung zu Bedingungen schaltet Störvariablen als Erklärung aus
Grenzen
Zuordnung nicht immer möglich, z. B. Geschlecht: quasi experimentelles Vorgehen
Randomisierung auf Personenebene nicht möglich, z. B. Schulklassen, Trainingsgruppen: Randomisierung auf Gruppenebene
Ethische Bedenken, z. B. Wartezeiten: evtl. Randomisierung nach Einwilligung
Selbstselektion
Bedrohungen der Internen Validität
unterschiedliche Ausgangswerte
systematische Unterschiede in anderen Personenmerkmalen
Reifung oder Spontanerholung/Remission
Maßnahmen unspezifischer Wirkungen z.b. Kontakt mit Therapeut
selektiver Dropout
Alternative Interventionen
Spill-over Effekt- Teilnehmer haben kontakt mit anderer gruppe und profitieren davon
Mangelnde Konstruktvalidität und Eignung des Messinstruments
Mangelnde Reliabilität des Messinstruments
Externe Wirkungen z.b. Placebo Effekt
Erhöhung von interner Validität
Kontrolle personengebundener Störvariablen durch
Konstanthaltung personengebundener Störvariablen, z. B. durch Selektion der Stichprobe
Ausbalancierung personengebundener Störvariablen auf Bedingungen
Parallelisierung (Matching ), z. B. gleichmäßige Geschlechtszuordnung auf Therapieformen
Statistische Kontrolle, z. B. Auspartialisierung , Messung der intraindividuellen Veränderung
Parallelisierung - Univariate Parallelisierungsarten
Univariate Parallelisierung: Zuordnung zu Bedingungen nach einer Variable, z. B. Geschlecht oder Therapiemotivation
Exaktes Matching : jeder Teilnehmer hat einen statistischen Zwilling in der anderen Bedingung
Caliper-Matching (Zirkel Parallelisierung): näherungsweises Matching , z. B. bei kontinuierlichen Variablen
Eins zu n Matching bei unterschiedlich großen Gruppen
Parallelisierung - Multivariate Parralelisierung
=Zuordnung zu Bedingungen nach mehreren Variablen
Stößt bei vielen Merkmalsausprägungen pro Variable schnell an Grenzen
Alternative Propensity Score : Bedingte Wahrscheinlichkeit der Gruppenzugehörigkeit gegeben die gemessenen Störvariablen
Propensity-Score - Vorgehen
Berechnung des Propensity Scores (PS) (logistische Regression): Wie groß ist die Wahrscheinlichkeit zur Treatmentgruppe zu gehören, gegeben die Ausprägungen der Störvariablen
Statistischer Vergleich, ob PS gleichmäßig über die Gruppen verteilt ist
Matching: Ausschluss von einzelnen Teilnehmern
Erneuter statistischer Vergleich des PS
Nun können die Gruppen bzgl. UV verglichen werden
Zuletzt geändertvor 2 Jahren