wichtig beim Vorgehen bei Evaluation
Ausschärfung im Dialog mit Auftraggebenden unter Berücksichtigung d.
sozialen
ökonomischen
organisationalen Kontext
10 Schritte nach Balzer & Beywl (2018)
Zentrale Inhalte eines Evaluationsvertrags
Evaluationsgegenstand
Evaluationszweck & Evaluationsfragestellungen
Verfügbare Informationen
Erhebungsdesign & Erhebungsmethoden
Arbeits- und Zeitplan
Verantwortlichkeiten
Arbeitsaufwand
Meilensteine
FInanzierungsplan
Art der Berichterstattung
Multimethodale Diagnostik besteht aus unterschiedlichen …
Nutzung von unterschiedlichen
Datenquellen (Perspektiven)
Erhebungsmethoden
Manifestationsebenen (Modalitäten)
Multiperspektivische Diagnostik - Warum
unterschiedliche Perspektiven (DAtenquellen)
Selbst- und Fremdeinschätzungen z.B.
Vorteile
vollständigeres Gesamtbild —> über Kontexte hinweg größere Generalisierbarkeit
Reliabilität —> jede Messung einzeln evtl. unsystematische Fehler
Akzeptanz einer Bewertung höher, wenn mehrere Quellen
Verfälschungen Reaktive Messungen
Aufforderungscharakter einer Befragungssituation
Selbstdarstellungstendenz (Soziale Erwünschtheit) statistisch messen und kontrollieren, Erhebungsinstrument verhaltensnah gestalten oder nicht reaktive messmethoden
Hawthorne Effekt, coverstory, indirekte oder implizite Messverfahren
Versuchsleiter-Erwartungs-Effekt (Rosenthal-Effekt / Pygmalion-Effekt)
Nachteile indirekter Veränderungsmessung
anfällig für Effekte, die mit der wirklichen Veränderung nichts zu tun haben
Erinnerungseffekte (wie habe ich es beim 1. mal angekreuzt)
Gefahr selektiver Drop outs
Nachteile direkte Veränderungsmessung
anfällig für absichtliche Verzerrungen
Konfirmationseffekt -> nur an sachen erinnern, die eigene Position unterstützen
selektive Gedächtniseffekte -> Man erinnert bestimmte Aspekte aus der Vergangenheit stärker als andere
Kontrasteffekte -> Wahrnehmung des aktuellen Zustands wird stark durch einen vorherigen Zustand beeinflusst
Hoher Aufforderungscharakter
RCI
Signifikanztest der beobachteten individuellen Veränderungen einer Person
in einer Variable zwischen MZP 1 und 2
MZP2-MZP1 gegen 0 unter Berücksichtigung der Reliabilität d. Messinstruments
Änderungen können auch durch zufällige Messfehler verursacht werden
Deshalb berücksichtigt der RCI die Ungenauigkeit des Messinstruments
Veränderungen / Differenzen auf Gruppenebene Berechnung
standardisierte Differenz d’’ wird berechnet:
ob die Differenz auch signifikant ist, wird mit t-Test abgesichert
Klassifikation für standardisierte Differenzen nach Cohen
|d’’|= 0.14 —> klein
|d’’|= 0.35 —> mittel
|d’’|=0.57 —> groß
Häufigkeitsveränderungen
absolute
relative
prozentuale Häufigkeiten zwischen Zeitpunkten werden verglichen
Methodische Probleme Veränderungsmessung bei zwei MZP
Reliabilität von Differenzwerten schlechter als bei einzelnen Messwerten
weil Messfehler von zwei Zeitpunkten eingehen
weil Reliabilität von Differenzwerten geringer wird, je höher beide Messwerte miteinander korrelieren (Autokorrelation) —> Messfehler haben einen größeren Einfluss auf die Differenzen
Regression zur Mitte
Differenzielle Veränderungen
muss berücksichtigt werden!
Veränderungen können für verschiedene Personen unterschiedlich stark ausfallen
Differenzielle Treatment-Effekte: bestimmte Patientengruppen profitieren stärker als andere
Können analysiert werden, indem Wechselwirkungen zwischen Zeit und Personenvariablen einbezogen werden
MODERATORANALYSEN
Wird der erwartete Effekt nicht gefunden, mehrere Ursachen möglich:
1) Grundlagenebene
2) Technologische Ebene
3) Implementationsebene
4) Evaluationsebene
Wirksamkeitsprüfung
Wirkmodell mit Prozess- und Kriteriumsvariablen
Identifikation von Wirksamkeitsebenen -> häufig Ansatz von Kirkpatrick eingesetzt
Variablen müssen in geeigneter Weise operationalisiert werden
Zentrale Herausforderung: Es sollen kausale Inferenzen ermöglicht werden
Hinzuziehen von Versuchsplänen und Kontrolltechniken der Experimentalpsychologie
Weitere Gütekriterien neben den Hauptgütekriterien
Symmetrie
Neutralität
Angemessene Schwierigkeit
Kriterien sollten den Inhalten entsprechen, auf die die Maßnahme primär abzielt
Symmetrie sollte sicherstellen, dass die Messung auch änderungssensitiv
Was für Effizienzanalysen gibt es?
a priori
a posteriori
Kosten-Nutzen-Analyse
Kosten-Effektivitäts-Analyse
Effizienz in einer Effizienzanalyse
Verhältnis der Kosten zu deren Nutzen
Kosten quantifizieren - verschiedene Kostenarten
Direkte Kosten
Indirekte Kosten
Opportunitätskosten
was muss bei Bestimmung des Nutzens berücksichtigt werden
wann entfaltet sich die Wirkung der Maßnahme
auf welchen Zeitpunkt bezieht sich die EInschätzung -> Persistenz
Was für Beteiligtenperspektiven gibt es?
Rossi et al: drei Beteiligtenperspektiven:
1) des Individuums
2) des Geldgebers
3) der sozialen Gemeinschaft
-> werden additiv verrechnet
Effektivität
wird manchmal synonym für Nutzen benutzt
Nutzenschwelle
Engl: Break-even-Point
Punkt, an dem der Nutzen einer Maßnahme identisch mit deren Kosten ist NN=0 (Nettonutzen)
wie groß muss der Effekt einer Maßnahme sein, damit sich die Durchführung lohnt
Wie werden Maßnahmen bei Evaluationen bewertet
Maßnahmen werden hinsichtlich eines oder mehrerer Evaluationskriterien beschrieben und bewertet
Bei Bewertung: Welchen Effekt hat die Maßnahme auf Evaluationskriterien?
Maßnahme: UV, Evaluationskriterien: AV
interne Validität
Gütekriterium, das beschreibt, inwiefern ein Untersuchungsdesign in der Lage ist, kausale Interpretationen zuzulassen
Kausalität
Beziehung zwischen Ursache und Wirkung
Bedrohungen interne Validität
Nach Gollwitzer und Jäger:
Individuelle Störvariablen -> v.a. durch fehlende Randomisierung
maßnahmen-fremde EInflussfaktoren außerhalb von Personen -> Reifung, Spontanerholung, maßnahmenunspezifische Wirkungen, zwischenzeitliches Geschehen
Beeinträchtigung der Maßnahmen-Teilnahme -> selektiver Dropout, Alternative Interventionen, Spillvoer-Effekte
Probleme mit Messinstrumenten / ungeeignet oder unreliabel
Definition Randomisierung
gleichmäßige Verteilung aller möglichen (inklusive der unbekannten) Störvariablen auf alle Versuchsbedingungen durch zufällige Zuweisung zu Bedingungen
Randomisierung wichtigste Technik in der Gestaltung von Studiendesigns —> RCT
Cluster Randomised Trials
—> Clusterstichproben, resultierende Datenstrukturen sind hierarchische Datenstrukturen oder Mehrebenenstrukturen
v.a. bei klinischen Studien häufig gemacht
geht nur bei genug Gruppen
Warum kann eine Randomisierung nicht immer erfolgen?
Ethische Bedenken —> Therapie vorzuenthalten
Freiwilligkeit —> Personen müssen freiwillig teilnehmen unabhängig davon ob sie KG oder EG zugeordnet werden
ohne Randomisierung: quasi-experimentell
Personengebundene Störvariablen kontrollieren
Mehrere Techniken
Konstanthaltung bei bekannten
Regressions-Diskontinuitäts-Design bei ethischen Gründne
Parallelisierung bei bekannten
Statistische Kontrolle
Propensity Score MAtching
über Propensity Scores (Neigungswert)
vorhergesagte bedingte Wahrscheinlichkeit, mit der eine Person gegeben ihrer gemessenen Werte auf den Störvariablen in eine bestimmte Gruppe kommt
-> oft durch log. Regression
1) Gewichtung anhand des PS
2) Parallelisierung anhand des PS
Warum Messen des Ausgangswertes
meistens: deutliche Steigerung der internen Validität weil
Erinnerungseffekte zb.
Antworttendenzen
viele Störfaktoren werden kontrolliert wenn man einen prätest hat sieht kann man besser den tatsächlichen Effekt testens
Spezifische Designs mit Vorher-Messung
Split-Plot-Design
Designs mit multiplen Prä-Tests
Designs mit Treatment-Vertauschung (WartelistenKG) und EG Follow-up
Der Solomon 4-Gruppen-Plan -> Messwiederholungs, erinnerungs und Testübungseffekte
Designs mit KG
unbehandelte
Warte-KG (!!! Spillover und alternative Treatments ausschließen)
unspezifisch behandelte KG (nur wirksam erachtete Elemente nicht enthalten —> Maßnahmen-unspezifische Wirkungen sollen ausgeschlossen werden)
Placebo-KG (ethisch schwer)
Warum Wartelisten KG
(!!! Spillover und alternative Treatments ausschließen)
Designs ohne KG
massive Erhöhung der MZP
Vergleich mehrerer nicht-äquivalenter AV
Kohorten-Designs
Vergleich mehrerer nicht-äquivalenter AVs
verschiedene Avs werden betrachtet, die teilweise ansprechen auf:
maßnahmenspezifische Wirkungen
maßnahmenunspezifische Wirkungen
externe Wirkungen
wenn Veränderungen NUR in den maßnahmenspezifischen AVs, nicht aber in den anderen Avs —> spricht für Wirkung der Maßnahme
Kohorten-Vergleiche Probleme
bei Maßnahmen, die die ganze Population betreffen
Gesundheits- oder Bildungsreformen
Reifungseffekte Ausschließen
interne Validität hängt ab von
Vergleichbarkeit der Personen in den Kohorten
keine Veränderung der sonstigen Bedingungen
Gefährdung der internen Validität durch z.B. Parallelereignisse
-> Geht mit parallelisierung oder Messwiederholung
Last changed2 months ago