Wie werden Maßnahmen bei Evaluationen bewertet
Maßnahmen werden hinsichtlich eines oder mehrerer Evaluationskriterien beschrieben und bewertet
Bei Bewertung: Welchen Effekt hat die Maßnahme auf Evaluationskriterien?
Maßnahme: UV, Evaluationskriterien: AV
Methodik Versuchsplanung Evaluation
Methoden der experimentellen Versuchsplanung werden genutzt, um Effekte zu isolieren
wenn Effekte isoliert werden können —> Versuchsplan intern valide
interne Validität
Gütekriterium, das beschreibt, inwiefern ein Untersuchungsdesign in der Lage ist, kausale Interpretationen zuzulassen
Kausalität
Beziehung zwischen Ursache und Wirkung
es gibt verschiedene Ansätze zur Konkretisierung des Konzepts
aus Psychologie
Statistik
Philosophie
Informatik
Störvariable
Variable, einen Einfluss auf die AV hat
wurde nicht als unabhängige Variable untersucht, hat aber einen Effekt auf die AV
UV
variiert planmäßig / manipuliert
AV
wird hinsichtlich des Effekt der UV Variation beobachtet
Voraussetzungen kausaler Schlüsse
Kovariation
Zeitliche Vorgeordnetheit
Ausschluss von Alternativerklärungen
Variation der UV geht einher mit Vatiation der AV
zeitliche Vorgeordnetheit
UV muss vor AV auftreten
NICHT Zeitpunkt der MEssung gemeint
Ausschluss von ALternativerklärungen
UV muss einzige plausible ERklärung für AV sein
Kontrolltechniken hier wichtig!!!!!!!!!
Drei unterschiedlich strenge Kausalitätsbegriffe
Schwache Kausalitätsbedingung
Starke Kausalitätsbedingung
Strenge Kausalitätsbedingung
wenn weite Einflussgrößen nicht exisitieren dürfen
Ausschließlich von der UV beeinflusst!
Voraussetzung ist in sozialwissenschaftl. Kontexten praktisch nie erfüllt (eher in physikalischen Experimenten)
starke Kausalitätsbedingung
AV darf auch von Störbedingungen beeinflusst werden
aber zwei Voraussetzungen
Störvariablen unkorreliert mit der UV
Störvariablen dürfen hinsichtlich des Effekts auf die AV nicht mit der UV interagieren
—> weder Moderator- noch Mediatorvariablen dürfen eine Rolle spielen
—> nur ein Einfluss von SV auf AV ist erlaubt
—> unter allen denkbaren Beindungen (alle Personen in allen SItuationen gleihce Wirkung!!!!)
—> immernoch sehr streng und idr unrealistisch
konfundierende Variablen
ist eine Variable, die einen Zusammenhang mit einer UV und einen Effekt auf eine AV aufweist und nicht auf dem kausalen Pfad liegt, der zu interpretieren ist
ist eine besondere SV
in starker Kausalitätsbedingung nicht zulässig!
realistische Minimalbedingung
alle Störvariablen, die auf AV wirken sind auf den Stufen der UV gleichmäßig verteilt oder anders kontrolliert
—> durch Kontrolltechniken
—> Störeffekte sind unsystematisch
—> Störeffekte erhöhen die unsystematische Fehlervarianz aber verzerren nicht den Effekt der UV auf die AV systematisch
Varianzaufspaltung
Bedrohungen interne Validität
Nach Gollwitzer und Jäger:
Individuelle Störvariablen
maßnahmen-fremde EInflussfaktoren außerhalb von Personen
Beeinträchtigung der Maßnahmen-Teilnahme
Probleme mit Messinstrumenten
Wie muss ein Evaluationsdesign konstruiert sein?
so, dass potenziell plausible Alternativerklärungen für einen Effekt so gering wie möglich sind
v.a. bei fehlender Randomisierung
Unterschiedliche Ausgangswerte -> schon vor der Studie unterschiedliche AV Ausprägungen
Systematische Unterschiede in anderen Personenmerkmalen —> Untersuchungsgruppen unterscheiden sich in anderen Merkmalen, die mit der AV oder der WIrkung der Intervention zusammenhängen
maßnahmenfremde Einflussfaktoren
Reifung oder Spontanerholung -> Veränderungen der AV ohne weiteres Zutun
Maßnahmenunspezifische Wirkungen -> z.B. positiver Effekt von Sozialkontakt während Therapie
Anderes zwischenzeitliches Geschehen / externe Wirkungen —>z.B. Politik etc.
selektiver Drop-out
Abbruch ist mit der AV korreliert (PAt mit schwerer Symptomatik brechen häufiger ab
Dropout Selektivität muss empirisch bestimmt werden, indem Zusammnhänge zwischen Personenvariablen und Abbruch untersucht werden
Alternative Interventionen und Spillover-Effekte
Personen erhalten eventuell andere Maßnahmen
Austausch zwischen Treatment- und Kontrollgruppe
Probleme mit den Messinstrumenten
Mangelnde Eignung des Messinstruments (Validität)
Operationalisierung der AV inhaltlich unangemessen
Interpretation der Messwerte auf der AV wird als Wirksamkeitskriterium beeinträchtigt
Unreliabilität des Messinstruments
unsystematischer Messfehler führt “NUR” zur Unterschätzung von Effekten
Problematisch: wenn Messgenauigkeiten in einzelnen Gruppen nur schlechter sind
Definition Randomisierung
gleichmäßige Verteilung aller möglichen (inklusive der unbekannten) Störvariablen auf alle Versuchsbedingungen durch zufällige Zuweisung zu Bedingungen
Randomisierung wichtigste Technik in der Gestaltung von Studiendesigns —> RCT
Randomisierung auf Gruppenebene
v.a. bei klinischen Interventionsstudien häufig keine Randomisierung auf individueller Ebene sondern auf Gruppenebene
leichtere Realisierung und verhindern von treatment spillover
bei hinreichend vielen teilnehmenden Gruppen —> derselbe Effekt wie individuelle Randomisierung
mit nur einer Institution und einer Institution als KG ist die interne Validität des Designs stark beeinträchtigt
—> Cluster Randomised Trials mit Clusterstichproben
—> Clusterstichproben, resultierende Datenstrukturen sind hierarchische Datenstrukturen oder Mehrebenenstrukturen
Warum kann eine Randomisierung nicht immer erfolgen?
Ethische Bedenken —> Therapie vorzuenthalten
Freiwilligkeit —> Personen müssen freiwillig teilnehmen unabhängig davon ob sie KG oder EG zugeordnet werden
ohne Randomisierung: quasi-experimentell
Selbstselektion
Wenn Teilnehmende selbst entscheiden/beeinflussen können, in welcher Bedingung sie teilnehmen
oft bei freiwilliger Teilnahme
—> macht es zu quasi-experimentellem Design
—> beeinträchtigt intere Validität durch Konfundierung mit Störvariablen
—> welche Prozesse zu der Selektion führen wichtig wenn Randomisierung nicht möglich ist —> es müssen andere Gründe außer Selbstselektion sein
Personengebundene Störvariablen kontrollieren
Mehrere Techniken
Konstanthaltung
Regressions-Diskontinuitäts-Design
Parallelisierung
Statistische Kontrolle
Propensity Score MAtching
betrifft nur bekannte Störvariablen
können konstant gehalten werden, indem eine Maßnahme auf Personen mit derselben Merkmalsausprägung beschränkt wird
Nachteil: Verallgemeinerung nur auf Teilpopulationen
—> Externe Validität eingeschränkt
wenn Randomisierung theoretisch möglich aber ethische Gründe dagegensprechen
Zuweisung der Bedingung auf Basis einer Kontrollvariablen
häufig: Prä-Testwert in der AV
Form und Stärke des Zusammenhangs zwischen KV und AV sollten bekannt sein
wenn Therapie wirksamker als KG —> am Cut-off ein Sprung in der Regressionsfunktion zwischen Kontrollvariable und AV
Ausmaß der Regressionsdiskontinuität beschreibt THerapieeffekt
Ziel: mehrere bekannte Störvariablen gleich auf die Bedingungen zu verteilen —> schwache Kausalitätsbedingung
Paare (oder Drillinge, 1 pro Bedingung) die sich in Störvariablen gleichen -> statistische Zwillinge
Entweder vor der Intervention —> Paare auf Bedingungen aufteilen / für freiwillige Interventionsgruppe werden passende Kontrollpersonen gesucht
Oder nach der Intervention
Daten von Fällen, die nicht gepaart werden können werden nicht analysiert
Auspartialisierung von Störvariablen
bekannte SV werden vor der Maßnahme gemessen
bei Schätzung des Maßnahmen-Effekts wird die AV um den Einfluss der Störvariablen bereinigt
Gruppenvergleiche können mit Kovarianzanalysen durchgeführt werden
R-Paket EffectLiteR
Statistische Kontrolle - Propensity Score
im Nachhinein vergleichbare Gruppen herstellen
über Propensity Scores (Neigungswert) —> vorhergesagte bedingte Wahrscheinlichkeit, mit der eine Person gegeben ihrer gemessenen Werte auf den Störvariablen in eine bestimmte Gruppe kommt
oft durch log. Regression
viele Störvariablen gleichzeitig -> werden auf ein eindimensionales Maß gebracht
Statistische Kontrolle - Propensity Score Methode
für eine korrigierte Schätzung des Effekts einer Maßnahme
Propensity Score Matching —> Parallelisierung anhand des PS
Verwenden des PS als Kontrollvariable in Regressionsmodellen
Gewichtung anhand des PS
unterrepräsentierte Fälle werden höher gewichtet (in KG die mit schweren Symptomen, in EG die mit leichteren Symptomen)
überrepräsentierte Fälle niedriger
Last changed8 days ago