Definition klinische Wirksamkeitsstudie
„
Eine klinische Wirksamkeitsstudie wird mit Patienten oder gesunden
Probanden durchgeführt, um…
–Medikamente,
–Bestimmte Behandlungsformen,
–Medizinische Interventionen
–oder Medizinprodukte
… auf ihre Wirksamkeit und Sicherheit zu überprüfen“
Wirksamkeit 2 Begrifflichkeiten
•Efficacy = Wirksamkeit unter kontrollierten Bedingungen (→ Explanatory trials)
•Effectiveness = Wirksamkeit unter realitätsnahen Bedinungen im Versorgungssetting (→ Pragmatic trials)
Psychotherapieforschung
beschäftigt sich mit der Wirksamkeit und Wirkweise psychotherapeutischer Interventionen. Sie bedarf der systematischen Definition und Erfassung psychotherapeutischer Änderungsprozesse und angenommener Wirkfaktoren. Ziel ist es, Effekte psychotherapeutischer Interventionen methodisch sinnvoll zu erfassen und diese in einen systematischen Zusammenhang mit möglichen Ursachen zu setzen. Dabei dient die Psychotherapieforschung der kontinuierlichen Weiterentwicklung psychotherapeutischer Interventionen im Sinn der Evidenzbasierung und Qualitätssicherung.
-Mit welchen Methoden
-Bei welchen Patienten
-Unter welchen Bedingungen
-Welche Effekte
Phasenkonzept der klinischen Wirksamkeitsprüfung von Medikamenten
4 Phasen in Psychotherapieprüfung
Populationen in klin. WIrksamkeitsstudien
Therapieerfolg
apriori Poweranalyse
•Aus ethischen und wissenschaftlichen Gründen muss die Fallzahl eines
RCT sorgfältig geplant werden mittels einer apriori Poweranalyse.
–Die ethische Begründung besteht darin, dass Patienten nicht unnötig an einer Studie
teilnehmen sollen, da jede Studienteilnahme eine Belastung bedeutet.
–Die wissenschaftliche Begründung besteht darin, dass die statistische Power ausreichend hoch sein sollte (z.B. 80%), a) damit der Test ausreichend streng und fair sein kann sowie b) die Wahrscheinlichkeit optimiert wird, dass ein signifikantes Ergebnis auf einem wahren Effekt beruht (= Positiv prädiktiver Wert).
Zusammenhänge zwischen N, Power, alpha-, Beta-Fehler, Signifikanz:
•Zu kleine Stichprobe bedeutet niedrige Power, aber hoher Beta Fehler mehr falsch negative Entscheidungen
• Zu kleine Stichprobe bedeutet weniger Power, damit geringerer Anteil signifikanter Ergebnisse , die auf einem wahren Effekt beruhen . Abnahme des positive prädiktiven Wertes —> mehr falsch positive Ergebnisse
• Zu große Stichprobe : signifikante Ergebnisse schon bei sehr kleinen Effekten .
A Priori - Beispieö
Linke Seite: Beta-Fehler
Apriori Poweranalyse:
• Zur Bestimmung des optimalen Stichprobenumfanges N müssen folgende Festlegungen getroffen werden:
a) Wie groß ist der postulierte Effekt? (Effektstärke, z.B. r , Cohens d
(Hedges g), f 2 ,
b) Wie groß soll der alpha-Fehler sein? (z.B. 5%)
c) Wie groß soll die statistische Power sein (1-Beta )? (z.B. 95%)
d) Ist die Hypothese gerichtet (einseitig) oder nicht?
e) Welches inferenzstatistische Verfahren kommt zur Anwendung (z.B.
ANOVA, F Test)?
•Zwei Schätzmethoden: Algorithmus (z.B. g power), simulationsbasiert
RCT- Schematische Darsetllung
Schematische Darstellung einer randomisierten kontrollierten Studie (RCT)
Die randomisierte kontrollierte Studie (RCT englisch: randomized c ontrolled t rial ) ist in der Forschung das Studiendesign mit der höchsten internen Validität, um bei einer spezifischen Fragestellung ein eindeutig, d.h. kausal interpretierbares Ergebnis zu erhalten Deshalb wird auch vom Goldstandard der Versuchsplanung für klinische Wirksamkeitsprüfungen gesprochen.
•Randomisiert bezieht sich auf die randomisierte Zuweisung der Probanden zu den Treatmentbedingungen
• Kontrolliert bezieht sich auf die Kontrolle von Störvariablen
Arten von Vergleichen (Analysen) bei klinischen Wirksamkeitsstudien
Nachweis der Überlegenheit ( superiority )): Die neue Therapie ist wirksamer als die alte Therapie.
Nachweis von Äquivalenz : Die neue Therapie ist genauso wirksam, wie die alte Therapie/Standardtherapie.*
Nachweis von Nicht Unterlegenheit (non inferiority )): Die neue Therapie ist nicht schlechter als die alte Therapie/Standardtherapie.*
Nachweis des Zusammenhanges zwischen Dosis und Wirkung
Arten von Vergleichsbedingungen (Kontrollgruppen)
• Placebo (aktive Behandlung mit wirkungsloser Pseudointervention)
• Keine Behandlung (Warteliste)
• Andere aktive Behandlung (z.B. Standardtherapie)
• Unterschiedliche Behandlungsintensität (Dosis)
RCT – Arten von Vergleichen, verschiedene Tests
TOST-Procedure
two one-sided t-Tests Äquivalenz: Getestet wird, ob der gefundene Effekt innerhalb der SESOIs ist. Beide Tests sollten daher signifikant sein.
DosisWirkungsbeziehung und trendanalytische Versuchsplanung
RCT – Störvariablen und Kontrolle
Konfundierung von X (Exposition Risikofaktor oder Intervention) mit einer Störvariable S (Confounder) in Bezug auf das Outcome (O)
Das Problem der Konfundierung ist gegeben, …
a) wenn die Störvariable (S) mit der Exposition/Intervention (X) assoziiert ist,
b) wenn die Störvariable das Outcome (O) beeinflusst,
c) und die Störvariable nicht selbst durch die Exposition/Intervention verursacht wird, also kein Mediator ist
Beispiel: Probanden in der Treatmentbedingung haben eine höhere Behandlungsmotivation als in der Kontrollgruppe (a). Behandlungsmotivation beeinflusst den Therapieerfolg (b). Behandlungsmotivation ist kein Wirkmechanismus (Mediator) des Treatments (c).
RCT – Störvariablen und Kontrolle -Bsp.
• Geschlechterverteilung ist ungleich in beiden Treatmentbedingungen (Randomisierung hat nicht funktioniert), daher Assoziation mit X
• Geschlecht beeinflusst Genesung (prozentual mehr Männer im Vergleich zu Frauen)
• Geschlecht ist kein Mediator ➢ Geschlecht ist ein Confounder (Störvariable)
Arten von Störvariablen
Störvariablen sind mit der UV (Intervention) assoziiert und können die AV beeinflussen.
Arten von Störvariablen:
• Personengebundene Störvariablen (z.B. Randomisierung hat nicht funktioniert)
• Situationsgebundene Störvariablen (z.B. Zeitpunkt der Studie)
• Bedingungsbezogene Störvariablen (z.B. zwei Achtsamkeitsapps mit unterschiedlicher usability)
Typische Störvariablen in klinischen Wirksamkeitsstudien
• Erwartungseffekte (z.B. Placeboeffekt)
• Regression zur Mitte (statistisches Artefakt)
• Fehlende Adhärenz (Abweichung vom Studienprotokoll)
• Dropouts
Erwartungseffekte als Störvariablen
• Placeboeffekt (Erwartung eines wirksamen Treatments)
• Noceboeffekt (Erwartung unerwünschter Nebenwirkungen)
• Versuchsleitererwartungseffekt (Rosenthal-Effekt)
In RCTs können diese Effekte kontrolliert werden, indem man eine Maskierung in Form der Verblindung in das Studienprotokoll aufnimmt
Doppelblindversuch
experimentelles Vorgehen, bei dem sowohl die Teilnehmer:innen an dem RCT als auch die Mitarbeiter des Versuchsleiters nicht wissen (blind sind), ob die Teilnehmer:innen eine Behandlung oder einen Placebo erhalten.
Artefakte
Drop-outProblematik
Drop-out bedeutet, dass ein Studienteilnehmer*in vorzeitig aus der Studie ausscheidet.
Auswahl möglicher Ursachen für Dropout:
– Biographische Ereignisse wie z.B. Wohnortwechsel,
– Kritische Lebensereignisse, z.B. Krankheit, Tod, Geburt eines Kindes,
– Motivationsverlust, z.B. zu hoher Aufwand für die Teilnahme,
– Mangelnde Compliance, z.B. aufgrund ausbleibender Besserung der Symptomatik, Nebenwirkungen, etc.
Drop-outs können in mehrfacher Hinsicht selektiv sein und zu einer Verzerrung (Bias) des Studienergebnisses führen, z.B. …
– wenn wenig motivierte Studienteilnehmer ausscheiden (Überschätzung)
– Wenn die dropout-Raten sich zwischen den Treatmentbedingungen unterscheiden (Über- oder Unterschätzung)
Traditionelle single-Imputations-Methoden* in klinischen Studien
Imputation bedeutet, dass ein fehlender Wert (missing data) durch einen geschätzten Wert ersetzt wird. Es gibt einfache und komplexe Schätzmethoden. Zur Schätzung werden vorhandene Daten anderer Variablen genutzt (setzt „Missing at Random“ voraus)
-LOCF
-BOCF
– Unterschätzung von Varianzen und Kovarianzen
– Systematische Verzerrungen von Parameterschätzungen
– Gefahr: Drop-out-Raten können in den Treatment-Gruppen unterschiedlich sein
– Konservatives Vorgehen bezogen auf within-subjects-Veränderung, aber nicht notwendigerweise in Bezug auf between-subjects-Vergleiche
BOCF
Baseline observation carried forward (BOCF): der Messwert vor Beginn der Interventionsphase (Pretest oder Baseline) wird bei nachfolgend fehlenden Werten eingetragen.
LOCF
Last observation carried forward (LOCF): Der letzte vorhandene Messwert wird bei (fehlenden) nachfolgenden Messungen eingetragen
Bias als Folge von LOCF/BOCF
• Überschätzung eines Treatmenteffektes, wenn dropouts häufiger oder frühzeitig in der Kontrollbedingung auftreten und Unterschätzung, wenn dropouts seltener oder später in der Kontrollbedingung auftreten.
• Überschätzung eines Treatmenteffektes, wenn der Effekt sein Maximum an intermediate time points hat und Unterschätzung des Effektes, wenn dieser über die Zeit anwächst.
• Der Einfluss des Bias auf inferenzstatistische Ergebnisse ist größer, wenn die Effektstärke klein und die Stichprobe groß sind.
Strategien im Umgang mit Missing Data
• Nicht oder nur bedingt zu empfehlende Verfahren:
– Fälle mit missing data ausschließen (Verlust an Power, Bias bei Parameterschätzung, nur zulässig bei MCAR)
– Einfache Imputationsverfahren (LOCF, BOCF, Mittelwert)
• Zu empfehlende Verfahren:
– Komplexe Imputationsverfahren (z.B. EM-Algorithmus, random-forestbasierte Imputation)
– Modellbasierte Verfahren (z.B. FIML-Schätzverfahren bei mixed linear effect-Modellen).
Aufgaben von Versorgungsforschung
• Feststellung der tatsächlichen Versorgungssituation
• Schätzung des Versorgungsbedarfes
• Regionale Versorgungsunterschiede
• Versorgung bei spezifischen Populationen: Kinder und Jugendliche, Personen mit spezifischen Diagnosen, Personen mit Migrationshintergrund, Geflüchtete
• Evaluation der Effektivität der Versorgung
Versorgungsforschung
Statistische Signifikanz ist nicht gleich klinische Relevanz
Effektstärken:
• Eine zentrales Effektstärkenmaß ist Cohen‘s d. Es handelt sich um die Differenz zweier Mittelwerte (z.B. Behandlung vs. Kontrolle oder Pretest-Posttest-Unterschiede) relativiert an der Streuung.
Interpretation: Eine Effektstärke von 1 – also die (positive) Veränderung des Mittelwerts der Patient*innen um eine Standardabweichung im Vergleich zu vor der Behandlung – bedeutet, dass es etwa 84 % der Patienten nach der Behandlung besser geht als dem Durchschnittspatienten vor der Behandlung.
Standardisierte Berichtssysteme in der klinisch-psychologischen Forschung:
• Epidemiologische Beobachtungsstudien: STROBE
• Randomisierte kontrollierte Studien: CONSORT
• Systematische Reviews und Metaanalysen: PRISMA
CONSRT statement
Das consort statement ist ein Berichtssystem für randomisierte kontrollierte klinische Studien. Es besteht aus einer Checkliste aus 25 Punkten (z.B. Versuchsdesign, Art des Algorithmus zur Randomisierung, Festlegung der Stichprobengröße, etc.) und einem Flow-chart für die Studienteilnehmer*innen im Verlauf der Studie
Ambulantes Assessment
• Ambulantes Assessment (AA) bedeutet die Erhebung von Daten von Personen in ihrem natürlichen Umfeld mittels computergestützter Datenerhebung.
• Verwandte Begriffe sind: Ecological Momentary Assessment, Experience sampling method, Time sampling diary, electronic diary.
• Ein weiterer Begriff ist ambulantes Monitoring. Hier steht die Diagnostik/Überwachung von Risikopatient*innen im Vordergrund.
• Was für Daten warden in AA-Studien erhoben?
a) Selbstberichte: a) objektiv: Verhalten, Tätigkeit, Anwesenheit anderer Personen, Ernährung, b) subjektiv: Kognition, Emotion, Stimmung, Symptome, Schlafqualität, etc.
b) Objektive Verhaltensdaten: Aktigraphie: Bewegungsmuster, Aufenthaltsort, etc.
c) Umweltbedingungen: Lärm, Helligkeit, etc.
d) Physiologische Messwerte, z.B. Herzfrequenz, Herzratenvariabilität, etc.
e) Weitere biologische Parameter/Marker durch Selbsttestung, z.B. Speicheltest zur Kortisolmessung
• Wie wird in AA-Studien gemessen?
– Kontinuierlich
– Zeitabhängig (time sampling)
– ereignisabhängig (event-sampling, z.B. wenn eine bestimmte Situation eintritt oder ein spezifisches Symptom auftritt)
Ambulante Assessment-Methoden und Big Data, Bsp.
Beispielitems der EMA-Befragung in der BeMIND-Studie (Beesdo-Baum et al. (2020, S. 79) sowie verwendete tragbare Sensoren (Herzratenvariabilität und Akzelerometrie)
Multilevel-Modelle
AA-Studien erzeugen hierarchische Daten, die mit Multilevel-Modellen ausgewertet werden. Depressive mood (einmal gemessen) = Level-2-Prädiktor Social interaction (mehrmals gemessen) = Level-1-Prädiktor HRV (kontinuierlich gemessen) = level-1-Kriterium
Der abgebildete Effekt ist eine cross-level-interaction
Anwendungsziele von ambulatory assessment in der Klinischen Psychologie und Psychotherapie:
1. Erforschung der Mechanismen und Dynamik von Symptomen
2. Vorhersage von Wiederkehr und Onset von Symptomen
3. Überwachung von Treatmenteffekten während der Behandlung
4. Vorhersage von Behandlungserfolg
5. Rückfallprävention (relapse prevention)
6. Durchführung von Interventionen (z.B. just-in-time, text-messaging, z.B. zur Medikamentenadhärenz)
Vor- und Nachteile des Ambulanten Assessments
– Hohe ökologische Validität
– sehr gut geeignet für Prozessanalysen, auch auf individueller Ebene (interindividuelle Unterschiede in der intraindividuellen Variabilität)
– Verhaltensmessung statt self-report
– Interne Validität kann hoch sein (Zeitreihendaten)
– Große Datenmengen von einer einzelnen Person (Big Data, besondere Relevanz des Datenschutzes), auch ethisch relevant, da größerer Eingriff in die Privatsphäre, andere Personen können mit betroffen sein.
– In der Regel gute Akzeptanz der Methode bei den Proband*innen, besonders bei Relevanz für die Behandlung (z.B. Schmerztagebuch)
– Methodenbedingte Reaktivität ist möglich (z.B. mehrmaliges Anpiepsen mit der Aufforderung zu reagieren kann zu Motivationsverlust führen).
Zuletzt geändertvor einem Monat