Was sind die Säulen der EbM?
Externe Evidenz: Beurteilung von z.B. Wirksamkeit von Therapien, Aussagekraft von
Diagnostika und Prognosen von Krankheiten
Klinische Erfahrung: Fähigkeit zur Beurteilen von Befunden, Einordnung von
Diagnosen, Therapieplanung, Kommunikation mit Patienten, Interpretation externer
Evidenz für individuellen Patienten
Patientenpräferenzen: Selbstbestimmungsrecht des Patienten maßgeblich (erstes
Gebot der Medizinethik nach Beauchamp/Childress)
Grundprinzipien der EbM
Systematik (Vollständigkeit, Betrachtung vom Ganzen)
Partizipation (Teilhabe an Entscheidungen)
Integration (Berücksichtigung von Informationen, Kosten, Risiken etc.)
Transparenz (offen gelegte Infos)
Reflektierter Umgang mit Interessenkonflikten
Die fünf Schritte der EBM (nach Sackett DL, 1996)
Formulierung einer klaren Fragestellung
Systematische Recherche nach der bestverfügbaren Evidenz
Kritische Prüfung der Evidenz hinsichtlich Verlässlichkeit und Relevanz
Anwendung der Evidenz
Bewertung der Umsetzung (Kritische Reflexion oder formale Evaluation)
PICO-Schema:
auch am Beispiel Kaffee
-> Was sollte untersucht werden? Nicht das Ergebnis, nur Planung!
P: Patient/ Population (Um was für eine Gruppe geht die Studie?)
I: Intervention (Was wurde gemacht? Therapie?)
C: Comparator (Was ist die alternative Behandlungsform zur Intervention)
O: Outcome (Mittels welcher Endpunkte soll die Intervention bewertet werden? Ziel? Nutzen)
-> ergänzend: S=Studiendesign/ Setting (Umgebung), T=Time (Zeitraum)
-> wenn Daten nicht vorliegen: „nicht berichtet, definiert o. beschrieben“
Aufstellen der Frage nach dem PICO-Schema:
P: Führt bei erwachsenen, sonst gesunden Menschen
I: der (regelmäßige) Konsum von Kaffee
C: im Vergleich zu wenig oder keinem Kaffee-Konsum
O: zu mehr kardialen Ereignissen (KHK, Herzinfarkt)?
Kritik an Evidenzbasierter Medizin
Eignung nur für wenige medizinischen Fragestellungen
Zu geringe Patientenbezogenheit / Alltagsferne
Keine Integration der ärztlichen Erfahrung
Interessenkonflikte
Welcher Studientyp? Diagramm…
Kohortenstudie vs. Fall-Kontroll-Studie
Outcomes
-> Kriterium zur Messung des Studienziels
(Zielkriterien)
kann ein eingetretenes Ereignis (z.B. Herzinfarkt) o. das Ergebnis einer Messung sein, die an
einem bestimmten Zeitpunkt erhoben wird (z.B. Lebensqualität)
primärer E. (wichtigster, entscheidender Punkt)
sekundärer E. (Studie war nicht darauf ausgelegt)
kombinierte Endpunkte (Zusammenfassung mehrere definierten Endpunkte, nur einer muss eintreten)
Unterscheidung von patientenrelevanten Endpunkten und Surrogatparameter
Gütekriterien bei der Endpunktmessung
Validität (Patientenrelevanz: erfasst das Kriterium das, was ich messen will?)
Reliabilität & Objektivität (Messergebnis untersucherabhängig? Messgenauigkeit hoch?)
(Änderungs-)Sensitivität (wird das Kriterium durch die Intervention beeinflusst)
Praktikabilität (Aufwand? Akzeptanz bei Arzt und Pat.?)
Wann hat ein Endunkt einen „Nutzen“?
die Verbesserung des Gesundheitszustandes
eine Verkürzung der Krankheitsdauer
eine Verlängerung der Lebensdauer
eine Verringerung der Nebenwirkungen
eine Verbesserung der Lebensqualität angemessen berücksichtigt werden
Patient-reported outcomes (PRO)
Oberbegriff für Instrumente zur Erfassung subjektiver Einschätzungen und
Empfindungen von Patienten mittels direkter Befragung
Anwendungsbereiche: Messung von Schmerz, Fatigue, Depression, Lebensqualität, …
Surrogatparameter
Surrogatparameter sind meist günstiger und einfacher als patientenrelevante
Endpunkte zu erheben, aber problematisch in der Bewertung
Surrogatparameter können berücksichtigt werden, wenn sie entsprechend validiert sind
Wissenschaftstheorie (1), (2), (3) und (4):
(1) Kausalität:
„Führt X zu Y?“
Um messen zu können, muss man vergleichend fragen: „Führt X im Vergleich zu Nicht-X zu Y?“
(2) Fehlerquellen:
(3) Confounding:
Immer gibt es neben X zahlreiche weitere Variablen (Z), die mit Y zusammenhängen.
Diese werden als Confounder (= Störgrößen) bezeichnet, da sie den Zusammenhang X-Y verfälschen können.
Lösung: Aktives Gleichverteilen aller Störgrößen auf die Gruppen
(Randomisierung)
(4) Zeitliche Abfolge:
Von Ursache zu Wirkung: Kohortenstudien, randomisierte kontrollierte Studien
Von Wirkung zu Ursache: Fall-Kontroll-Studie
Gleichzeitigkeit: Querschnittsstudie
Studiendurchführung: Wie wird randomisiert?
Das Cochrane „Risk-of-Bias Tool“
Erzeugen der Randomsequenz
Verbergen der Randomsequenz *
Verblindung (Therapeut, Patient, Ergebnisbewerter) *
Datenvollständigkeit (ITT-Analyse) *
Berichten prädefinierter Zielkriterien
Andere fallspezifische Aspekte
Double-Dummy-Technik
Spezielle Verblindungstechniken:
Prinzip: Beim Vergleich zweier Medikamente mit verschiedenen Applikationsformen muss in beiden Studienarmen ein zusätzliches Placebo eingesetzt werden.
Umgang mit Therapiewechsel
Intention-to-Treat-Analyse (Studienauswertung):
Standardanalyse
erhält Gleichheit der Gruppen aufrecht
bildet klinische Realität ab
Hierbei fließen die Daten der gesamten Studienpopulation in die Endauswertung ein, selbst wenn Teilnehmer aus der laufenden Studie ausgeschieden sind oder die Therapie gewechselt haben.
Per-Protocol-Analyse (Studienauswertung):
beschreibt Effekt unter Idealbedingungen
Gefahr einer Effektüberschätzung
Bei einer Per-Protocol-Analyse werden nur die Daten der Probanden ausgewertet, die wie im Studienprotokoll festgelegt behandelt wurden und alle vorgegebenen Krieterien erfüllt haben
Umgang mit fehlenden Daten:
Complete Case Analysis:
Nur die Patienten mit Daten werden analysiert (d.h. kein Ersetzen fehlender Daten)
Full Analysis Dataset:
Mit Ersetzung fehlender Daten, z.B.
LOCF (Last Observation Carried Forward)
Baseline Observation Carried Forward (BOCF)
Best or Worst Case Scenario
Spezielle statistische Methoden (GEE, MMRM, etc.)
Vermeiden von Studienabbrechern, Therapiewechslern und Patienten mit fehlenden Daten
Fokussierung auf geeignete Patienten mit Interesse
Gestalte die Studieninterventionen flexibel (z.B. Rescue Therapy)
keine aufwändigen oder invasiven Zielkriterien
minimale Zahl an Nachuntersuchungen
Studiendurchführung mit erfahrenen Studienzentren/-ärzten
finanzielle Anreize für Datenvollständigkeit schaffen
Vor-Ort-Besuche durchführen
Repräsentativität des Patientenkollektivs
Übliches Argument (gegen negative Studienergebnisse):
Gegenargumente:
„Die Studie hat ja nur Patienten mit Merkmal X eingeschlossen, daher sind die Ergebnisse auf Patienten ohne Merkmal X gar nicht übertragbar.“
„Gibt es überhaupt Daten dafür, dass Merkmal X die Effektivität der Therapie beeinflusst?“
„Gibt es Daten dazu, ob die Therapie bei Patienten ohne Merkmal X wirksam ist?“
Regression zur Mitte (Regression-to-the-Mean)
Wenn kurzfristig abnormale Symptome oder Werte zum Patienteneinschluss in die Studie ausreichen, muss damit gerechnet werden, dass sich diese Symptome oder Werte auch ohne Intervention normalisieren.
Beispiel Blutdruckschwankungen: Werden Patienten mit einem Blutdruck oberhalb des Grenzwerts (rote Linie) in eine Studie eingeschlossen (rote Kreise), liegt ihr Blutdruck nach kurzer Zeit wieder im Normalbereich (weiterer Kurvenverlauf).
In einarmigen Studien wird die Regression zur Mitte oft als Therapieeffekt fehlinterpretiert.
Patientenauswahl: Subgruppenanalysen (Empfehlungen für Studiengruppen)
Definiere alle Subgruppenanalysen vor Studienbeginn
Begrenze die Anzahl Subgruppenanalysen
Wenige Hypothesen zu Subgruppeneffekten
Statistische Analyse primär zur primären Zielgröße
Teste nicht, ob der Interventionseffekt in einer der Subgruppen signifikant ist, sondern ob sich die Subgruppen in ihren Effekten unterscheiden (i.e. Interaktion).
Berichte alle Ergebnisse von Subgruppenanalysen
Berichte positive und negative Ergebnisse
Markiere post-hoc definierte Subgruppenanalysen
Randomisierte klinische Studien: Prüf-Intervention
Klassische Probleme
Hohe Variabilität in der (Begleit-)Behandlung:
Standardisierung über Studienprotokoll (soweit begründbar)
Variabilität akzeptieren, weil wichtig für Generalisierbarkeit
Lernkurveneffekte: Strenge Auswahl und/oder Schulung der Therapeut*innen
Geringe Adhärenz* (patienten- oder arztseitig):
Gute Patientenauswahl, ggf. nach Run-In-Phase
Engmaschige Kontrollen der (Studien-)Behandlung
Therapiewechsel als Teil der Studienbehandlung verstehen
Randomisierte klinische Studie: Comparator
Placebo-Kontrollen statt „Head-to-Head“-Vergleich
Unterdosierung des Comparators
Geringe Wirksamkeit des Comparators
Überdosierung des Comparators
Viele Nebenwirkungen des Comparators
Veraltete Therapieformen
Ko-Interventionen
Auswahl geeigneter Endpunkte:
Wirksamkeit ist das Erzielen einer Veränderung, (die nicht notwendigerweise patientenrelevant ist).
Effektivität (Effectiveness) bzw. (Zusatz-)Nutzen ist definiert als der Vorteil, den der/die Patient*in wahrnimmt. (v.a. Morbidität, Mortalität und Lebensqualität)
Berechnung von Konfidenzintervall:
Beschreibende Statistik
1. Lagemaße
Kennzahl für die Lage des „typischen“ Werts einer Variable (fester Wert)
Gängige Maße: Mittelwert, Median, Modalwert, Quartile, Quantile
2. Streumaße
Kennzahl für die Streuung einer Variable um den „typischen“ Wert (Wertebereich)
Gängige Maße: Standardabweichung, Varianz, Standardfehler, Spannweite, Interquartilsabstand, Ausreißer
Wichtige Darstellungsformen
Histogramm
Boxplot
Prävalenz und Inzidenz:
Prävalenz:
Beispiel: 100 Kranke in einer Population von 1000 Leuten = 10% Prävalenz
Inzidenz:
Anzahl der Neuerkrankungen bezogen auf eine Zeitspanne und eine
definierte Population
Effektmaße
Relatives Risiko (RR) und Relative Risikoreduktion (RRR)
Absolute Risikoreduktion (ARR) und number needed to treat (NNT)
NNT: Maßzahl, die angibt, wie viele Patienten pro Zeiteinheit mit der Intervention behandelt werden müssen, um das gewünschte Therapieziel zu erreichen bzw. um ein Ereignis zu verhindern.
Number Needed to Harm
Odds
Odds Ratio
Berechnung: RR, RRR, ARR und NNT
Hazard Ratio (HR)
Hazard: Risiko, innerhalb eines definierten Zeitraums ein Ereignis zu erleiden
Hazard ratio: Quotient aus zwei Hazard-Funktionen ("Gefährdungsquote")
mögliche Vorteile einer Prospektiven Studie:
Studien-/Analyse-Planung
Soll datengetriebene Analysen verhindern.
Probanden-/Patientenrekrutierung
Soll Selektionsbias verhindern.
Datenerhebung
Soll Informationsbias verhindern.
-> Eine prospektive Studie ist nicht immer besser als eine retrospektive
Spezifische Bewertung von Bias
Definitionen:
5-J.-Überlebensrate
Fallsterblichkeit
Krankheitsspezifische Mortalität
Besserungsrate Remissionsrate Rezidivrate
Nicht randomisierte Interventionsstudien: Positionen des IQWiG
Nicht-randomisierte Vergleichsstudien liefern zu Interventionsfragen im Regelfall höchstens Anhaltspunkte.
In Ausnahmefällen können sehr große („dramatische“) Effekte aus nicht-randomisierte Vergleichsstudien einen Nutzen oder Schaden belegen.
Dramatische Effekte in Kohortenstudien
Kernfrage: Kann der beobachtete Effekt nicht mehr allein durch Bias erklärt werden?
Großer Unterschied, z.B. Relatives Risiko < 0.1
Hohe statistische Signifikanz, z.B. p < 0.01
Bewertung der Qualität klinischer Studien
Ergebnissicherheit:
Interne Validität
Externe Validität
Statistische Präzision
Achillesferse der Fall-Kontroll-Studie
Geeignete Kontrollen zu finden:
Krankenhaus-Kontrollen
Patienten mit anderer Erkrankung
Andere Erkrankung darf nicht mit Exposition, Indexerkrankung oder Krankenhausaufnahme zusammenhängen
(Bevölkerungs-Kontrollen)
Aufwändiger zu rekrutieren
Oft „Healthy Volunteer Bias“
(Kontrollen aus Familie)
Oft ähnliche Risikoexposition
(Eingebettete Kontrollen)
Im Rahmen einer Kohortenstudie)
Nicht jede „Fall-Kontroll-Studie“ ist auch eine solche
Fall-Kontroll-Studien in der Epidemiologie
i.d.R. Ätiologie
Klassisches Design von Outcome zurück zur Exposition
Sonst meist Vergleich von Erkrankten und Gesunden
Diagnostische Fall-Kontroll-Studie: Kann der Test zwischen Erkrankten und Gesunden unterscheiden?
Vor- und Nachteile von Fall-Kontroll-Studien
Diagnostische Tests vs. Goldstandard
In klinischen Studien wird die Qualität diagnostischer Tests gegen einen Goldstandard (Referenzstandard) untersucht
Die Qualität des Goldstandards ist entscheidend für die Beurteilung der Testgüte
Sollte sicher und unabhängig sein
Goldstandard allerdings häufig selbst suboptimal
Idealerweise ein separates Verfahren, dass alle Patienten erhalten, die auch den zu überprüfenden diagnostischen Test erhalten haben
Therapiestudien vs. Diagnose-/Screeningstudien und Maßzahlen
Diagnostische Tests zielen primär auf Erkrankte
Screeningtests zielen primär auf Gesunde
Bewertung eines diagnostischen Tests
Prävalenz
Sensitivität
Spezifität
Positiver Prädikterwert
Negativer Prädikterwert
Sensitivität:
Spezifität:
Positiver Prädikterwert:
Negativer Prädikterwert:
Sensitiver vs Spezifischer Test
Probleme mit Screening:
Kleine Prävalenz:
-> trotz hoher Sensitivität und Spezifität kleiner PPV
Lead-Time-Bias
Trugschluss: Screening verlängere die restliche Lebenszeit; ohne wirksame Therapie bleibt diese aber unverändert
Will-Rogers-Phänomen
Durch die immer genauere Diagnostik werden die Patienten (vor allem im historischen Vergleich) scheinbar immer kränker.
(Un-)healthy Volunteer Bias
Falsch positve und negative Befunde
Präselektion und Ethik
Evidenzklassen und ihre Limitationen
Nur Aussagen zur internen Validität (Verzerrungsrisiko einzelner Studien)
Hochwertige Studie ≠ Klinische Angemessenheit
Beispielhafte Bewertung mittels GRADE
Kriterien des Evidence to decision frameworks
Priorität des Problems
Testgüte (bei diagnostischen und Screening-Studien)
Nutzen und Schaden
Vertrauen in die vorliegende Evidenz (hoch, moderat, niedrig, sehr niedrig)
Wichtigkeit der Endpunkte
Vor- und Nachteile einer Intervention: Balance zwischen den wünschenswerten und nicht wünschenswerten Konsequenzen einer Intervention
Ressourcenverbrauch (Größe, Sicherheit in Evidenz, Kostenwirksamkeit)
Gerechtigkeit
Akzeptanz
Machbarkeit (Umsetzbarkeit)
Implikationen einer Empfehlung nach GRADE
starke Empfehlung:
Patienten: Hohe Präferenz für oder gegen die Intervention
Ärzte: Sollten die Intervention (nicht) verschreiben
Versicherer: Kostenübernahme (oder nicht)
Was sind Leitlinien?
Systematisch entwickelte, praxisorientierte Entscheidungshilfen für Leistungserbringer (Ärzte, Pflegende, …) und Patienten
Bieten Orientierung im Sinne von Entscheidungs- und Handlungskorridoren
Im Gegensatz zu Richtlinien ohne rechtliche Bindung
Ermöglichen Qualitätssicherung und Transparenz
Je nach Urheber und Kontext nationale (z.B. AWMF, OL) oder internationale Anwendung (z.B. ESMO, ESC, WHO)
Klassifizierung von Leitlinien
Prinzipien bei der Zusammenstellung der Leitliniengruppe
Interdisziplinarität
Multiprofessionalität
Einbeziehung Patientenperspektive
-> keine Interessenskonflikte
Probleme von Leitlinien
Leitlinienkenntnis ≠ „leitliniengerechtes Handeln“
Leitliniengerechte Behandlung kann als Widerspruch zu individueller Therapie erlebt werden
Ohnehin schon hoher Zeitbedarf für Dokumentationen und die Erfüllung
regulatorischer Anforderungen
Implementierungsprobleme
Trade-off zwischen Wissenschaftlichkeit und klinischem Alltag
Qualitätsdefizite bei der Leitlinienerstellung
Fehlende Angaben zu Nutzenausmaß und Kosten einer Maßnahme
Unzureichende Transparenz bei Interessenkonflikten und deren Berücksichtigung (siehe Leitlinienwatch)
Unpassende Zusammensetzung der Leitliniengruppe
Studienregister
mehr Transparenz (häufig werden Studien bei negativem Ergebnis nicht publiziert)
Verhinderung von Reporting Bias
Vermeidung unnötiger Forschung
Registrierung klinischer Studien mittlerweile oft gesetzliche Pflicht
Arten von Übersichtsarbeiten
Traditionelle, narrative Übersichtsarbeit
Keine Systematik
Subjektive Prägung
Literatur nach Wertschätzung des Autors
Systematische Übersichtsarbeit
Prospektive Planung
Systematische Literaturrecherche und -auswahl
➢ Weniger anfällig für Verzerrungen und subjektive Interpretationen
Metaanalyse
Statistische Zusammenfassung der Ergebnisse von Einzelstudien
Wünschenswerte, aber nicht immer mögliche oder sinnvolle Erweiterung eines SR
Ablauf einer systematischen Übersichtsarbeit mit Metaanalyse
Wo sollte im Rahmen einer systematischen Übersichtsarbeit
überall gesucht werden?
Uneinheitliche Vorgaben
Wenigstens 2-3 bibliographische Datenbanken (je nach Fragestellung)
Studienregistersuche
Besonders wichtig bei Fragestellungen zur Effektivität von Interventionen
Literaturverzeichnisse
Clinical Study Reports
Kann sinnvoll zur Vorbeugung eines Outcome-Reporting Bias und Publication Bias sein
Literaturbewertung – Worauf muss ich gucken?
Warum eine Metaanalyse?
Wirksamkeit einer Behandlung und deren Unsicherheit sollen quantifiziert werden
Statistische Power soll erhöht werden
Statistische Präzision soll verbessert werden
Unterschiede zwischen Studien sollen untersucht werden
Widersprüche zwischen Studienergebnissen sollen aufgelöst werden
Generierung neuer Hypothesen
Vergleich Fixed- vs. Random-Effect Modell
Allen Studien liegt der gleiche Therapieeffekt zu Grunde vs. Therapieeffekt variiert zwischen den Studien und innerhalb jeder einzelnen Studie
Verwendung eines bestimmten Modells inhaltlich zu begründen
Ergebnisse prinzipiell ähnlich
Konfidenzintervall ist im REM breiter
➢ konservativere Einschätzung
Kleinere Studien bekommen ein größeres Gewicht im REM
Wenn Streuung zu hoch: Verzicht auf Metaanalyse
Forest Plot
Graphische Darstellung der Ergebnisse der Metaanalyse
Inhalt: Ergebnisse der Einzelstudien sowie des Summenschätzers
Für jede Studie wird der geschätzte Therapieeffekt mit zugehörigem
Konfidenzintervall dargestellt
Gibt für jede Studie Auskunft über
Stärke des Therapieeffekts (Lage des Punktschätzers)
Informationsgehalt der Studie (Breite des jeweiligen Konfidenzintervalls)
Bei großer Anzahl von Studien unübersichtlich
Heterogenität in Metaanalysen (gemäß Cochrane)
Klinische Heterogenität:
➢ Unterschiede zwischen Studien bei Patientenmerkmalen oder der Intervention
Methodologische Heterogenität:
➢ Unterschiede zwischen Studien bei Design- oder Durchführungsaspekten
Statistische Heterogenität:
➢ Unterschiede zwischen den Effekten der Einzelstudien
➢ Kann Resultat aus klinischer und/oder methodologischer Heterogenität
Heterogenität im Forest Plot
I2:
Interpretation: I2 gibt an, welcher Anteil der Studienvariation auf statistische
Heterogenität zurückzuführen ist
I2-Werte 25%, 50% und 75% deuten auf geringe, moderate oder beträchtliche
Heterogenität hin
Chi2 (3,14) < df (7) -> keine nennenswerte Heterogenität zwischen den Studien
P = 0,087 -> nicht signifikant genug um die Nullhypothese auszuschließen
Annahmen bei einer Netzwerk-Metaanalyse
Ähnlichkeitsannahme
Alle eingeschlossenen Studien sind vom Aufbau und von der Studienpopulation her vergleichbar
Homogenitätsannahme
Keine bedeutenden Unterschiede in den jeweiligen paarweisen Vergleichen
Transitivitätsannahme
Keine bedeutsamen Widersprüche zwischen direkter und indirekter Evidenz
Probleme von Metaanalysen
"Rasenmäher-Methode"
Retrospektive Analysen (außer prospektiv geplante Meta-Analyse)
Unterschiedliche Schlussfolgerungen bei inkonsistenter Ergebnislage möglich
Aussagekraft letztlich immer von der Qualität, Auswahl und Verfügbarkeit relevanter Studien abhängig
Problem abhängiger Messungen
Zuletzt geändertvor 4 Tagen