Aufgabe 1
Studiendesgin erkennen
Wie lautet die Fragestellung der Studie (PICO-Format)?
für welche Endpunkte statistisch signifikanter Effekt
Qualitätsmerkmale:
Welche für dieses Studiendesign relevante Angabe fehlt im vorliegenden Abstract? bei Meta-Analyse
zusätzliche Aspekte, wenn Sie entscheiden müssten, ob die Intervention oder Kontrolle bei einem/r Patient/in durchgeführt wird?
Je 2 inhaltliche und methodische Aspekte, die nicht im Abstract genannt sind, aber für die Anwendbarkeit und Validität der Ergebnisse wichtig wären.
nach Signalwörtern suchen
im Zweifelsfall nach Studiendesgin-Diagramm
P: Patients / Population
I: Intervention
C: Comparator
O: Outcome (mittels welcher Endpunkte soll die Intervention bewertet werden?
“statistically significant”
p < 0,05
Qualitätsbewertung der RCTs mittels Cochrane-RoB-Instrument
Screening, Datenextraktion und Qualitätsbewertung durch zwei unabhängige Reviewer
Registrierung der Studie
Verdeckung der Randomisierung
Verblindung
Intention-To-Treat-Analyse / Per-Protocol-Analyse
Angabe der Registrierungsnummer eines Registers für systematische
Übersichtsarbeiten
Reproduzierbarkeit der Intervention (v.a. Verfügbarkeit einer entsprechenden Plattform);
Akzeptanz von mHealth bei Patienten und Leistungserbringern;
Validität des Surrogatendpunkts HbA1c;
Kostenübernahme durch GKV
Strahlenbelastung durch Röntgen,
örtliche und zeitliche Verfügbarkeit eines Schnell-MRTs
Heterogenität;
Klinische Relevanz der Effekte;
Prüfung auf Publication Bias;
Angaben zur Population (speziell dessen Krankheitsspektrum) und dem
Komparator;
Umgang mit nicht-randomisierten Studien (separate Metaanalysen je nach Studiendesign oder Einbezug in Hauptanalyse),
Durchführung von Sensitivitätsanalysen mit Trennung nach Design
Berechnen Sie die
Sensitivität,
Spezifität,
den positiv und negativ prädiktiven Wert
sowie die BAA-Prävalenz.
Prävalenz:
Sensitivität:
Spezifität:
Positiver Prädikterwert:
Negativer Prädikterwert:
Wie nennt man diese Grafik und wofür wird sie üblicherweise angewendet.
Kaplan-Meier-Kurve; Darstellung von Überlebenskurven
Time-to-Event Outcomes (Wenn die Zeit bis zum Eintreten eines Ereignisses
von Interesse ist)
falls senkrechte Striche darauf: zensierte Daten
statistische Signifikanz: p-Wert
Interpretation des Hazard Ratio:
HR = 1,0 → Kein Unterschied im Risiko zwischen den Gruppen.
HR > 1,0 → Erhöhtes Risiko für das Ereignis in der Expositionsgruppe (z. B. Behandlungsgruppe) im Vergleich zur Kontrollgruppe.
HR < 1,0 → Reduziertes Risiko für das Ereignis in der Expositionsgruppe im Vergleich zur Kontrollgruppe.
Wenn das 95%-CI 1 überschreitet, ist das Ergebnis statistisch nicht signifikant.
Berechnung: RR, RRR, ARR und NNT
Die Gesundheitsbehörde eines Landes möchte eine Empfehlung zum das BAA-
Screening aussprechen. Welche Aspekte sollten bei der Entscheidungsfindung
beachtet werden?
Nutzen des Screenings (Verbesserung des Gesamtüberlebens),
Schadensaspekte (Überdiagnosen, unnötige prophylaktische Aortenoperationen, Auswirkungen auf die Lebensqualität bei positivem Befund),
Stellenwert von Zufalls-/Nebenbefunden,
Verfügbarkeit von OP-/Therapiekapazitäten,
Kosten-Effektivität des Screenings (Abwägung zwischen gewonnenen Lebensjahren und Screening- und Therapiekosten)
✅ Gültige Methoden der Randomisierung
❌ Ungültige Methoden (potentiell verzerrt)
Computergenerierte Zufallszahlen (z. B. mit spezieller Software wie „Random Allocation Software“ oder Statistikprogrammen wie R, SPSS)
Zufällige Zahlenlisten (z. B. aus Tabellen oder Software)
Zufällige Blockrandomisierung (sorgt für ausgeglichene Gruppen über den Studienverlauf)
Stratifizierte Randomisierung (um sicherzustellen, dass wichtige Variablen gleichmäßig verteilt sind)
Minimierung (adaptives Verfahren, das Gruppenunterschiede minimiert)
Alternierende Zuweisung (z. B. jeder zweite Patient kommt in eine bestimmte Gruppe)
Geburtsdatum oder Krankenaktennummer als Kriterium
Tageszeit oder Wochentag der Aufnahme
✅ Gute Methoden zur Verdeckung
❌ Fehlerhafte oder unzureichende Verdeckung
Zentrale Randomisierung (z. B. über eine unabhängige Stelle oder Software)
Versiegelte, opake, nummerierte Umschläge (müssen wirklich blickdicht sein)
Pharmazeutische Randomisierung (z. B. bei Medikamentenstudien, wo die Verpackung codiert ist)
Web- oder Telefon-basierte Randomisierungssysteme
Offene Listen, die einsehbar sind
Durchsichtige oder schlecht versiegelte Umschläge
Randomisierung durch den behandelnden Arzt oder Studienpersonal ohne externe Kontrolle
Vorhersehbare Muster (z. B. jeder zweite Patient in Gruppe A)
Warum ist Randomisierung und gute Verdeckung so wichtig?
Vermeidung von Bias: Ohne ordentliche Randomisierung und Verdeckung könnten Forscher oder Ärzte bewusst oder unbewusst bestimmte Patienten bevorzugt einer Gruppe zuweisen.
Gewährleistung der Vergleichbarkeit: Beide Gruppen sollen sich nur durch die Intervention unterscheiden, nicht durch andere systematische Unterschiede.
Glaubwürdigkeit der Ergebnisse: Unsachgemäße Randomisierung und Verdeckung gefährden die internen Validität der Studie und machen Ergebnisse angreifbar.
Wie nennt man diese Grafik und wofür nutzt man sie?
Diese Grafik nennt man “Flowchart” oder “CONSORT Diagram”.
Es visualisiert, wie viele Patienten tatsächlich in die Endanalyse eingegangen sind und wo es Drop-outs gab.
Was versteht man unter der ‚Intention to treat‘-Population?
Was kann man tun, wenn die 12-Wo.-Ergebnisse auswerten will, aber einzelne Daten fehlen?
Wie bewerten Sie die Per-protocol- und die Intention-to-treat-Analyse im Vergleich?
Die Intention-to-treat-Population umfasst idealerweise alle Proband*innen, die in die Studie eingeschlossen und randomisiert wurden.
Das Fehlen von Daten kann ignoriert werden (Per-protocol-Analyse bzw. Observed-cases Analyse). Alternativ können fehlende Daten ersetzt werden.
Die Ergebnisse in Intention-to-treat- und Per-protocol-Population unterscheiden sich nur geringfügig, weil die Datenvollständigkeit hoch war (283/293 = 96,6%)
Wie interpretieren Sie den Effekt unter der Annahme, dass ein Vorteil von ≥12 eine klinisch relevante Überlegenheit anzeigt?
wenn durch Konfidenzintervall überlappt
“statistisch signifikant aber nicht zwangsläufig klinisch relevant”
Wie nennt man diese Grafik und bei welcher Studienart ist diese häufig zu finden?
Forest Plot
Metaanalysen
Forest Plot: Random Effects Model oder Fixed Effect Model
Heterogenität
Wenn I² und Tau² angegeben sind, wurde wahrscheinlich ein Random Effects Model genutzt.
Ein Fixed Effects Model wird eher genutzt, wenn I² ≈ 0 % ist (geringe Heterogenität).
Größe der Konfidenzintervalle
Random Effects Model → breitere Konfidenzintervalle, weil es zusätzliche Varianz zwischen Studien berücksichtigt.
Fixed Effects Model → schmalere Konfidenzintervalle, weil es nur die Intra-Studien-Varianz betrachtet.
Forest Plot: Interpretation des Gesamt-Effekts
Diamant links von 1 → Intervention vorteilhaft.
Diamant rechts von 1 → Intervention schädlich.
Diamant schneidet 1 → Kein signifikanter Unterschied.
Welche Aspekte sollten beachtet werden, um die externe und interne Validität von Primärstudien zur prognostischen Güte dieser Skalen bewerten zu können?
Interne Validität:
Prospektives Kohortendesign,
unselektierte Stichprobe,
ausreichend lange Nachbeobachtung,
unabhängige Erfassung von Dekubitus und Dekubitusrisiko, etc.
Externe Validität: Vergleichbar sein sollten… z. B.
soziokultureller Versorgungskontext,
Spektrum der Erkrankungen,
Alter der Patient*innen,
Inzidenz von Dekubitus, etc.
AUC
Die AUC (Area-under-the-Curve) ist eine Fläche, deren Größe durch Sensitivität und Spezifität bestimmt wird
AUC = 1 wäre perfekte diagnostische/prognostische Güte
AUC = 0,5 wäre Ratewahrscheinlichkeit
warum hohe Präzision innerhalb des Effekts
Durch die Fallzahl, welche bei hinreichender Größe auch geringe Gruppenunterschiede statistisch signifikant werden lassen kann.
Bewertungskriterien für Endpunkte
Validität → Misst der Endpunkt tatsächlich das, was er messen soll?
Beispiel: Ein Blutdruckwert ist ein valider Endpunkt für Bluthochdruck, aber nicht für Lebensqualität.
Reliabilität → Wie zuverlässig und reproduzierbar ist die Messung?
Beispiel: Ein standardisierter Labortest ist reliabler als eine subjektive Schmerzskala.
Änderungssensitivität → Reagiert der Endpunkt empfindlich auf tatsächliche Veränderungen?
Beispiel: Ein Fragebogen zur Lebensqualität sollte Verbesserungen durch eine Therapie erfassen können.
Praktikabilität → Wie einfach ist der Endpunkt in der Praxis umsetzbar?
Beispiel: Ein einfach durchführbarer Bluttest ist praktikabler als eine aufwendige Biopsie.
Wann ist eine hohe Sensitivität wichtig?
Wann ist eine hohe Spezifität wichtig?
👉 Wenn es entscheidend ist, möglichst keine Erkrankten zu übersehen (False Negatives minimieren).
👉 Wenn es entscheidend ist, möglichst keine Gesunden fälschlicherweise als krank zu diagnostizieren (False Positives minimieren).
Aspekte für Validität der Ergebnisse
keine Biases!
Confounding Bias
Inwieweit führte das Studiendesign zu einer Strukturgleichheit der Gruppen bei Baseline, z. B. hinsichtlich Alter und Komorbiditäten?
Selection Bias
Wurden nicht nur die Patient*innen der Interventionsgruppe zugeordnet, die für die Intervention geeignet waren?
Detection Bias bzw. Attrition Bias
Wurden Komplikationen in beiden Gruppen in gleicher (idealerweise verblindeter) Form und über die gleiche Zeitdauer erfasst?
Performance Bias
Wurde in beiden Gruppen eine ähnliche postoperative Behandlung, z. B. Antibiose, Analgesie oder Atemtherapie, durchgeführt?
Selective Reporting Bias
War die Komplikationsrate als (idealerweise primärer) Endpunkt vor der Datenerfassung festgelegt und eindeutig definiert worden?
Aspekte zur Beurteilung der Validität der statistischen Analyse
🔹 Adjustierung für Gruppenunterschiede: Verhindert Verzerrungen durch ungleiche Ausgangswerte.
🔹 Intention-to-Treat-Analyse: Gewährleistet eine realistische Einschätzung der Interventionseffekte.
Erklärung:
1️⃣ Adjustierung für Gruppenunterschiede bei Baseline
Warum wichtig?
• In einer randomisierten Studie sind Gruppen zwar idealerweise gleich verteilt, aber es können dennoch Unterschiede in relevanten Ausgangsvariablen (Baseline-Charakteristika) bestehen.
• Wenn z. B. eine Gruppe älter oder kränker ist, könnte dies das Ergebnis beeinflussen, unabhängig von der eigentlichen Intervention.
Wie wird das gemacht?
• Stratifizierte Analyse: Die Gruppen werden bereits bei der Randomisierung nach bestimmten Faktoren (z. B. Alter, Geschlecht) unterteilt.
• Multiparametrische Analyse (z. B. multivariate Regression): Statistische Modelle kontrollieren für potenzielle Störfaktoren und minimieren Verzerrungen.
✅ Beispiel: Falls die Interventionsgruppe zu Studienbeginn eine höhere Fitness hatte, könnte dies die Ergebnisse verzerren. Eine Adjustierung stellt sicher, dass Unterschiede auf die Intervention zurückzuführen sind und nicht auf andere Faktoren.
2️⃣ Intention-to-Treat (ITT)-Analyse
• Die Intention-to-Treat-Analyse sorgt dafür, dass alle Teilnehmer*innen in der Gruppe ausgewertet werden, der sie ursprünglich zugewiesen wurden – unabhängig davon, ob sie die Intervention tatsächlich durchgeführt haben oder nicht.
• Dies verhindert Bias durch selektiven Drop-out, da in einer per-protocol-Analyse (nur diejenigen, die die Intervention abgeschlossen haben) ein verzerrtes Bild entstehen kann.
Was passiert ohne ITT?
• Wenn nur Teilnehmende analysiert werden, die die Intervention erfolgreich abgeschlossen haben, könnte der Effekt überschätzt werden.
• Eine realistische Bewertung der Effektivität einer Intervention berücksichtigt auch diejenigen, die sie abgebrochen oder nicht vollständig durchgeführt haben.
✅ Beispiel: Wenn in einer Studie zur Prähabilitation nur die Personen analysiert werden, die das Training tatsächlich absolviert haben, könnten die Ergebnisse zu optimistisch sein. Eine ITT-Analyse stellt sicher, dass die realen Bedingungen der Anwendung berücksichtigt werden.
Welcher Studientyp? Diagramm…
Placebo meist…
… RCT
Fragestellung (Kausalität vs. Häufigkeit):
Datenverfügbarkeit:
Vergleichsgruppen:
Zeitlicher Rahmen:
Ziel der Studie (Verallgemeinerbarkeit):
Kausale Fragen, die den Einfluss einer Intervention oder eines Faktors untersuchen (z. B. “führt eine Behandlung zu weniger Potenzstörungen?”), eignen sich gut für experimentelle Designs wie RCTs oder Kohortenstudien.
Häufigkeits- oder Prävalenzfragen (z. B. “wie häufig tritt eine Krankheit auf?”) eignen sich besser für Querschnitts- oder Kohortenstudien.
Wenn du bereits bestehende Daten über Patienten hast (z. B. durch Krankenakten), könnte eine retrospektive Kohortenstudie oder Fall-Kontroll-Studie sinnvoll sein.
Wenn du eine langfristige Beobachtung der Teilnehmer planst, ist eine prospektive Kohortenstudie oder ein RCT hilfreich.
Wenn du zwei Behandlungsansätze oder Gruppen vergleichen möchtest, die randomisiert zugewiesen werden (um Bias zu minimieren), wäre ein RCT der Goldstandard.
Wenn du langfristige Effekte (z. B. Rezidive über Jahre) untersuchen möchtest, benötigst du ein prospektives Design (z. B. Kohortenstudie).
Metaanalysen oder systematische Übersichtsarbeiten sind ideal, wenn du eine breite Synthese des aktuellen Forschungsstandes benötigst.
Warum ist eine solche IPD-Metaanalyse
i) besonders aufwendig und
ii)besonders aussagekräftig?
IPD-Metaanalysen sind besonders aufwendig, weil man die Rohdaten aus möglichst allen Primärstudien beschaffen muss.
Sie sind besonders aussagekräftig, weil aus jeder Primärstudie dank der IPD auch Subgruppen- und Überlebenszeitanalysen berechnet werden können; dies gelingt nicht, wenn nur summarische Effekte aus jeder Primärstudie vorliegen.
Last changeda day ago