Was illustriert diese Abbildung?
Das Simpson Paradoxon
Das Simpson-Paradoxon ist ein statistisches Phänomen, bei dem ein Zusammenhang oder Trend zwischen Variablen in einer Gesamtdatenanalyse verschwindet oder sich umkehrt, wenn die Daten in Untergruppen aufgeteilt werden.
Welche Arten von Bias haben wir kennengelernt?
selection bias
measurement bias
confounding bias
Erkläre den selection bias kurz.
Selection Bias
Differenz im untersuchten Parameter zwischen Sample und und Zielpopulation
Betrifft Stichprobenziehung, Nicht-Teilnahme, Drop-Out
Besonderes Problem: „Conditioning on a collider“
Erkläre den measurement bias kurz.
Measurement Bias
Ausmaß, in dem der Messwert von wahren Wert abweicht
Zugehörige Begriffe: „Recall Bias“, „Reporting Bias“
Auch das Einhalten von Konventionen (Kappa = .7 als „good measurement“ kann mit großem Bias einhergehen, z.B. weil auch Kontrollvariablen ohne Messfehler gemessen sein müssten)
Erkläre den confoundin bias kurz.
Confounding Bias
Verzerrung des Zusammenhangs durch gemeinsame Ursachen
Häufig Versuch, durch „Kontrollvariablen“ zu reduzieren
Das macht aber auch Probleme: Power, Interpretation erschwert, „Conditioning on a collider“
Der Selektionsbias (auch Selektionsfehler oder Auswahlfehler genannt) ist eine Art von Verzerrung in der Statistik und Forschungsmethodik, die auftritt, wenn die Auswahl von Studienteilnehmern oder Daten in einer Weise erfolgt, die nicht zufällig ist und die Ergebnisse einer Studie systematisch beeinflusst. Dieser Bias kann dazu führen, dass die Stichprobe nicht repräsentativ für die Gesamtpopulation ist, auf die die Forschung abzielt. Es gibt verschiedene Arten von Selektionsbias.
Random mesurement bias
je größer die Residuen desto klener der effekt
Non-random measurement bias → Heteroskedastizität: Wie kann man diese grafisch erkennen?
Auswahl von Kontrollvariablen: Wozu dient hier das Kontrollieren? Was könnte/kann passieren?
Statistisches Kontrollieren (englisch: adjust; control meint etwas anderes!)nach gemeinsamen Ursachen von UV und AV soll Confounding Bias reduzieren, um kausalen Schlüssen näher zu kommen
Kontrollieren kann Bias verringern, aber auch auch erhöhen!
Konfundierende Variable (SV): nur dann eine SV wenn sie eine gemeinsame Ursache ist: die Einfluss auf AV und UV hat
ich finde künstlichen Zusammenhang, obwohl es keinen gibt, weil sie beide Variablen „verbindet“
Was für Confounder gibt es? Wie lässt sich ihr Zusammenhang zur Av darstellen?
Wie kann ein Bias erhöht werden erhöht werden? Was sollte man nicht machen?
->gelber kasten: dann erzeuge ich künstlichen Zusammenhang zwischen 2 Variablen, wenn ich danach kontrolliere
Auswahl von Kontrollvariablen: Wann kann ein Bias beim Kontrollieren erhöht werden? (2)
Was sind weitere Probleme bei der Auswahl von Kontrollvariablen?
Kollinearität
◦ Häufig sind Covariaten korreliert, teilen also Informationen
◦ Bei der Erstellung eines Modells wird der Computer aufgefordert, diese geteilte Information der einen oder der anderen Variable zuzuordnen
◦ Dies geschieht anhand von Informationen aus dem Sample
◦ Diese Informationen können zwischen Samples variieren →instabile, wenig replizierbare Schätzungen
Das lineare Modell (z.B. ANCOVA) nimmt bei statistischer Kontrolle an, dass es keine Interaktion zwischen Covariate und UV gibt
◦ Das ist jedoch häufig der Fall ◦→erzeugt Bias
Was wird bei der Auswahl von Kontrollvariablen nun empfohlen?
Alle Kovariaten sollten a priori (= bei der Studienplanung) festgelegt werden
So wenig und so unkorreliert wie möglich
„Often, the best choice is to ignore covariates and to test and estimate overall effects and then to explore possible moderators"
Notiz: 1) vorher wissen was man forschen will und was man kontrollieren muss/ will
- so wenih KV wie möglich und so unkorreliert wie möglich!
nach so wenig variablen wie möglich kontrollieren -> die geringst möglichsten
und so unkorrelliert wie möglich
Wonach entscheide ich , was die wichtigsten Covariaten sind?
Empirische Methoden
Forwärts-/Rückwärtsselektion
Machine Learning (z.B. „LASSO“) (die wichtigsten Variablen quasi damit einfangen)
ABER: diese empirischen Methoden können nicht unterscheiden zwischen instrumentellen, collider und intermediate Variablen auf der einen Seite und tatsächlichen Confoundern auf der anderen→Denkarbeit!
Selektion auf Basis von Hintergrundwissen
Causal Graph Theory / Directed Acyclic Graphs (DAGs)
Was wird auf diesen Abbildungen generell illustriert?
kausale Grafen!
Auswahl von Kontrollvariablen: Selektion auf Basis von Hintergrundwissen:
Was ist die “Causal Graph Theory”? Was ist ein “backdoor Criterion”? Wofür ist es wichtig?
Causal Graph Theory
Es reicht, für alle Variablen zu kontrollieren, die das „Backdoor Criterion“ erfüllen
Gegeben eines interessierenden Effekts von X auf Y, erfüllt ein Set von Variablen dieses Kriterium, wenn
◦ Keine dieser Variablen eine Folge von X ist (intermediate)
◦ Die Variablen jeden Pfad von X nach Y blockieren, der einen Pfeil nach X enthält
Achtung: Variablen, die das Backdoor Criterion erfüllen, können Collider sein und damit neue Pfade öffnen
Beschreibe diese Darstellung eines Backdoor Criterions:
Wer ist der Cofounder?
Was sollte kontrolliert werden um den Backdoor Pfad zu blockieren?
Erläutere.
Beschreibe, wo liegt der Konfounder?
Konfounder = A
Conditioning on a Collider, F.26
• Stichprobe wird auf ein Merkmal reduziert, dass gemeinsame Folge zweier interessierender Merkmale ist
→ Fälschliche Assoziation
• Typische Beispiele
Patienten
Studierende
Freiwillige
Was würde passieren, wenn ich nach A kontrollieren ?
wenn ich nach A kontrollieren würde würde künstlicher zusammenhang zwischen V und F entstehen
A ist der Collider
nicht versuchen nach A zu kontrollieren!
Ein Beispiel über den Zusammenhang/Einfluss, wie Confounder und Collider auf das Outcome haben
???
Was stellt hier den Collider dar, was bedeutet die gestrichelte Linie?
colider immer das gelbe,
das gestrichelte immer das, was wir künstlich erzeugen
Welche Variable ist der Knotenpunkt? (zentral)?
Welche Variable ist der Collider?
Beschreibe und Verstehe.
Der Knoten Z ist in allen Pfaden vorhanden, also sollten wir auf ihn konditionieren. Da Z jedoch ein Collider ist, müssen wir auch auf einen seiner Elternteile (oder deren Nachkommen) konditionieren, so dass wir die Wahl zwischen (A, B, C oder D) haben. Z und alle Kombinationen dieser 4 Knoten erfüllen die Kriterien für die Hintertür. Wir könnten also auf (Z, A), (Z, B), (Z, A, C), (Z, A, B, C, D) usw. konditionieren.
->künstlicher Pfad zwischen B und C wenn ich nach Z kontrolliere
Überlegen Sie sich selbst eine Situation, bei der„conditioning on a collider“ ein Problem sein kann
F. 34 (nacharbeiten)
In einer Studie zur Effektivität einer Therapie wird eine Interventionsgruppe mit einer Kontrollgruppe hinsichtlich der Veränderung der Symptomatik verglichen. In einem statistischen Test zeigt sich ein p- Wert < .05 im Sinne der Studienhypothese (H1: Effekt der Therapie)
Was konnte gezeigt werden?
Was ist ein p-Wert?
WICHTIG!
Was sind Mögliche Gründe für große p-Werte?
Die Null-Hypothese ist richtig
Große Zufallsfehler
Das Studienprotokoll wurde verletzt
Die Annahmen des statistischen Modells stimmen nicht
Die Verfahren messen nicht das, was sie messen sollen
...
Was ist ein Signifikanztest?
Ein ST teilt ein Forschungsergebnis in genau zwei Zustände ein.
Situation A: p = 0.051 -> „marginally significant“?
Situation B: p= 0.0001-> ***„highly significant“?
Fragen: Warum bedeutet p=0.051 und p=0.89 das gleiche? Warum bedeutet p=0.051 und p=0.049 was anderes?
Warum bedeutet p=0.0001 das gleiche wie p=0.049?
Fazit: Doch lieber mehr als 2 Zustände fürs Forschungsergebnis!
Was sind Nachteile von Signifikanztests?
Dichotomisierung von Forschungsergebnissen (p=0.051)
Unnötige Komplexitätsreduktion
Erschweren Vergleichbarkeit von Forschungsergebnissen
Sehr unrobust gegen kleine Methodik-Veränderungen oder Daten-Ausreißer
Warum ist ein Konfidenzintervall besser als Signifikanztesten?
Geben auf einen Schlag Information über interessierenden Schätzwert und dessen Zuverlässigkeit
Sind in der Skala, in der die interessierenden Variablen sind
Erlauben Kontextualisierung
Relativ robust gegen kleine Methodik-Veränderungen oder Daten-Ausreißer
Beispiele:
Beispiel: Frage: Wie soll man nun Evidenz von Forschungsergebnissen einordnen wenn nicht mit p-Werten?
Was sollte man auf jeden Fall nicht tun...(im Sinne des Signifikanztesten)? Erinnere die 5 Regeln inhaltlich!
1. Stützen Sie Ihre Schlussfolgerungen nicht allein darauf, ob ein Zusammenhang oder eine Wirkung als "statistisch signifikant" eingestuft wurde (d. h., ob der p-Wert eine willkürliche Schwelle wie p < 0,05 überschritten hat).
2. Glauben Sie nicht, dass ein Zusammenhang oder eine Wirkung existiert, nur weil er/sie statistisch signifikant war.
3. Glauben Sie nicht, dass ein Zusammenhang oder ein Effekt nicht vorhanden ist, nur weil er statistisch nicht signifikant war.
4. Glauben Sie nicht, dass Ihr p-Wert die Wahrscheinlichkeit angibt, dass der beobachtete Zusammenhang oder Effekt allein durch Zufall entstanden ist, oder die Wahrscheinlichkeit, dass Ihre Testhypothese wahr ist.
5. Ziehen Sie aus der statistischen Signifikanz (oder deren Fehlen) keine Schlüsse über die wissenschaftliche oder praktische Bedeutung.
Exkurs: Bayesian Statistics (prüfungsrelevant?)
Was passiert bei dieser Art von Statistik und was ist das Problem hier?
Mit Bayes‘scher Statistik wird (Ausmaß des) Vorwissen(s) über Parameter direkt in statistisches Modell übertragen
Problem: Quantitative Modelle und daher quantitatives Vorwissen ist nötig (daher auch Abhängigkeit von der Güte des Vorwissens)
mögliche Probleme:
Kleine Stichproben
Verletzung von Voraussetzungen
Ausreißer
Kleine Stichproben - wann sind sie häufig?
• In der Regel wird VOR einer Studie abgeschätzt, welche Stichprobengröße für die Beantwortung der Fragestellung nötig ist
• Power-Schätzung
• „Daumen-Regeln“, z.B. n=20 je Prädiktor
• Dennoch häufig kleine Stichproben bei
Geringem Rücklauf (→ Selektionsbias)
Hohem Dropout (→ Selektionsbias)
Post hoc Fragestellungen (explorativ, sollten immer als
solche gekennzeichnet werden)
Was machen bei kleinen SP?
Mögliche Ansätze
Exakte Verfahren: Fisher‘s exact test, exakte Regressionen (logistisch, Poisson)
Bootstrapping
Bayes Statistik (Wahrscheinlichkeitsschätzungen)
Was ist Bootstrapping?
Bootstrapping ist eine statistische Methode, die dazu verwendet wird, um Stichprobenverteilungen zu schätzen und statistische Inferenzen zu ziehen, ohne die Annahmen über die zugrunde liegende Bevölkerungsverteilung zu machen. Diese Methode ist besonders nützlich, wenn die Stichprobe klein ist oder die Annahmen über die Verteilung der Daten nicht erfüllt sind.
Bootstrapping ist ein statistisches Verfahren, bei dem aus einer Stichprobe erneut viele Stichproben gezogen werden, von denen Statistiken, wie beispielsweise Mittelwert oder Standardabweichung, berechnet werden. Dies erlaubt es uns, die Präzision von Schätzungen für Parameter zu bestimmen.
F. 51: Beispiel exakte logistische Regression
Beispiel exakte logistische Regression
Studie mit n=95 Studierenden
Frage 1: gibt es einen Zusammenhang zwischen Depressivität und riskantem Alkoholkonsum bei traumatisierten Frauen
Stichprobe n=13
Logistische Regression OR: 1.25 [0.98-1.59], p=.071
Exakte logistische Regression OR: 1.22 [1.03-1.64], p=.017
F. 52: Beispiel Bootstrapping
Beispiel Bootstrapping: durch Verteilung beim BS bekommt man immer KIs -> das ist sehr gut
Frage 1: gibt es einen Zusammenhang zwischen Trait Ängstlichkeit und Depressivität bei traumatisierten Frauen? Stichprobe n=13
Korrelation
r = .59; p = .035
Korrelation mit 1000 Bootstrapping Replikationen
r = .59 [.25-.95]; p = .001
F. 53: Beispiel Bayes Regression
Beispiel Bayes Regression: das ist wirklich die Wahrscheinlichkeit für etwas-> hier darf man intepretieren, wie man p-Werte (leider) interpretiert :)
Frage 1: gibt es einen Zusammenhang zwischen Empathie und der Angstreaktion auf traumabezogenes Filmmaterial?
Stichprobe n=47
Lineare Regression
b = 6.85 [-0.13-13.8]; p = .054
Bayes Regression mit nicht- informativem Prior
Mean difference = 6.85 [0.04-13.44]
Wo könnten Verletzungen von Voraussetzungen von Verfahren des allgemeinen linearen Modells (ANOVA, t-Test, Regressionen) sein?
Verletzung von Voraussetzungen von Verfahren des allgemeinen linearen Modells (ANOVA, t-Test, Regressionen)
Normalverteilung
Gleichheit der Varianzen
Lineare, additive Zusammenhänge
→Geringere Power, Verzerrung von p-Werten
Beschreibe das dargestellte Beispiel. Was kann man lösungsmäßig tun bei dieser Art von Verletzung?
Verletzung: Gleichverteilung der Residuen
Was zeigt diese Form der Verteilung?
wenn die Verteilung irgendeine Form annimmt-> ungünstig-> keine Gleichverteilung!!!
Was passiert bei Gleichverteilung der Residuen? BZW. Was wäre eine mögliche Lösung?
Mögliche Lösung: Robuste Standardfehler/Konfidenzintervalle
Schätzung mittels „Huber-White-Sandwich-Matrix“
(Royall, 1986)
Nicht geeignet bei kleinen Stichproben
Breitere Konfidenzintervalle: wenn Modellannahmen
stimmen, dann konventionelle Methode verwenden
Beispiel: Zusammenhang zwischen Empathie und Angstreaktion auf traumatisches Filmmaterial
Konventionelles Konfidenzintervall b = 0.48 [-0.11-1.06], p = .106
Robustes Konfidenzintervall b = 0.48 [-.02-0.98], p = .059
Was stellen diese Zusammenhänge dar? Welche Lösung soll angestrebt werden?
Lösung: Non- parametrische Regression
„kernel-weighted local polynomial regression”
Ausreißer in Verteilungen vs. Ausreißer in Assoziationen: Beschreibe/ Nenne Lösungsmöglichkeiten!
• Ausreißer in Verteilungen
Bereinigung nach Inhaltlichen Gesichtspunkten (z.B. Plausibilität) für viele Variablen gut möglich
z.B. Trinkmenge, Reaktionszeiten etc.
Oft bereichsspezifische Konventionen, z.B. +/- 3SD
• Ausreißer in Assoziationen
Einzelne Beobachtungen mit großen Residuen
Verzerrung der Assoziation
Mögliche Lösung: Robuste Regression
(nicht verwechseln mit robusten Standardfehlern)
Gewichtet Ausreißer hinsichtlich des Zusammenhangs herunter
• Aber: jeder Ausreißer sollte inhaltlich hinterfragt werden!
Ausreißer: Welche LÖsungsmöglichkeit?
robuste Regression: Ausreißer nicht so doll gewichten
Treatment Effekte in nicht randomisierten Studien –
Was ist Propensity Score Matching?
Randomisierung ist nicht immer möglich (Machbarkeit, Ethische Gründe)
Es gibt verschiedenen Methoden, dennoch Treatment Effekte zu schätzen und Bias zu reduzieren
Eine Möglichkeit: Propensity Score Matching
Der Propensity Score ist die bedingte (vorhergesagte) Wahrscheinlichkeit, eine Behandlung zu erhalten, anhand gemessener Merkmale.
Individuen der Interventions- und der Kontrollgruppe werden auf der Grundlage ihrer Propensity Scores gematcht.
Die gängigste Methode für das Matching ist das Nearest Neighbor Matching.
-> Propensity Score Matching (PSM) ist eine quasi-experimentelle Methode, bei der der Forscher statistische Verfahren einsetzt, um eine künstliche Kontrollgruppe zu bilden, indem er jede behandelte Einheit mit einer nicht behandelten Einheit mit ähnlichen Merkmalen abgleicht. Anhand dieser Übereinstimmungen kann der Forscher die Auswirkungen einer Intervention schätzen.
Zuletzt geändertvor 10 Monaten