Wann kann von einem kausalen Zusammenhang nach Mill ausgegangen werden?
eine Ursache einem Effekt vorausgeht
Ursache und Effekt in einer Beziehung zueinander stehen
es keine alternativen Erklärungen für den gefundenen Effekt gibt
Erkläre kurz was im Consort-Statement enthalten ist. Was wird im Flow-Diagramm angegeben?
Bewertungsgrundlage und Leitfaden für experimentelle Designs mit Kontrollgruppen.
Es besteht aus Checkliste und Flussdiagramm.
Merkmale der Consort-Checkliste:
Einschlusskriterien für Probanden
Zielbestimmung der Studie
Fallzahlbestimmung
statistische Methoden
Rekrutierung
Randomisierung
Im Flow-Diagramm wird das schrittweise Vorgehen eines Versuchs dargestellt unterteilt in die Schritte:
-Enrollment
-Allocation
-Follow-Up
-Analysis
→ angegeben wird jeweils: Versuchspersonenanzahl, Zuweisung zu den Gruppen, Ausschluss von Versuchspersonen + Grund für den Ausschluss
Definiere den p-wert bei Signifikanztests
Der p-Wert ist die Wahrscheinlichkeit dafür, dass ein Effekt in der beobachteten Höhe oder ein noch größerer in einer Stichprobe auftritt, wenn kein Effekt in der Population angenommen wird. Falls p < .05 (p < .01), ist der Effekt signifikant auf dem α-Niveau von 0.05 (0.01).
Was ist in einem Gruppen Prä-Post Design der Vorteil von zwei Prämessungen gegenüber einer Prämessung
Ein-Gruppen-Prä-Post-Design: O1 X O2
Ein-Gruppen-Prä–Post-Design mit zweifacher Prämessung: O1O2 X O3
→ Durch zweifache Prä-Messung können Veränderungen zwischen O1 und O2 erfasst werden
→ dadurch: Einfluss der Testung erfassbar
→ Lineare Reifungstrends können berücksichtigt werden
Welche Probleme gibt es oft beim Schluss von korrelativen auf kausale Schlüsse?
"correlation does not prove causation" → viele Studien (zB Korrelationsstudien) lassen keine Aussage über Richtung oder Vorhandensein eines kausalen Zusammenhangs zwischen 2 oder mehr Variablen zu → Es sind viele Arten der Korrelation möglich (zB A→B/ B→A/ C→A/B etc.)
Was versteht man unter Treatmentdiffusion und wie kann dem entgegengewirkt werden?
Treatmentdiffusion beschreibt das methodische Problem, dass Treatment und Kontrollbedingung nicht mehr klar abgegrenzt sind und somit verschwimmen (diffundieren).
Entgegenwirken: Beim quasi-experimentellen Design findet keine randomisierte Zuordnung der Untersuchungseinheiten statt. Aber die Ursache ist manipulierbar und liegt zeitlich vor dem Effekt. Somit kann die Kausalität im interventionistischen Sinne im Prinzip überprüft werden. Die Zuordnung ist nicht in der Hand des Versuchsleiters, sondern erfolgt durch Selbstselektion (z.B. zusätzliches Therapieangebot) vorgegebene Einheiten (z.B. Kliniken, Schulklassen)
Was ist eine INUS Bedingung?
Ursachen sind im allgemeinen INUS-Bedingungen
I = Insufficient (nicht hinreichend) and
N = Non-redundant part of an
U = Unnecessary, (entbehrlich) but
S = Sufficient (hinreichend) condition
Ein Ereignis wird durch eine Kombination von Bedingungen verursacht, von denen jede einzelne notwendig aber nicht hinreichend ist, um das Ereignis allein zu verursachen
→ Alle Bedingungen müssen zusammenkommen, um eine hinreichende Bedingung zu schaffen
→ INUS Bedingungen sind probabilistisch und kontextabhängig
Was beschreibt Alpha- und Beta-Fehler?
Alpha-Fehler. Wahrscheinlichkeit dafür, dass die Nullhypothese fälschlicherweise abgelehnt wird
Beta-Fehler: Wahrscheinlichkeit, dass die Nullhpothese fällschlicherwesie beibehalten wird. Ein signifikater Effekt nicht entdeckt wird.
Unter welcher Voraussetzung erhöht Matchig die statistische Validität?
→ Es sollte eine ausreichend große SP verfügbar sein und die Matching-Variablen vorhanden/identifiziert
→ Matching erhöht dann die Vergleichbarkeit zwischen den Gruppen und minimiert den Einfluss statistischer Störvariablen
Nennen Sie Beispiele für die Konstrukte Stichprobe, Setting, Outcome, Treatment
Generalisierbarkei kausaler Schlüsse
Units (Stichprobe): Entspricht meine SP der typischen Patientenpopulation? → Zufallsziehung aus Krankenhaus
Treatment: Ist das Therapieangebot mit anderen Angeboten vergleichbar? → Neue Chemo-Therapie
Outcomes: Handelt es sich um validierte Messinstrumente oder "selbstgestrickte" Fragebögen im Einsatz? → Biopsie (Röntgen, Ultraschall, CT, MRT)
Setting: Ist die Klinik mit anderen Kliniken vergleichbar → Zertifiziertes Krankenhaus in Deutschland
Nenne 4 Arten von Validität und beschreibe je eine Verletzung der Validität?
Nennen Sie Arten der kausalen Validität/ Welche Arten der Validität wurden bei kausalen Aussagen in der Vorlesung unterschieden?
Validität von statistischen Schlussfolgerungen Werden statistische Methoden korrekt angewandt und richtig interpretiert? Validität des Schlusses auf das Vorhandensein einer Kovariation von UV und AV.
Gefährdung: restriction of range (Varianzvernichtung durch ungeeignete Datenerhebung (kaum Unterschiede im Treatment (kleine vs. mittlere Medikamentendosis)
Interner Validität Validität der Schlussfolgerung, dass die Kovariation auf einem kausalen Zusammenhang beruht.
Gefährdung: Instrumentation (Veränderung des Messinstruments über die Zeit)
Externer Validität Generalisierbarkeit über Variation in Stichprobe, Settings, Treatmentbedingungen und Messmethoden? Validität von Extrapolation, Interpolation, horizontalem Transfer.
Gefährdung: Ist der Zusammenhang nur mit bestimmten Outcome-Variablen belegbar? Beispiel Weiterbildungsmaßnahme zur Erhöhung der Kundenzufriedenheit wirkt nur auf Kundenzufriedenheit in der Beurteilung durch dritte Beobachter, nicht aber auf Selbstbericht der Kunden.
Konstruktvalidität Ist der Rückschluss aus den beobachteten (manifesten) Variablen auf das Konstrukt (latente Variable) gültig? Validität von Schlussfolgerung auf abstrakter Konstrukteben
Gefährdung: Konfundierungen zwischen verschiedenen relevanten Konstrukten: Durch ungenügende Erfassung aller zugrunde liegenden und intervenierenden Konstrukte gibt es möglicherweise nicht erkannte Zusammenhänge zwischen den Konstrukten
Welche Gefährdungen der Validität der statistischen Schlussfolgerung gibt es?
1. Low Statistical Power (Geringe statistische Trennschärfe) 2. Violated Assumptions of Statistical Tests (Verletzung der Annahmen statistischer Testverfahren) 3. Fishing and the Error Rate Problem (Fischen nach Signifikanzen) 4. Unreliability of Measures (Mangelnde Reliabilität der Maße) 5. Restriction of Range (Varianzeinschränkungen) 6. Unreliability of Treatment Implementation (Unreliable Implementierung des Treatments) 7. Extraneous Variance in the Experimental Setting (Einfluss von Störvariablen) 8. Heterogeneity of Units (Heterogenität der Versuchseinheiten) 9. Inaccurate Effect Size Estimation (Ungenaue Schätzung der Effektstärke)
Merksatz: Louisa Vonier fickt untertags richtig ungeschützt Emily, Helena: Igitt
Welche Gefährdungen der internen Validität gibt es?
Testing Die Untersuchung selbst das Teilnehmen an einer Studie (zB. Erhebung von Körpergewicht regt eigenständige Diät an oder Lerneffekte) ist möglicherweise ein Treatment und hat somit einen Einfluss.
History Externe Ereignisse mit Einfluss auf die Probanden
Instrumentation Veränderung des Messinstruments/Messapparatur über die Zeit -> Bedingungen nicht mehr gleich und somit Repräsentativität sinkt
Statistical Regression Bei Messwiederholung liegen die Werte einer Gruppe mit extremen Merkmalsausprägungen zum ersten Messzeitpunkt in der zweiten Messung oder einer korrelierten Messung tendenziell näher am Mittelwert (in der Mitte). Grundlage: Extreme Fehler wiederholen sich (in der Regel) nicht. Bedingungskonstellationen, die einen extremen Wert verursachen, sind oft außergewöhnlich und instabil.
Maturation “Reifung” der Probanden durch psychische oder physische Veränderungen über die Zeit
Experimental Mortality systematischer Ausfall von Probanden Treatmentgruppe ist anstrengender, daher mehr Abbrecher nur die “Geeigneten” halten durch (und das auch noch erfolgreich) Probanden in der Kontrollgruppe sind nicht interessiert, eventuell auch unzufrieden, weil sie kein Treatment erhalten haben, .... eventuell auch wirkliche Todesfälle
Selection Probanden sind zufällig oder absichtlich systematisch auf die Treatments verteilt und haben unterschiedliche Ausgangswerte oder -charakteristika
Selection-Maturation Zusammenwirkung Shadish et al. (2002) beschreiben allgemein das Problem, dass das gleichzeitige Auftreten von verschiedenen Gefährdungen zu additiven und interaktiven Effekten führt. Beispie
Was versteht man unter Matching und welche Ziele verfolgt es?
Definition: KG und EG werden anhand der Werte einer oder mehrerer Matchingvariablen gepaart zusammengestellt.
→ Bildung von statistischen Paaren mit möglichst identischen Werten in relevanten, charakteristischen Variablen, die mit der Outcome-Variable korrelieren
Ziele: 1) Vergleichbarkeit der Gruppen erhöhen 2) Selektionsbias verringern 3) statistische Power erhöhen
Welche Gefährdung der Validität der statistischen Schlussfolgerung gibt es?
Zu geringe statistische Power
Verletzung der Voraussetzung der angewandten statistischen Verfahren
Fischen nach Signifikanzen: Viele Variablen werden untereinander korreliert. Viele Gruppenmittelwerte werden paarweise verglichen. Nur die signifikanten Ergebnisse werden berichtet. Alpha-Fehler-Inflationierung
Unreliable Messung -> Erhöhung der Fehlervarianz
restriction of range Varianzvernichtung durch ungeeignete Datenerhebung
Unreliable Treatmentimplementierung keine kontrollierten Laborbedingungen
Einfluss von Störvariablen
Heterogenität der Teilnehmer -> Erhöhte Fehlervarianz
Ungenaue Bestimmung der Effektgrößen
Akzeptanz der Nullhypothese (Vermeidung publication bias)
Was versteht man unter experimental mortality und wie gefährdet es die interne Validität
- Systematischer Ausfall von Probanden
→ zB mehr Abbrecher in Treatment-Gruppe, da anstrengender
→ Probanden im Krankenhaus sind nicht interessiert/unzufrieden, weil sie unzufrieden sind, weil sie kein Treatment erhalten
→ Echte Todesfälle
Gefährdung, weil durch Ausfall von Probanden, die Repräsentativität sinkt
Inwiefern kann die randomisierte Zuweisung zu den Versuchsbedngungen die interne Validiät vergrößern?
→ Die zufällige Zuweisung erhöht die Ähnlichkeit der verglichenen Gruppen
1. Alternative Erklärungsansätze können besser ausgeschlossen werden
2. Die Plausibilität von Validitätsgefährdungen wird reduziert
3. Unverzerrte Schätzungen mittlerer Treatment-Effekte werden ermöglicht
Was ist das Effektgrößenmaß d nach Cohen? Geben Sie eine Formel an und erläutern Sie diese
Wie sind die Effektgrößenmaße der odds ratio definiert
Beschreibung: beschreiben das Verhältnis zweier "odds" zueinander → odds ratio = 1 ⇒ Kein Unterschied zwischen Gruppen → OR > 1 ⇒ Risiko für Ereignis in der 1. Gruppe → OR < 1 ⇒ "Schutzfunktion der Gruppenzugehörigkeit" vor einem Ereignis in der 1. Gruppe
Nennen Sie drei Bedrohungen der inernen Validität , die bei der Prä-Post Messung mit nicht äquivalenter KG auftreten
Notation: NR O1 X O2 --------------- NR O1 O2
Bedrohungen:
1) Selektion-Reifung (unterschiedliche spontane Veränderungsraten)
2) Selektion-Instrumentation (Skalen und Deckeneffekte)
3) Selektion-Geschichte (Lokale Geschichte)
4) Selektion-Regression
Unter welchen Bedingungen hat ein Ein-Gruppen-Design mit einem Post-Messzeitpunkt interne Validität. Nennen Sie ein Beispiel
Wenn das Verhalten der AV ohne Treatment mit hoher Sicherheit vorhergesagt werden kann
→ Beispiel: Bekanntheitsgrad eines neuen Produktes nach einer Werbemaßnahme erfassen (Da hier von allgemeiner Unkenntnis ausgegangen werden kann)
Warum ist das Ziehen von Zufallsstichproben zur Sicherung der externen Validität manchmal nicht möglich
Datenschutz
Kosten
sonstige Barrieren (Organisation)
Population ist nicht definiert
Was sind die Vorteile einer Zufallsstichprobe, die aus der Population gezogen wurde?
Welchen Vorteil hat eine Zufallsstichprobe für die externe Validität eines Effekts?
Eine Zufallsstichprobe garantiert, dass:
1. derselbe Effekt, der in der SP auftritt auch in anderen Zufallsstichproben aus der Population erwartet werden darf
2. derselbe Effekt in der Gesamtpopulation erwartet werden darf
gilt auch für Zufallsstichproben von - settings - treatments - outcomes
Was versteht man unter Konstruktvalidität
Definition: Fähigkeit einer Messung oder eines Tests, das theoretische Konstrukt, das es zu messen versucht, tatsächlich zu messen → Leitfrage: Wie gut repräsentieren die realisierten Studienmerkmale die gezielten Konstrukte? - wird meist für die AV diskutiert, aber auch für Probanden, Settings und Treatments definiert& diskutiert
Was versteht man unter Case-controll Design
→ Quasi-experimentelles Design ohne Prä-Test
- sehr verbreitet im klinischen Bereich - primär angewendet, wenn kein prospektives Design möglich ist (zB ethische Gründe, selten auftretende Krankheitsbilder/Ereignisse → kleines N, unklare Ursachen)
- Retrospektive Suche nach Ursachen (Contergan-Geschädigte Mütter)
- Suche nach einer KG mit hoher Vergleichbarkeit
Was ist der Unterschied zwischen einem Experiment und einem Quasi-Experiment und was bedeutet das für die Interpretation der Ergebnisse
Ein Quasi-Experiment ist eine Untersuchung, bei der keine zufällige Zuordnung der Teilnehmenden zu Untersuchungsbedingungen stattfindet, die aber ähnliche Ziele wie das Experiment verfolgt, insbesondere den Test einer kausalen Hypothese.
Ergebnisse sind oft schwieriger zu interpretieren
praktisches Beispiel, warum man quasi Experiment auswählt
Erhebung in verschiedenen Klassen, diese können nicht randomisiert neuverteilt werden, um dann einem bestimmten Treatment ausgesetzt zu sein (organisatorisch)
andere Gründe: Aufwand, Kosten, ethische Gründe
Was sind die Probleme bei Wartekontrollgruppen
Zweiter Teil der Untersuchung ist keine Wiederholung des ersten Teils mit vertauschten “Rollen”,
da eventuell vom ersten Treatment in der ersten Gruppe etwas “zurückbleibt”.
es in der Wartekontrollgruppe einen Einfluss des “Wartenmüssens” gibt (Unzufriedenheit wegen der “Zurückstufung”, aber auch Suche nach alternativen Hilfen).
Stellen sie drei Quasiexperimentelle Designs ohne KG dar und benennen sie diese
Ein-Gruppen-Design mit einem Post-Messzeitpunkt
Kontrafaktischer Vergleich fehlt
Ein-Gruppen-Design mit einem Post- Messzeitpunkt und mehreren Messungen
Messung verschiedener Konstrukte, Gefahr der Alpha Fehler Inflationierung weil viele MErkmlae gleichzeitig untersuch werden
Ein-Gruppen-Prä-Post-Design
Messung within participants (höhere statistische Validität) oder between participants
Warum kann es manchmal Sinn machen, ein Design ohne KG einzusetzen
Ethische oder praktische Gründe.
Logistische (Treatment bereits flächendeckend implementiert, Hartz IV).
Wenn glasklar ist, was ohne Treatment als Ergebnis zu erwarten ist.
Geben Sie jeweils ein Beispiel für vermeidbare und nicht-vermeidbare Ursachen für Schwund von Personen an
vermeidbare Ursachen: - Treatment- oder Untersuchungsprozedur erzeugt ablehnende Haltung bei den Probanden ⇒ Abbruch des Experiments nicht
vermeidbare Ursachen: - Tod der VPN oder Naturkatastrophen
Was sind die Vorteile eines Prätest bei einem quasi-experimentalen Design
1. Anfängliche Differenzen einzuschätzen ist wichtig für die Bewertung von Bedrohungen der internen Validität
2. Insbesondere partielle Bewertung von Selektionsbias und von selektiven Drop-out
3. Erhöht die statistische Trennschärfe der statistischen Analyse → Validität der statistischen Schlussfolgerung ist erhöht
Was heißt Instrumentierung und wie gefährdet es die interne Validität
Instrumentierung ist die Änderung der Definitionen von Kategorien, wodurch sich die Ergebnisse bei gleichbleibenden Ereignissen verändern (weil z.B. VPs in andere Gruppe eingeordnet werden) und dadurch die Validität gefährdet ist
Was sind die häufigen Probleme bei unterbrochenen Zeitreihen
Langsame und graduelle Implementierung: Diffusion
Viele Interventionen können nur schrittweise eingeführt werden. Neues Wissen gelangt nur langsam und schrittweise zur Interventionsgruppe.
unklarer (wie schnell zeigt sich ein Effekt) sich erst im Laufe der Zeit zeigender Effekt (unklar ob durch Intervention oder alternativ)
Falls Diffusionsrate bekannt, kann der Effekt entsprechend modelliert werden: -> Gradueller Anstieg anstelle von Schrittfunktion
Unbekanntes Intervall zwischen Ursache und Effekt
Erwartete Effekte treten erst mit langer zeitlicher Verzögerung auf. Erfolge sind nur schleichend bemerkbar. ( Änderungen im Ernährungsverhalten, Lungenkrebs durch Rauchen) Problem: Der Effekt einer Intervention kann durch große zeitliche Differenz zwischen Intervention und Erfolg wieder verwässert werden. -> zeitlich versetzte Zeitreihe
Kurze Zeitreihen (N<100)
Für die statistische Vorhersage (ARIMA): Mindestens 100 Beobachtungen -Faustregel bei unterbrochenen Zeitreihen: Mind. 50 Messungen vor und mind. 50 Messungen nach dem Ereignis
Beschränkung von Archivdaten
Datenqualität bei Zeitreihen ist oft nur sehr schwer zu bewerten. Wie valide ist die Messung durch die Erhebung?
Grad der Datenaggregation oft so hoch, dass Analysen nicht in dem gewünschten Zeitfenster stattfinden können (zB. nicht genau genuge Messung)
Verfälschungsgefahr durch Veränderung des Konstruktes über die Zeit, oder Änderung der Definitionskriterien
Skizzieren SIe anhand einer graphischen Dartellung einen Niveauunterschied ohne Trendveränderung und eine Trendveränderung ohne Niveauunterschied
y-Achse Anzahl; x-Achse Zeit
Mögliche Validitätsgefährdungen bei Interventionen bei Zeitreihen
Reifung und Regression durch viele Prätests einschätzbar.
Wichtigste Bedrohung: History, ein bestimmter Zeitpunkt ohne KG, alternative Erklärungen, lassen sich nicht ausschließen
Instrumentierung: -> Definition der Kategorien ändert sich, z.B. Arbeitslosenstatistik
Selektion: Wenn Intervention Zusammensetzung der Gruppe ändert.
Statistische Schlussfolgerung (wenn weniger MZP, größere Effekt für signifikanz nötig)
Verbesserung der Validität bei Interventionen in Zeitreihen
durch nicht-äquivalente Kontrollgruppe ohne Intervention (beide Variablen müssen aber konzeptuell zusammenhängen
insbesondere History unwahrscheinlich; es sei denn, es gibt eine plausible lokale History, die genau zu dem Zeitpunkt der Intervention genau die beobachtete Veränderung bewirkt.
Instrumentierung für beide Gruppen gleich.
Reifung ähnlich in beiden Gruppen (Trend)
Intervention nicht unmittelbar nach extremer Messung -> Regression unwahrscheinlich.
Erhebung einer nicht-äquivalenten abhängigen Variable
die eine AV sollte eine Veränderung durch Intervention zeigen, die andere sollte keine Veränderung durch Intervention zeigen
History sollte beide Zeitreihen betreffen
Reifung und Regression lassen sic auch vergleichen
Entfernung eines Treatments
Kehrt sich eine Veränderung um, wenn ein Treatment wieder abgesetzt wird
Zwei Zeitpunkte, doppelter Effekt-> schwer plausible Alternativerklärungen noch stärker bei multipler Replikation
Instrumentierung unwahrscheinlich
Verzögertes Treatment
Kaum Alternativerklärungen möglich.
Externe Validität (Verallgemeinbarkeit) erhöht, da Effekt in zwei Populationen zu zwei Zeitpunkten.
Besonders hilfreich bei verzögerten Effekten mit unbekanntem delay.
Nennen Sie optimale Bedingungen für den EInsatz eines Designs mit wiederholten an- und abgesetzten Treatment
1) Treatment ist unaufdringlich und hat nur kurzfristige Effekte
2) lange Verzögerungen zwischen Treatment und erneutem Treatment
3) keine Konfundierung mit anderen Zyklen
4) Häufigeres Einführen und Absetzen (optimal: randomisierte Zuweisung zu Zeitabschnitten, Experiment mit Zeitblöcken als Einheiten)
Was versteht man unter einer streng stationären und schwach stationären Zeitreihe
streng stationär -> wenn die Verteilungskennwerte in allen möglichen Teilstichproben identisch sind -> Kennwerte sind unabhängig von der Zeit schwach stationär -> Mittelwert und Kovarianzen innerhalb der Stichproben sollten unabhängig von der Zeit sein (konstant) -> auch Stationarität zweiter Ordnung genannt
Was bedeutet Autokorrelation im Rahmen von Zeitreihen
Autokorrelation: Korrelationen mit sich selbst zwischen Messzeitpunkten mit Abstand k
Korrelationen, die durch zeitliche Versetzung der Messwerte einer Zeitreihe berechnet werden
Der Abstand k wird als lag bezeichnet. Bei einer geeigneten Messung kann saisonale Abhängigkeit identifiziert werden als ein Muster, welches alle k Elemente auftritt.
Im Beispiel: Hohe Abhängigkeit zwischen den Monaten
Was versteht man unter einer Differenzierung einer Zeitreihe und was beschreibt der Parameter d im Zusammenhang mit dem ARIMA Modell
Durch Differenzierung -> paarweise Differenzbildung kann eine Zeitreihe stationär gemacht werden (Konstanthalten von Mittelwerten, Varianz, Schiefe und Exzess)
Subtahieren des vorherigen Wertes
d ist dabei die Anzahl der notwendigen Differenzen, um die Zeitreihe stationär zu machen
Welche verschiedenen Effekte können durch eine Intervention in einer Zeitreihe auftreten
Der Trend verändert sich. (Veränderungen in der Steigung der Zeitreihe)
Das Niveau verändert sich. (Veränderungen in der mittleren Anzahl)
Die Varianz verändert sich.
Der Effekt zeigt sich unmittelbar oder verzögert (z.B. Geburtenkontrolle; Maßnahmen erst nach 9 Monaten sichtbar).
Der Effekt ist dauerhaft oder temporär.
Welche versuchsplanerische Maßnahme hilft bei der Erkennung und Bewertung eines verzögerten Effekts in einer unterbrochenen Zeitreihe?
Was ist unter einer Ordinalen interaktion zu verstehen, Was bedeutet das für die Interpretation der Haupteffekte
→ Es liegt eine Interaktion zwischen 2 Faktoren vor
→ Beide Haupteffekte sind global interpretierbar & möglicherweise signifikant
Erkläre die Parameter p, d, q im ARIMA Modell
p: AUTOKORRELATION Anzahl der autoregressiven Anteile (AR-Anteile) der Zeitreihe, In ARIMA Modellen wird die Autokorrelationsstruktur der Zeitreihe durch Autoregressionen beschrieben - Annahme, dass zukünftige Werte einer Zeitreihe von früheren Werten abhängen - Ist p zB =2, werden die letzten beiden Werte verwendet
d: STATIONARITÄT Anzahl der notwendigen Differenzierungen, um eine Zeitreihe stationär zu machen, wie oft muss ich einfache oder mehrfache Differenzbildung rechenen bis MW, Varianz, Schiefe, Exzess konstant sind
q: VORHERSAGEFEHLER Anzahl der moving-average-Komponenten der Zeitreihe, Anzahl der lags, die eine signifikante Korrelation mit vorherigen lags hatte (Ausnahme, wenn random shock)
Was sind die wichtigsten Vorteile und Nachteile von einem diskontinuierlichen Regressionsdesign
Bei erfüllten Voraussetzungen fast so gute interne Validität wie randomisiertes Experiment.
Große Flexibilität bei Auswahl der Zuweisungsvariablen.
Bedürftigkeit/Verdienst kann berücksichtigt werden und erhöht oftmals die Akzeptanz und Durchsetzbarkeit des Designs
Hoher Stichprobenbedarf (höher als bei randomisiertem Experiment) Suche nach dem optimalen cut-off-Wert oft nicht leicht (statistische vs. praktische / klinische Entscheidung)
Definiere Haupteffekte und Interaktionseffekte im Zusammenhang mit dskontinuierlichen Regressionsdesign
Was sind die Interaktionseffekte bei einem kontinuierlichem Regressionsdesign
Haupteffekte: Differenz der Konstanten der beiden Regressionsgleichungen beschreibt den Effekt des Treatments → Ist ein Haupteffekt global interpretierbar, bedeutet das, dass auf jeder Faktorstufe des jeweils anderen Faktors der Effekt des betreffenden Faktors gleichgerichtet auftritt
Interaktionseffekte: Ein Interaktionseffekt liegt vor, wenn die beiden Regressionsgerade eine unterschiedliche Steigung aufweisen
Was ist ein diskontinuierliches Regressinsdesign und welche Voraussetzungen gibt es dafür
Zuordnung der Gruppen werden aufgrund von den Werten einer Prämessung gemacht, cut-off Wert (alles darunter eine Gruppe, alles darüber eine andere, -> sehr unterschiedliche Gruppen) cut-off sollte nah am Median liegen
Voraussetzungen für die Zuweisungsvariable:
1. intervallskaliert und große Streuung
2. keine dichotome Variable ( → Regressionsgerade dann nicht schätzbar)
3. Korrelation mit AV nicht wichtig → statistische Trennschärfe steigt tatsächlich, wenn keine Korrelation vorliegt
Interpretation der Regressionsgeraden bei diskontinuierlichem RD
ohne Treatment: Eine stetige Regressionsgerade beschreibt beide Gruppen gleichzeitig
Treatmenteffekt: gleiche Steigung aber Niveauunterschied, Sprung=Diskontinuität, Beleg der EIrkung des Treatments
Zu welchen Problemen führen Instrumentation und Maturation bei diskontinuierlichen Regressionsdesigns und wie kann man diese lösen
kann zu Verletzung der Linearität führen: -> Komplexere Modellierung erfordert (z.B. polynomiale Terme)
Welche sind die wichtigsten Gefährdungen der internen Validität bei diskontinuerlichen Regressionsdesign
1. Linearität → Bei RD-Designs= Ausgehen von linearen Zusammenhängen → Frage: Sind Zusammenhänge zwischen Prädiktor und Kriterium immer linear? → Es sollte überprüft werde, ob ein nicht-lineares Modell eine bessere Vorhersage (Modellpassung) erreicht, als das RD-Design
2. Beeinflussung durch das Treatment → Sicherstellung, dass Treatment keinen Einfluss auf die Zuweisungsvariable hat → durch Prätest oder zeitlich stabile Variable (zB Geburtstag)
3. Versuchspersonen aus unterschiedlichen Populationen → Die VPN müssen aus einer gemeinsamen Population kommen → wenn cut-off anders gewählt worden wäre, hätten Teilnehmer prinzipiell Treatment bekommen/wären in EG gefallen
Was kann getan werden, um die statistische Trennschärfe bei diskontinuierlichen Regressionsdesigns zu erhöhehen
Wie kann man die Power bei einem RD Design erhöhen
1. Als cut-off-Wert den Mittelwert der Zuordnungsvariable wählen (ähnlich große Gruppen)
2. Nach Möglichkeit eine intervallskalierte Zuordnungsvariable wählen (oder wenigstens ordinalskaliert mit vielen Kategorien)
3. Je mehr Varianz in Zuordnungsvariable desto besser
4. möglichst wenig Korrelation von Zuordnungsvariable mit Treatment
5. Kombiniere mit randomisiertem Experiment im mittleren Intervall
6. Nach Möglichkeit nicht mit zu vielen Interaktions- und nichtlinearen Termen (evtl. unnötiger Verlust von Freiheitsgraden)
Charakterisiere die unterschiedlichen Formen der Randomisierung
1. Einfache Randomisierung
2. Blockrandomisierung → Verhältnis KG/EG nahe 50/50
3. Blockrandomisierung mit ungleichen Gruppengrößen → andere prozentuale Verteilung, zum Beispiel bei begrenztem Treatment
4. Adaptive Randomisierung → Im Laufe der Studie werden die Zuordnungswahrscheinlichkeiten immer wieder verändert, sodass es bei Beendigung der Studie vergleichbare Gruppengrößen gibt, Validitätsgefährdung: Gruppen sind von der Eingangsreihenfolge unterschiedlich zusammengesetzt
5. Randomisierung nach → Matching: Paare, die auf einer od. mehreren Matchingvariablen (Korrelation mit aV) ähnlich sind, randomisiert ist die Gruppenzugehörigkeit, Varianz die auf Matchingveriable zurückgeht kann aus Fehlervarianz eliminiert werden -> höhere Trennschärfe
6→ Stratifizierung: Zufallsgenerator aus geschichteter SP nach Foschungstheoretischer Dimensionen die mit aV zusammenhängen (testpower)
Wodurch wirkt Randomisierung
1. Alternative Ursachen sind mit der Gruppenzugehörigkeit nicht konfundiert
2. Zufallsverteilung der Validitätsgefährdungen auf die Gruppen
3. Gruppen sind vor Treatment auf allen Variablen gleichverteilt (im Rahmen der Zufallsschwankung)
4. Selektionsprozess ist bekannt und kann modelliert werden
5. Fehler und Treatmentbedingung sind nicht korreliert
Verschiedene Experimentelle Design mit Randomisierung
Randomisierte Zuweisung: RXO (EG); R O (KG)
Zwei Treatments, keine KG RXaO; RXbO
Zwei Tratments, eine KG: RXaO; RXbO; R O
Die drei oberen mit Prä-Post Messung (O1 X O2)
Vorteile des faktoriellen Designs
Effizienter als einzelne Experimente für jeden der involvierten Faktoren Testung von Treatmentkombinationen
Interaktionseffekte interpretierbar
Was versteht man unter Vote Counting / Box Scoring bei Meta Ananlysen
Welche Nachteile wurden in der Verantaltung bei Narrative Reviews ohne quantitative Metaanalysen gesehen
Welche Probleme entstehen häufig bei der Literaturrecherche für eine Metaanalyse
Welche Analysen stehen bei der Meta-Analyse im Vordergrund
Was versteht man unter Fishing
- Viele Variablen werden untereinander korreliert/viele Mittelwerte werden verglichen
→ Nur signifikante Ergebnisse werden berichtet
→ Alpha-Fehler-Inflationierung - "Fischen" nach Signifikanzen
Was versteht man bei faktoriellen Designs unter einer hybriden Interaktion und was bedeutet das für die Interpretation der Haupteffekte
→ Nur einer der beiden Haupteffekte ist global interpretierbar
Erkläre die LOCF Methode und bewerte dieses Verfahren
Definiere Blockrandomisierung kurz und nenne einen Vorteil davon
Definition: Randomisierung erfolgt so, dass innerhalb eines Blocks die Anzahl der VPN ausgeglichen ist → zB Randomisierung in 6er Blöcken = in jedem Block 3 VPN der EG und 3 VPN der KG
Vorteil: auch bei kleinen SP ist das Verhältnis von KG/EG nahe 1, und es gibt keinen Unterschied des Messzeitpunkts, weil Gruppen schneller voll sind als andere, gleiche Zahlen in KG und EG sind wichtig für die statistische Trennschärfe
Was ist eine intent-to-treat Analyse und in welchem Vorschungsbereich wird sie üblicherweise eingesetzt
Definition: Berechnung nach ursprünglicher Absicht, wie man behandeln wollte → VPN werden in Gruppen analysiert (KG und EG), in die sie im Vorhinein zugeordnet wurden, unabhängig davon, ob sie zB aufgrund von Patientenwunsch im Laufe der Gruppe gewechselt sind Einsatz: v.a.
Einsatz bei kontrollierten, randomisierten Studien
Durch welche versuchsplanerischen Maßnahmen kann ein Design mit nicht-äquivalentr KG und PräPost Messung verbessert werden
Nicht-äquivalente KG: Selektionsbias wird von vornherein eingeräumt
zweifache (mehrfache) Prä-Messung
verzögertes Treatment
umgekehrtes Treatment
Erhebung der Validitätsgefährdungen
Durch welche Designelemente kann man ein Design mit nicht-äquivalenter KG und Prä-Post Messung verbessern
Zuweisung:
Vermeide Selbstzuweisung -> Vielfältige Evidenz, dass dies Resultate verzerrt.
Matching und Stratifizieren -> Erhöht Ähnlichkeit der Gruppen.
Blindversuch (Versuchsleiter bzw. Versuchsleiterinnen, Hilfskräfte, Teilnehmer) -> Reaktivität von Versuchsleiter bzw. Versuchsleiterinnen und Teilnehmer. -> Rosenthaleffekte.
Messung:
Nichtäquivalente abhängige Variable -> Erschwert Erklärung durch History oder Reifung.
Multiple inhaltliche Posttests -> Muster wird vorhergesagt.
Prätest -> Selektionsbias und selektiver Dropout
Multiple Prätests -> Reifungstrends, Regressionsartefakte, Testeffekte, Instrumentierungsprobleme.
Retrospektive Prätests (Gedächtnis, Archiv)
Vergleichsgruppem:
Multiple Kontrollgruppen
Kohorten-Kontrollgruppe
Notlösungen: Extrapolation durch Regression vom Prätest auf den Posttest (da nur eine Schätzung). Normierungsgruppe als KG (da zu einem anderen Zweck erhoben). Vergleich mit Gruppen aus anderen Studien (da vermutlich nur eingeschränkt vergleichbar).
Behandlung:
Design mit verzögerter Behandlung -> Am besten mit multiplen Gruppen und Behandlung zu unterschiedlichen Zeiten.
Umgekehrte Behandlung
Entfernte Behandlung
Wiederholte Behandlung (ABAB)
Was versteht man unter Behandlungsfaktoren, Versuchsfaktoren und Blockfaktoren
Behandlungs-/Treatmentfaktoren = Unterschiedliche Reize/Instruktionen/Behandlungen/Situationen → bei Treatmentfaktoren handelt es sich um einen Faktor mit verschiedenen Stufen ⇒ Merkmale "aktive Manipulation" und "Randomisierung" sind erfüllt → jedes Experiment hat mind. 1 Treatmentfaktor
Versuchsfaktoren = zB Messwiederholungsfaktoren/Trial-Faktoren → Dieselbe Vp wird unter allen Faktorstufen zu mehreren Messzeitpunkten beobachtet -> somit kann Mittelwert und Varianz pro Person in Analyse berücksichtigt werden
Blockfaktoren = Untersuchungseinheiten (=VPN) werden nach bestimmten Kriterien zu "Blöcken" zusammengefasst, die die Stufen des Faktors bilden → Blockfaktoren ⇒ quasiexperimentelle Faktoren (Zuweisung zu Faktorstufen ist nicht zufällig, sondern durch bereits bestehende Unterschiede determiniert)
Blockfaktoren, die mit der abhängigen Variablen kovariieren, erhöhen die Power zur Entdeckung der Effekte, da sie Varianz binden und so die Fehlervarianz verringern.
Für welche Personengruppen müssen bei psychologischen Studien aus ethischer Sicht besondere Vorgaben gemacht werden
1. Schwangere
2. Gefängnisinsassen
3. Kinder
→ erhöhte gesundheitliche Gefährdung & Abhängigkeitsverhältnis liegt vor
Was verteht man unter mono-operation bias
Nur eine Operationalisierung eines Konstrukts → zB wird nur in einem Betrieb eine Schulungsmaßnahme durchgeführt und nur mit einem Betrieb (KG) verglichen → besser wären multiple Maßnahmen, verschiedene Dozenten und Betriebe (ergeben sich dann Unterschiede ist die Schulung evtl. kein einheitliches Konstrukt)
Was kann man aus versuchsplanerischen Sicht machen, wenn man aus ethischer oder sonstiger Gründe kein Treatment verweigern darf, also keine KG ohne Behandlung gebildet werden kann
1) Vorhersage per Regression
2) Vergleich mit Normwerten
3) Vergleich mit sekundären Daten aus anderen Quellen
Was kann man aus versuchsplanerischen Sicht machen, wenn zB. aus ethischer Sicht manche Personen ein Treatment nötiger haben als andere Personen
diskontinuierliches Regressionsdesign
Förderung bestimmter Gruppen (nach Bedarf oder Verdienst) Durchführung einer Rehabilitation oder einer Therapie, wobei der Bedarf beispielsweise anhand von Befindlichkeitswerten nach einem Klinikaufenthalt ermittelt wurde
Was sind feste und zufällige Faktoren bei einem varianzanalytischen Verfahren
Bei festen Effekten ist die Anzahl der in der Studie fokussierten Stufen eines Treatments gleich der Anzahl der im Versuchsplan realisierten Stufen. Inferenzaussagen beziehen sich nur auf realisierte Stufen des Treatments
Bei zufälligen Effekten gibt es viele mögliche Faktorstufen, aus denen zufällig Faktorstufen ausgewählt werden, die in einer ANOVA mit zufälligen Effekten eingehen. Die Ergebnisse sind nicht nur auf die realisierten sondern auf sämtliche mögliche Faktorstufen generalisierbar
Nenne und charakisieren Sie Formen der Verblindung
Erwartungen und Kenntisse über VP und erhoffte Ergebnisse, beeinflussen echte Randomisierung
-> Bei Eingangsdiagnostik ist Zuordnung nicht bekannt
1. Einfache Verblindung: VP hat keine Kenntnis über Gruppenzugehörigkeit
2. Doppelte Verblindung: VP + VL haben keine Kenntnis über Gruppenzugehörigkeit (zB Studie mit Medikament/Placebo)
3. Dreifache Verblindung: VP + VL + Auswertende haben keine Kenntnis über Gruppenzugehörigkeit
Welche Vorteile hat ein Ein-Gruppen-Prä-Post-Design mit unterschiedlichen anhängigen Variablen
Notation: {O1A, O1B} X {O2A, O2B} → A und B messen ähnliche, nicht identische Konstrukte → Prüfung des Effekts von X auf A → Für B wird kein Effekt von X erwartet, jedoch spricht B auf die zentralen Bedrohungen der internen Validität genauso an wie A
→ Vorteil: Dieses Design ermöglicht die Kontrolle dieser Bedrohungen durch B (dadurch, dass B als zusätzliche AV erhoben wird)
Warum ist ein Prätest auch bei randomisierten Experimenten hilfreich?
Prinzipiell nicht notwendig, weil man bei Randomisierung davon ausgeht, dass die Gruppen gleich sind, hat aber Voteile
höhere statistische Power, da teststärkeres Verfahren,
experimentelle mortalität analysierbar, wie unterscheiden sich Personen von denen die aussteigen
Gruppenunterschiede vor dem Treatment können analysiert werden
Wieso sind Effekte von nicht-manipulierbaren Ursachen schwerer zu belegen als von manipulierbaren Ursachen
sie sind nicht experimentell überprüfbar, kein kontrafaktischer Vergleich von hoher Qualität
Möglichkeit der Berücksichtigung von Prä-Test Effekten
Solomon-Vier Gruppen Plan
Prätest und Treatment kreuzen sich -> wie ist das Muster der Kombinationen
Differenz Prä-Postwerte G1 und G2: Reiner Treatment-Effekt (Netto-Effekt) müsste mit Differenz der Postwerte G3 - G4 übereinstimmen
Vergleich der Post-Werte von Gruppe 2 und 4 schätzt den Effekt der Prä-Messung ab.
Nachteil erhöhter Bedarf an ProbandInnen
Zuletzt geändertvor 6 Monaten