Sie erwarten, dass ihre Intervention die Leistung erhöht. Sie haben ein RCT durchgeführt mit einer Experimentalgruppe und einer Kontrollgruppe (n1 = n2 = 20). In einem t-Test für unabhängige Stichproben resultiert ein signifikantes Ergebnis zugunsten der Experimentalgruppe (höhere Leistung) mit t(38) = 2.705 und p = 0.01. Bitte kreuzen sie für jede der nachfolgenden Aussagen an, ob sie wahr oder falsch ist. Falsch bedeutet, dass die Aussage keine logische Schlussfolgerung des Ergebnisses darstellt. Bitte beachten sie, dass auch mehrere oder keine Aussage korrekt sein kann.
WARUM?
ALLE FALSCH: Verschiedene Arten der Inferenzstatistik werden verwechselt
WARUM?:
Merke!
:( P ist kein Indikator für die Größe eines Effektes.
:( P ist keine Hypothesenwahrscheinlichkeit.
:( P ist keine Irrtumswahrscheinlichkeit.
:( P ist kein Indikator für die Replizierbarkeit.
:) P ist die (bedingte) Wahrscheinlichkeit der Daten (inklusive noch extremerer Ereignisse) unter der Bedingung, dass die Nullhypothese wahr ist [p(D I H0)].
Was stellt die Abbildung dar?
stellt dar, wie viele Falsch-Annahmen es über verschiedene Gruppen hinweg gibt zu dem Signifikanzniveau “p=0.01”
Die Prozentangaben beziehen sich auf die Teilnehmer in jeder Gruppe, die eine oder mehrere der sechs falschen Aussagen bestätigten.
Was ist zum p (Signifikanzniveau) zu merken? Was ist p, was nicht?
P ist kein Indikator für die Größe eines Effektes.
P ist keine Hypothesenwahrscheinlichkeit.
P ist keine Irrtumswahrscheinlichkeit.
P ist kein Indikator für die Replizierbarkeit.
☺ P ist die (bedingte) Wahrscheinlichkeit der Daten (inklusive noch extremerer Ereignisse) unter der Bedingung, dass die Nullhypothese wahr ist [p(D->H0)].
Wleche Wichtigen inferenzstatistischen Ansätze gibt es?
Frequentistischer Ansatz (Fisher, Neyman & Pearson)
Bayesianischer Ansatz (Bayes)
Resampling-Ansätze (Bootstraping, Rerandomisierung)
Erkläre den frequentistischen Ansatz.
Klassische inferenzstatistische Tests basieren auf dem frequentistischen Wahrscheinlichkeitskonzept.
Der frequentistische Wahrscheinlichkeitsbegriff interpretiert die Wahrscheinlichkeit eines Ereignisses als die relative Häufigkeit, mit der es in einer großen Anzahl gleicher, wiederholter, voneinander unabhängiger Zufallsexperimente auftritt.
Wichtige „Frequentisten“ waren u.a. Egon Pearson, Jerzy Neyman und Ronald. A. Fisher
Forschungsfrage: Unterscheiden sich Lebenspartner hinsichtlich ihrer schulischen Bildung?
Wie wird vorgegangen nach dem frequentistiscen Ansatz nach Fisher?
Ziehen einer Zufallsstichprobe (N = 11) Paare
Wir könnten ein Paar mit „+“ kennzeichnen, wenn der Partner den höheren Schulabschluss hat, und mit „-“, wenn die Partnerin den höheren Abschluss hat. Gleichheit bei den Bildungsabschlüssen werden mit einem „=“ gekennzeichnet.
Ergebnis: bei 7 von 11 Paaren hat der Partner den höheren Abschluss. Ein Paar hat gleiche Abschlüsse.
Anwendung des Vorzeichenrangtestes (= wird nicht berücksichtigt, dadurch N = 10)
Annahme: Würden sich die Lebenspartner hinsichtlich ihrer Bildungsabschlüsse nicht unterscheiden, wären gleich viele positive und negative Vorzeichen zu erwarten (Nullhypothese). Der zu erwartende Anteil „+“ in der Population wäre also 50% (Mü = 0,5).
Konstruktion der theoretischen Stichprobenverteilung (Binomialverteilung mit Mü = 0,5, N = 10)
Wie wahrscheinlich ist das Stichprobenergebnis eines Anteiles (p) = 7/10 unter der Annahme, dass in der Population Mü = 0,5 gilt?
Beschreibe das Allgemeine Vorgehen bei einem Signifikanztest nach Fisher.
Ziehen einer Zufallsstichprobe des Umfanges N
Berechnen einer Stichprobenstatistik (z.B. Mittelwertdifferenz)
Vorgabe eines zu erwartenden Populationsparameters (Nullhypothese; H0)
Konstruktion der zu H0 gehörenden theoretischen Stichprobenverteilung
Bestimmen der bedingten Wahrscheinlichkeit p(DatenIH0)
Wenn der p-Wert sehr klein ist (z.B. unter 5%), ist es sehr unwahrscheinlich solche oder noch extremere Ergebnisse zu erhalten, wenn man davon ausgeht, dass die Nullhypothese wahr ist.
Man spricht in diesem Fall von einem signifikanten Ergebnis, was soviel wie „statistisch bedeutsam“ bedeutet.
Beschreibe die Verbesserungsvorschläge von J. Neyman & E. Pearson für Fishers Vorgehen beim Signifikanztest. Was hat er zusätzlich eingeführt?
a) Der Nullhypothese (H0) wird eine Alternativhypothese (H1) gegenüber gestellt. Damit kann zwischen zwei Entscheidungsfehlern unterschieden werden (alpha-Fehler und β-Fehler)
b) Einführung der Teststärke (power = 1 - beta) als Wahrscheinlichkeit, dass ein Test den in der Alternativhypothese festgelegten Effekt auch tatsächlich aufdecken kann. Darauf aufbauend resultiert ein optimaler Stichprobenumfang.
c) Lösung des Problems der Interpretation eines Signifikanztestergebnisses durch eine Verhaltensinterpretation: „Wenn der Test signifikant ist, verhalte dich so, als wenn die H1 wahr wäre, und wenn er nicht signifikant ist, verhalte dich so, als wenn die H0 wahr wäre“
Frequentistischer Ansatz nach Neyman & Pearson: Stelle das Schemata auf: “Entscheidung aufgrund der SP zu gunsten der H0/H1 vs. In der Population gilt die H0/H1”
Wie ist das Allgemeine Vorgehen bei einem Signifikanztest nach Neyman & Pearson?
Formuliere eine Nullhypothese (H0, und konstruiere die entsprechende Stichprobenverteilung, falls Stichprobengröße vorgegeben)
Formuliere eine Alternativhypothese (H1, und konstruiere die entsprechende Stichprobenverteilung, falls Stichprobengröße vorgegeben)
Entscheide dich für die Größe von alpha oder beta, wäge die relative Wichtigkeit von alpha und beta ab und konstruiere aufgrund der daraus ermittelten Stichprobengröße die entsprechenden Stichprobenverteilungen (Poweranalyse).
Prüfe, ob der p-Wert, die Wahrscheinlichkeit des Stichprobenergebnisses unter der Annahme, dass die Nullhypothese zutrifft, größer oder kleiner/gleich alpha ist.
Wenn der p-Wert nicht größer als alpha ist, dann ist das Ergebnis des Testes signifikant, ansonsten ist es nicht signifikant.
Wenn das Ergebnis signifikant ist, verhalte dich so, als wenn die Alternativhypothese wahr wäre, wenn es nicht signifikant ist, als wenn die Nullhypothese zuträfe.
Was illustrieren die Abbildungen?
Die Abbildungen illustrieren die Auswirkung der Populations-Effektgröße auf die Teststärke (Power).
Die Zahlen auf den Säulen sind die Wahrscheinlichkeiten (in Prozent) für die einzelnen Ergebnisse unter der Gültigkeit der H0 (jeweils helle Verteilung) und H1 (jeweils dunkle Verteilung.)
Die Teststärke ist jeweils repräsentiert durch die Fläche der grünen unschraffierten Balken.
Was wird hier abgebildet?
Theoretische Stichprobenkennwerteverteilung für H0 und H1 mit einer optimalen Stichprobengröße N = 213
Was hat Einfluss auf die Teststärke? Wann ist sie gering? (6)
Je kleiner der Effekt in der Population, desto geringer die Teststärke
Je kleiner die Stichprobe, desto geringer die Teststärke
Je heterogener die Population(en), desto geringer die Teststärke
Die Abwägung der Fehler erster und zweiter Art beeinflusst die Teststärke; alpha-Fehler und beta-Fehler sind gegenläufig, d.h. je kleiner der alpha- Fehler gewählt wird, desto geringer ist die Teststärke (1- beta)
Ein einseitiger Test hat eine höhere Teststärke als ein zweiseitiger Test.
Je größer der experimentelle Fehler (Fehlervarianz aufgrund von Störvariablen und unzuverlässigen Messinstrumenten), desto geringer ist die Teststärke
Was wird illustriert?
Was ermöglicht uns die Bayesianische Inferenzstatistik?
In der klassischen Inferenzstatistik sagt ein signifikantes Ergebnis nichts darüber aus, mit welcher Wahrscheinlichkeit die geprüfte Hypothese korrekt ist!
Forscher möchten aber gerne wissen, mit welcher Wahrscheinlichkeit die geprüfte Hypothese in Anbetracht des Studienergebnisses korrekt ist (vgl. Folie 8, Gigerenzer, 2004).
Genau dies ermöglicht die Bayes-Statistik auf der Basis eines subjektiven Wahrscheinlichkeitskonzeptes.
Eine subjektive Wahrscheinlichkeit ist definiert als der Grad der Überzeugung in eine Hypothese.
Das grundlegende Ziel der Bayes-Statistik besteht darin, zu prüfen, wie sich die Wahrscheinlichkeit für ein Ereignis verändert, wenn eine neue Information zu diesem Ereignis vorliegt (Wahrscheinlichkeitsrevision).
Beantworte: Das Mammografieproblem
Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Frau in den 40ern, die einen positiven Befund bei einer Mammographie hat, tatsächlich an Brustkrebs leidet?
Zur Beantwortung der Frage stehen folgende Informationen zur Verfügung:
1. Die Wahrscheinlichkeit, dass eine Frau, die sich einer Mammographie unterzieht, Brustkrebs hat, beträgt 1%
2. Wenn eine Frau, die Brustkrebs hat, sich einer Mammographie unterzieht, liegt die Wahrscheinlichkeit für ein positives Ergebnis bei 80%.
3. Wenn eine Frau, die keinen Brustkrebs hat, sich einer Mammographie unterzieht, liegt die Wahrscheinlichkeit für ein positives Ergebnis bei 10%.
Stelle die Hypothesen für das “Mammografieproblem” auf (Bayesianische Inferenzstatistik).
Das Mammografieproblem: Was wird hier dargestellt?
Darstellung des Mammografieproblems: Die 1000 Kästchen repräsentieren eine Zufallsstichprobe von 1000 Frauen in den 40ern. Bei 10 der Frauen (1%) kann erwartet werden, dass sie an Brustkrebs leiden (dunkle Kästchen), bei den anderen 990 (99%), dass das nicht der Fall ist (helle Kästchen). Von den 10 kranken Frauen, wird bei 8 (80%) durch die Mammografie der Brustkrebs entdeckt. Aber auch bei 99 der 990 gesunden Frauen (10%) ergibt der Test ein positives Ergebnis. Alle Frauen mit positivem Ergebnis sind durch Kästchen mit einem Kreuz gekennzeichnet (erstellt mit dem Programm aus Sedlmeier & Köhlers, 2001).
Die Wahrscheinlichkeit der Hypothese Brustkrebs ist aufgrund der neuen Evidenz von 1% auf 7,5% gestiegen; Wie wird dieser Wert bezeichnet? Wie sieht die Formel dazu aus?
Die Wahrscheinlichkeit der Hypothese Brustkrebs ist aufgrund der neuen Evidenz von 1% auf 7,5% gestiegen. Dieser Wert wird auch als positiv prädiktiver Wert bezeichnet.
Was ist das Bayes-Theorem? BEschreibe kurz.
Das Bayes-Theorem ist eine mathematische Regel der Wahrscheinlichkeitstheorie, die besagt, wie man die bedingte Wahrscheinlichkeit einer Hypothese anhand von Beobachtungen aktualisiert. Es ist benannt nach dem englischen Mathematiker Thomas Bayes und ist eine grundlegende Methode zur statistischen Inferenz und zum Umgang mit Unsicherheit.
Mathematisch ausgedrückt lautet das Bayes-Theorem:
P(H|E) = (P(E|H) * P(H)) / P(E)
Das Bayes-Theorem erlaubt es uns, eine Hypothese H zu bewerten, indem wir vorhandenes Wissen über P(H) mit neuen Beobachtungen E in Form von P(E|H) und P(E) kombinieren. Es ermöglicht eine aktualisierte Schätzung der Wahrscheinlichkeit der Hypothese H, nachdem wir die Beobachtung E gemacht haben.
Beschreibe die Grundidee des bayesianischen Hypothesentestens.
Wie gehen wir mit unserer Forshcungsfrage “Unterscheiden sich Lebenspartner hinsichtlich ihrer schulischen Bildung?” um, wenn wir die Bayesianische Inferenzstatistik anwenden?
nächste Folie:Bestimmung der Likelihoods
übernächste Folie: Bestimmung der Posteriors
Was bringt die Likelihoodfunktion zum Ausdruck?
Die Likelihoodfunktion bringt zum Ausdruck, wie gut verschiedene Annahmen über den Populationsparameter zu den Daten (x = 7) „passen“.
Was ist die “Posteriorverteilung”?
Die Posteriorverteilung ist die revidierte Priorverteilung unter Berücksichtigung der Liklihoodverteilung (→ Bayes-Theorem)
Stetige Priorverteilungen und konjugierte Priors
Zur Überprüfung der Wirksamkeit einer Ernährungsumstellung wird an einer Stichprobe von N = 30 Studienteilnehmer*innen eine Pretestmessung und eine Posttestmessung des Körpergewichts durchgeführt.
Als Priorverteilung wird eine Normalverteilung mit MPrior = - 3Kg und SD = 2Kg.
Die Studie führt zu dem Ergebnis: MDaten = -1,5Kg und SD = 10Kg (Standardfehler (SE) = 1,83Kg)
Was sollte danach bestimmt werden?
Bestimmung der Likelihoodfunktion
Bestimmung der Posteriorverteilung
Was illustriert die Abbildung?
Priorverteilung und Posteriorverteilung werden als konjugiert bezeichnet, wenn sie den gleichen Verteilungstyp haben. Ferner ist ein 95%-Glaubwürdigkeitsintervall unter der Posteriorverteilung eingezeichnet. Die Wahrscheinlichkeit dass der unbekannte Parameter in dem Glaubwürdigkeitsintervall liegt, beträgt 95% (Klassisches Konfidenzintervall: in 95% aller Fälle überdeckt das Intervall den unbekannten Populationsparameter)
Was ist abgebildet?
Priorverteilung eines Skeptikers mit M = 0 und SD = 1 (im Unterschied zu M = -1,5 und SD = 10).
Die Priorverteilung hat einen großen Einfluss auf die Posteriorverteilung!
Ursprüngliche Studie mit N = 30. Neue Studie mit N = 300 Bei gleichem Studienergenis (M = -1,5 und SD = 10) reduziert sich der Der Standardfehler des Mittelwertes von 1,83 auf 0,58
Die größere Stichprobe liefert eine präzisere Schätzung des Populationsparameters
Was ist der “Bayes-Faktor”? Erkläre!
Der Bayes-Faktor:
Der Bayes-Faktor (BF) ist definiert als Odds der Likelihoods zweier Hypothesen H1 und H0. Die Likelihoods bringen zum Ausdruck, wie gut eine Hypothese zu dem Ergebnis der Studie passt. Der Bayes-Faktor ist das Äquivalent zum klassischen Signifikanztest. BF>1 stützt die H1, ein BF<1 stützt die H0. BF=1 bedeutet, dass beide Hypothesen gleichermaßen mit den Daten vereinbar sind.
Ich weiß nicht, was ich hier Fragen soll… Folie 38.
Gebe eine Auswahl eines Überblicks über die Vorteile der Bayes'schen Inferenz gegenüber der klassischen Inferenz.
1. Vorwissen einbeziehen
2. Zur Quantifizierung der Wahrscheinlichkeit, dass 0 in einem bestimmten Intervall liegt
3. Bedingung für das, was bekannt ist (d. h. die Daten)
4. kohärent sein (d. h. nicht in sich widersprüchlich)
5. Natürliche Ausweitung auf komplizierte Modelle Desiderata für Hypothesentests
1. Quantifizierung der Beweise, die die Daten für H0 vs. H1 liefern.
2. Quantifizierung der Evidenz zugunsten von H0
3. Ermöglicht die Überwachung der Beweise, wenn sich die Daten häufen
4. Keine Abhängigkeit von unbekannten oder fehlenden Stichprobenplänen
5. Nicht "gewaltsam voreingenommen" gegen H0 sein
Was soll diese Karrikatur beschreiben?
Eine boxerische Analogie des p-Wertes . Der Schiedsrichter verwendet den Signifikanztest der Nullhypothese und berücksichtigt daher nur den beklagenswerten Zustand des Boxers H0 (d. h. die Nullhypothese). Seine Entscheidung, H0 zu verwerfen, verwirrt die Öffentlichkeit.
Was bedeutet die “JASP Philosophie”? Was ist das langfristige Ziel von JASP?
Zusammenfassung von Folie 41:
Die JASP-Philosophie basiert auf Transparenz und Hypothesentests.
JASP konzentriert sich auf häufig verwendete statistische Methoden und verwendet Add-ons für spezialisierte Verfahren.
Es hat eine benutzerfreundliche grafische Benutzeroberfläche und unterstützt Open Science.
Die Benutzeroberfläche ist ähnlich wie bei SPSS und verwendet R für Inferenzanalysen.
Langfristiges Ziel: Benutzerfreundlichkeit verbessern und Abhängigkeit von teurer Software wie SPSS reduzieren.
Zuletzt geändertvor einem Jahr