Ziele der inferentiellen Statistik (Beurteilende Statistik)
Schätzung und Eingrenzung, in welchem Bereich ein Wert zu vermuten ist (Erwartungswert u)
-> Punkt bzw. Intervallschätzung
Entscheidung, ob Phänomene zufällig oder systematisch (signifikant) sind
-> statistische Hypothesentests
Fehler 1. und 2. Art
Fehler 1. Art
fälschlicherweise die Alternativhypothese abgelehnt
Bsp: H0 = Medikament wirkt, H1 = wirkt nicht
-> Konsumentenrisiko: Test sagt das Medikament wirkt, tut es aber gar nicht
Fehler 2. Art
fälschlicherweise die Nullhypothese abgelehnt
Bsp: -> Produzentenrisiko: es wird gesagt dass das Medikament gar nicht wirkt, obwohl es das eigentlich tut
Signifikanzniveau
meist 5%
= 5% der Werte sind Ausreißer, die die Alternativhypothese annehmen lassen, obwohl die Nullhypothese eigentlich stimmt
also der Anteil falsch-positiver bei tatsächlich stimmender Nullhypothese
Einseitige vs zweiseitige Hypothesentests
Einseitige: H0 = < 30%, H1 = > 30 %
Zweiseitige: H0 = 30%, H1 = nicht 30 %
-> zweiseitige Tests detektieren Effekte in beide Richtungen
-> allerdings müssen die Effekte größer sein, um als signifikant zu gelten
Konfidenzintervall
= 95% der Werte liegen in diesem Bereich
Konfidenzintervall wird breiter
-> wenn die Streuung zunimmt
-> wenn der Stichprobenumfang abnimmt
= Unsicherheit über den wahren Wert nimmt ZU
Konfidenzintervall wird schmaler
-> wenn die Streuung abnimmt
-> wenn der Stichprobenumfang zunimmt
= Unsicherheit über den wahren Wert nimmt AB
Konfidenzniveau nimmt ab (zb von 95 auf 90%)
-> das Konfidenzintervall wird schmaler
Konfidenzniveau nimmt zu (zb von 95 auf 99%)
-> das Konfidenzintervall wird breiter
p-Wert
= die Wahrscheinlichkeit, dass ein Wert außerhalb des Konfidenzintervalles liegt, die Nullhypothese aber trotzdem stimmt
-> bzw. die Wahrscheinlichkeit, dass ein Wert mindestens so extrem oder noch extremer ist
-> also die Wahrscheinlichkeit, dass der beobachtete Unterschied Zufall ist
Je kleiner der p-Wert
-> desto WENIGER plausibel ist die Nullhypothese
-> es total unwahrscheinlich Zufall! es ist sehr wahrscheinlich so dass der unterschied daran liegt, dass die alternativhypothese richtig ist!
Je größer der p-Wert
-> desto PLAUSIBLER ist die Alternativhypothese
ist der p-Wert kleiner als das Signifikanzniveau a -> so wird die Nullhypothese abgelehnt und die Alternativhypothese angenommen
Standardfehler
Standardabweichung
Standardfehler (SEM, Standard error of the mean)
= Standardabweichung des Mittelwerts x
gibt die Genauigkeit des Mittelwerts x als Schätzwert für den Erwartungswert u an
gibt an, wie stark die Werte streuen
Verbundene und unverbundene Stichproben
Verbundene Stichproben
wurden beide an der selben Person durchgeführt
Beispiele
1 = vor der Behandlung, 2 = nach der Behandlung
oder Person muss einen Test einmal unter Bedingung 1 und dann nochmal unter Bedingung 2 durchführen
Unverbundene Stichproben
wurden an unterschiedlichen Personen gemessen
Beispiel
Messung von Laborparametern an Gruppe 1 = Frauen vs Gruppe 2 = Männer
t-Test
wird eingesetzt beim Vergleich von Mittelwerten zwischen 2 Gruppen
normalverteilt
T-test für verbundene Stichproben
es liegen Paare von Messungen vor, von denen man jeweils die Differenzen bildet
-> nur diese Differenzen werden benutzt (zB wie ist die Blutdruckdifferenz vor bzw. nach der Medikamenteneinnahme)
Vorteil: jeder Patient ist seine eigene “Kontrolle”
= die interindividuelle Streuung ist eliminiert
T-Test für unverbundene Stichproben
misst, ob es signifikante Unterschiede zwischen den 2 unverbundenen Gruppen gibt
P-Wert
ist der p wert kleiner als das Signifikanzniveau (idR 5%)
Dann wird die alternativ Hypothese angenommen
Denn die Wahrscheinlichkeit dass der Wert ein ZUFÄLLIGER Ausreißer ist beträgt weniger als 5%
Es ist also ein signifikanter Unterschied festzustellen und kein Zufall
Ist der p Wert größer als 5%, wird die Nullhypothese beibehalten, denn offensichtlich besteht kein signifikanter Unterschied, sondern es ist wahrscheinlicher, dass Werte im Ablehnungsbereich reiner Zufall sind
Wilcoxon-Rangsummen-Test / Mann-Whitney-Test
Wilcoxon-Vorzeichentest
kann im Gegensatz zum t-test immer eingesetzt werden
kann ein- oder zweiseitig durchgeführt werden
ist bei Normalverteilung sensitiver
liefert geringeren p-Wert
geringerer Fehler II. Art
im Gegensatz zum t-test wird keine Annahme über die Verteilung der Daten gemacht
Wilcoxon-Rangsummentest für unverbundene Stichproben
Wilcoxon-Vorzeichentest für verbundene Stichproben
testet auf Gleichheit der Verteilung
Testübersicht
Gruppenvergleich eines stetigen Merkmals:
Exakter-Fisher-Test
-> zum Vergleich zweier binärer Merkmale (haben nur zwei Ausprägungen)
Bsp: Medikament vs Placebo -> wirkt vs wirkt nicht
-> gibt es Unterschiede in der Wirksamkeit zwischen Medikament und Placebo?
Korrelation und Regression
Korrelation
beschreibt den Zusammenhang zwischen zwei Variablen
als quantitatives Maß (zB 0,1)
zB Pearson-Korrelationskoeffizient & Spearman-Korrelationskoeffizient
Regression
nutzt diesen Zusammenhang, um Werte der einen Variable auf Basis der Werte einer anderen Variable vorherzusagen
als funktionaler Ansatz (Funktion wird gebildet)
lineare Regression: Regressionsgerade geht durch den Schwerpunkt
bei Einfluss mehrerer Einflussgrößen auf eine Zielvariable:
multiple lineare Regression
= bei stetiger Zielvariable (ganz viele Punkte)
multiple logistische Regression
= bei binärer Zielvariable (Funktion bildet eine Linie)
Bestimmtheitsmaß
= Kennzahl der Regressionsanalyse
sagt, wie gut die andere Variable vorher gesagt werden kann
dient der Interpretation des Korrelationskoeffizienten (?)
Chiquadrat-Test
für 2 oder mehr unabhängige Stichproben, die nicht normalverteilt sind
Voraussetzungen
Gesamt-Fallzahl nicht zu klein (ca > 60)
Erwartungswerte (erwartete Häufigkeiten) nicht zu klein (alle > 5)
bei zwei binären Merkmalen sollte einer Vierfelder-Tafel und der Fisher-Test verwendet werden
McNemar Test
Vergleich von verbundenen, binären Merkmalen
wenn Diskordanz vorliegt, misst der p-Wert eines McNemar-Tests, ob in den Abweichungen eine Tendenz (Bias) vorliegt
Vergleich zweier kategorialer Variablen
Problematik beim multiplen Testen
Korrektur nach Bonferoni
bei jedem Test tritt eine falsche Signifikanz mit 5% Wahrscheinlichkeit auf
-> zB bei 6 Tests wäre die Whk für eine falsche Signifikanz dann 30%
Lösung: Korrektur nach Bonferroni
-> alpha wird durch die Anzahl der Tests geteilt
zB 5%/6 = 0,83% Signifikanzniveau
Was ist die Power eines statistischen Tests?
-> der Fehler II. Art
Last changed2 years ago