III 9.Induktiv: Statistische Tests

by Julia S.

Ein Forscher hofft, daß ein von ihm entwickeltes Medikament zur Blutdrucksenkung besser wirkt als ein herkömmliches Standardmedikament und will dies durch einen Test absichern. Wie soll er seine Vermutung formulieren?

A. als Nullhypothese

B. als Alternativhypothese

C. dies ist gleichgültig

D. dies hängt von den Folgen einer Fehlentscheidung ab

E. dies hängt von ethisch-moralischen Überlegungen ab

Lösung: B (Alternativhypothese)

Die Nullhypothese besagt immer, daß 2 Parameter (z. B. Erwartungswerte) gleich sind. Die Alternativhypothese (also unterschiedliche Erwartungswerte) wird erst dann angenommen, wenn die Prüfgröße schwer mit der Nullhypothese zu vereinbaren ist.

Welche Aussage ist falsch?

A. Bei jedem Test schließen sich Annahme- und kritischer Bereich aus.

B. Die Größe des α-Fehlers beeinflußt die Größe des ß-Fehlers.

C. Ob 1- oder 2-seitig getestet wird, muß vor der Testdurchführung aufgrund

sachlogischer Überlegungen entschieden werden.

D. Die Meßwerte der Beobachtungseinheiten innerhalb einer Stichprobe müssen

unabhängig voneinander sein.

E. Der Stichprobenumfang hat keinerlei Einfluß auf das Testergebnis.

Lösung: E (Aussage ist falsch)

Der Stichprobenumfang hat sehr wohl Einfluß auf das Ergebnis: ein kleiner Umfang führt eher zur Beibehaltung der Nullhypothese, während ein extrem großer Umfang zur Annahme der Alternativhypothese tendiert.

Hinweise:

A: Annahme- und kritischer Bereich schließen sich aus
B: je größer der α-Fehler, desto kleiner der ß-Fehler und umgekehrt
C: Die Frage, ob 1- oder 2-seitig getestet wird weniger mit Statistik zu tun
D: die Beobachtungseinheiten müssen unabhängig sein, da sonst Ergebnisse verzerrt würden.

Welche Aussage ist richtig?

A. Liegt nach der Durchführung eines Tests die Testgröße nicht im Annahmebereich, wird die Nullhypothese abgelehnt.

B. Die Größe des Fehlers 1. Art ist zufällig.

C. Wenn die Nullhypothese nicht abgelehnt wird, wird stets ein Fehler 2. Art gemacht.

D. Der Ablehnungsbereich ist immer ein zusammenhängendes Intervall.

E. Wenn die Alternativhypothese richtig ist, beträgt die Wahrscheinlichkeit, aufgrund des Testergebnisses falsch zu entscheiden, höchstens α.

Lösung: A

Wenn die Prüfgröße nicht im Annahmebereich liegt, muß sie im kritischen Bereich liegen – dann nimmt man die Alternativhypothese an und lehnt die Nullhypothese ab.

Hinweise:

B: die Größe des 1. Fehlers (α-Fehler) wird vor der Testdurchführung (üblicherweise mit α=5%) festgelegt, ist also nicht zufällig.
C: Wenn die Nullhypothese beibehalten wird, kann dies auch dadurch begründet sein, daß deren Aussage tatsächlich richtig ist – dann macht man keinen Fehler.
D: Der Ablehnungsbereich ist nicht immer zusammenhängend (z. B. bei 2-seitigem t-Test)
E: Wenn die Alternativhypothese in Wirklichkeit richtig ist, kann man keinen α-Fehler machen (höchstens einen ß-Fehler).

Beim Test einer Nullhypothese H0 gegen eine Alternativhypothese H1 bedeutet eine Wahrscheinlichkeit α = 0,05 für den Fehler 1. Art: die Wahrscheinlichkeit ist höchstens 0,05 dafür, daß man

A. H1 annimmt, wenn H1 richtig ist

B. H0 beibehält, wenn H0richtig ist

C. H0 nicht ablehnt, wenn H1 richtig ist

D. H0 ablehnt, obwohl H0 richtig ist

E. H1 fälschlicherweise ablehnt

Lösung: D

…da alle anderen falsch sind

A/B: diese Entscheidungen wären richtig; es sind keine Fehler.

C: = ß-Fehler

E: diese Formulierung ist schlecht. Die Alternativhypothese kann man annehmen, aber nicht ablehnen (der Test geht ja von der Nullhypothese aus).

Welcher Test setzt qualitative Merkmale voraus?

A. der t-Test für 2 verbundene Stichproben

B. der Wilcoxon-Rangsummentest

C. der F-Test

D. der Chi2-Homogenitätstest

E. keiner dieser Tests

Lösung: D (Chi2-Homogenitätstest)

Für qualitative Merkmale eignen sich generell Chi2-Tests.

Hinweise:

t-Tests und Rangsummentests setzen stetige (also quantitative) Daten voraus
ebenso der F-Test, der die Gleichheit 2er Varianzen untersucht

Welche Aussage bzgl. des ß-Fehlers ist richtig?

A. Der ß-Fehler wird vor der Testdurchführung festgelegt und beträgt üblicherweise 5%.

B. Der ß-Fehler ist immer größer als der α-Fehler.

C. Der ß-Fehler kann durch den Stichprobenumfang beeinflußt werden.

D. Je größer die Power (Güte) eines Tests ist, um so größer ist auch der ß-Fehler.

E. Der α-Fehler und der ß-Fehler sind unabhängig voneinander.

Lösung: C (abhängig vom Stichprobenumfang)

Durch einen großen Stichprobenumfang, der üblicherweise vor der Testdurchführung festgelegt wird, läßt sich ß jedoch klein halten.

Hinweise

A/B: Der ß-Fehler kann nicht festgelegt werden; seine Größe ist von vielen Faktoren abhängig
D: Die Güte eines Tests =als 1–ß (das ist die Wahrscheinlichkeit, bei Gültigkeit der Alternativhypothese ein signifikantes Testergebnis zu erhalten)
E: je kleiner α, um so größer wird ß (und umgekehrt).

Gegeben seien 2 Grundgesamtheiten mit den Erwartungswerten μ1 und μ2 und derselben Varianz σ^2 . Daraus werden 2 Stichproben gezogen und deren Mittelwerte mit dem t-Test für unverbundene Stichproben überprüft. Dabei wird die Wahrscheinlichkeit für den ß-Fehler größer, wenn alle Größen gleichbleiben, aber

A. der Stichprobenumfang größer wird

B. die Irrtumswahrscheinlichkeit α größer wird

C. der Betrag der Differenz μ1-μ2 größer wird

D. die Varianz σ2 größer wird

E. die Varianz σ2 kleiner wird

Lösung: D (größere Varianz)

Vergrößerung der Varibilität der Meßwerte —> Unterschied schwerer nachweisbar —> Vergrößerung des ß-Fehlers

Hinweise

Durch A–C wird der ß-Fehler verkleinert
E: Es ist logisch, daß sich bei kleinerer Varianz ein Unterschied einfacher nachweisen läßt, was ebenfalls zu einer Verkleinerung des ß-Fehlers führt.

Ein Forscher hat ein schmerzstillendes Präparat entwickelt und überprüft dessen Wirkung über einen statistischen Test, wobei er das neue Präparat mit einem Placebo vergleicht. Er erhält ein nicht-signifikantes Testergebnis (mit α=0,05). Wie ist dies zu interpretieren?

A. Damit ist bewiesen, daß sich das neue Präparat von einem Placebo grundlegend

unterscheidet.

B. Damit ist bewiesen, daß das neu entwickelte Medikament wirkungslos ist.

C. Mit 95%-iger Wahrscheinlichkeit gibt es keinen Unterschied zwischen neuem

Präparat und Placebo.

D. Das Testergebnis besagt, daß weitergehende Forschungen auf diesem Gebiet

sinnlos sind.

E. Aufgrund des Ergebnisses läßt sich ein Unterschied zwischen dem neuem Präparat und Placebo nicht nachweisen. Ein ß-Fehler ist dabei jedoch nicht ausgeschlossen. Über dessen mögliche Ursachen muß nachgedacht werden.

Lösung: E (vorsichtige Interpretation)

=vorsichtige Schlußfolgerung

Hinweise:

A/B: Mit einem Testergebnis läßt sich nichts beweisen

C: ein eventueller Unterschied bzgl. der Wirkung ist nicht vom Zufall abhängig und kann deshalb nicht mit einer Wahrscheinlichkeit quantifiziert werden.

D: zu voreilig

Welche Tests setzen normalverteilte Daten voraus?

A. t-Tests

B. Wilcoxon-Rangsummentests

C. Chi2-Tests

D. alle diese Tests

E. keiner dieser Tests

Lösung: A (t-Tests)

t-Tests setzen generell normalverteilte Daten voraus (bei praktischen Anwendungen abgeschwächt )

Hinweise:

B: Rangsummentests werden bei quantitativen Merkmalen verwendet, wenn diese Voraussetzungen nicht erfüllt sind.

C: Chi2-Tests setzten qualitative Merkmale voraus.

Gegeben seien 2 unverbundene Stichproben mit sehr günstigen Voraussetzungen: die Daten entstammen aus 2 normalverteilten Grundgesamtheiten mit gleich großen Varianzen. Es soll überprüft werden, ob man Gleichheit der Erwartungswerte annehmen kann. Welchen Test sollte man bevorzugen?

A. den t-Test für 2 unverbundene Stichproben

B. den Welch-Test

C. den U-Test nach Mann, Whitney und Wilcoxon

D. Man wendet alle 3 Tests an und entscheidet sich dann für einen, der ein signifikantes Ergebnis liefert.

E. Es ist vollkommen gleichgültig, welchen Test man anwendet, weil die Voraussetzungen für jeden Test erfüllt sind

Lösung: A (t-Test für 2 unverbundene Stichproben)

Man sollte generell alle Informationen so weit wie möglich ausnutzen, normalverteilt und Varianzen gleich = t-Test benutzen!

Hinweise:

B: Welch-Test: keine gleich großen Varianzen nötig —> möglich, aber schwieriger einen Unterschied nachzuweisen

C: U-Test: keine Normalverteilung nötig —> möglich, aber schwieriger einen Unterschied nachzuweisen

D: immer vor der Testdurchführung entscheiden —> Manipulation vermeiden

Man vergleicht das mittlere Körpergewicht einer Patientengruppe, die ein Jahr lang eine bestimmte Diät zu sich genommen hat, mit dem mittleren Körpergewicht einer vergleichbaren Gruppe, die sich mit Normalkost ernährt hat. Man weiß, daß die Gewichte schief-verteilt sind und der Stichprobenumfang pro Gruppe nicht größer als 10 ist. Welcher Test eignet sich am ehesten?

A. der t-Test für verbundene Stichproben

B. der t-Test für unverbundene Stichproben

C. der U-Test nach Mann, Whitney und Wilcoxon

D. der Welch-Test

E. der Vorzeichentest

Lösung: C (U-Test)

nicht t-Test/Vorzeichentest: 2 unverbundene Stichproben (müssen verbunden sein)

nicht t-Test/Welch-Tests: Normalverteilung nicht gegeben (u. a. wegen der kleinen Stichprobenumfänge)

Bleibt also nur noch der U-Test: schief-verteilte Daten möglich

Zu einem t-Lagetest werden 2 unverbundene Stichproben der Umfänge 1n und 2n herangezogen. Welche Aussage ist falsch?

A. Dieser Test setzt gleiche Varianzen der Grundgesamtheiten voraus.

B. Die Umfänge müssen gleich groß sein.

C. Dieser Test setzt normalverteilte Grundgesamtheiten voraus.

D. Die Anzahl der Freiheitsgrade beträgt

E. Man legt beim Testen die Nullhypothese μ1 = μ2

zugrunde.

Lösung: B (Umfänge müssen nicht gleich groß sein)

Dieser Test hat formal sehr strenge Voraussetzungen, aber die Stichprobenumfänge müssen nicht gleich groß sein. (Sie sollten aber wegen der Power nicht allzu unterschiedlich sein.)

Bei einem Chi2-Test ergibt sich für den Wert der Prüfgröße x2=0. Was besagt dieses Ergebnis?

A. Dieses Ergebnis ist unmöglich, da die Prüfgröße nur positive Werte annehmen

kann.

B. Aufgrund des Testergebnisses behält man die Nullhypothese bei; ein ß-Fehler ist

bei dieser Entscheidung jedoch nicht auszuschließen.

C. x2=0 belegt eindeutig, daß die Nullhypothese richtig ist.

D. x2=0 belegt eindeutig, daß die Alternativhypothese richtig ist.

E. Ob man die Null- oder die Alternativhypothese annimmt, ist abhängig von der

Größe des α-Fehlers

Lösung: B (Nullhypothese beibehalten)

Eine vorsichtige Interpretation nach B ist angebracht.

A: Eine Prüfgröße mit dem Wert 0 möglich, wenn ad = bc

C/D: Mit einem Testergebnis – auch mit einem extremen – läßt sich nichts eindeutig belegen.

E: das Ergebnis liegt im Annahmebereich, deshalb muß man immer die Nullhypothese beibehalten.

Welche Aussage trifft nicht zu?

A. Dem Vierfelder-Test liegt die Chi2-Verteilung zugrunde.

B. Die Anzahl der Freiheitsgrade beträgt immer 1.

C. Falls die Prüfgröße einen Wert größer als 3,84 annimmt, wird die Nullhypothese

zugunsten der Alternativhypothese abgelehnt.

D. Mit diesem Test läßt sich die Unabhängigkeit 2er Alternativmerkmale überprüfen.

E. Die Prüfgröße kann generell Werte zwischen − ∞ und + ∞ annehmen.

Lösung: E (Prüfgröße ist nicht negativ)

Die Prüfgröße 2 χ beim Vierfeldertest ist – wie bei allen Chi2-Tests – größer oder gleich 0.

Welche Aussage ist falsch?

A. Der Vorzeichentest ist bei 2 verbundenen Stichproben mit einem quantitativ stetigen Merkmal anwendbar.

B. Das zugrunde liegende Modell ist die Binomialverteilung mit p = 0,5 .

C. Der Test setzt 2 verbundene Stichproben mit gleichen Varianzen voraus.

D. Vor der Durchführung dieses Tests muß die Größe des α-Fehlers festgelegt

werden.

E. Er hat eine geringere Power als der t-Test, wenn dessen Voraussetzungen erfüllt

sind.

Lösung: C (gleiche Varianzen werden nicht vorausgesetzt)

A: wird zum Vergleich eines stetigen Merkmals bei 2 verbundenen Stichproben angewandt

B: beinhaltet keine Voraussetzungen – auch nicht gleiche Varianzen. Das Testverfahren basiert auf der Binomialverteilung; unter der Nullhypothese gilt:

D: Der α-Fehler muß immer vor der Durchführung festgelegt werden, keine Besonderheit

E: universell anwendbar, führt aber seltener zu einem signifikanten Ergebnis als der entsprechende t-Test

Gegeben seien 3 unverbundene Stichproben, die paarweise mit dem t-Test (jeweils α = 5% ) getestet werden. Insgesamt werden also 3 Tests durchgeführt. Wie groß ist bei diesem Verfahren insgesamt der Fehler 1. Art?