Mit einem Balkendiagramm lassen sich Häufigkeiten graphisch darstellen. Für welche Merkmale ist diese Darstellungsform geeignet?
generell für alle Merkmale
für alle diskreten Merkmale sowie für stetige Merkmale, wenn die Daten in Klassen eingeteilt sind
nur für nominalskalierte Merkmale
nur für qualitative Merkmale
für alle diskreten Merkmale
Lösung 5 (alle diskreten Merkmale)
1: falsch, da sich die Darstellung nicht für alle eignet
2:: für stetige, klassierte Daten wird ein Histogramm verwendet
3,4: nicht nur
Beachte:
Bei ordinalen Merkmalen: Reihenfolge der Balken
Bei quantitativen Merkmalen: Reihenfolge + Abstand der Balken
Aufgabe 3.2: Relative Häufigkeiten – Darstellung
Im Rahmen einer klinischen Studie wird die Wirksamkeit einer therapeutischen Maß- nahme an 22 Patienten untersucht. Bei n1 = 14 Patienten ist die Therapie erfolgreich. Welche Darstellung der entsprechenden relativen Häufigkeit ist am sinnvollsten?
h=64% 1
h=0,63636 1
h =14/22 1
h1 liegt über 50 %.
h1 beträgt zwischen 60 % und 70 %.
Lösung 3 (14/22)
Die Angabe C ist dagegen präzise – und verheimlicht dennoch nicht, daß die Berechnung der Häufigkeit auf einer relativ kleinen Anzahl von Beobachtungseinheiten basiert.
1,2 : vorgetäuschte Genauigkeit
4,5: zu unpräzise
Aufgabe 3.3: Relative Häufigkeiten – Blutdruck
In einer Stichprobe von n = 200 Personen werden die in der Tabelle aufgelisteten Blutdruckwerte (in mmHg) gemessen. Hypertonie liege vor, wenn der systolische Blutdruck mehr als 150 mmHg oder der diastolische mehr als 100 mmHg beträgt. Wie groß ist dann die relative Häufigkeit der Patienten, die an Hypertonie leiden?
A. 15/200
B. 15/38
C. 15/16
D. 54/200
E. 39/200
Lösung: E (39/200)
Das Wort „oder“ wird bei statistischen Berechnungen im nicht-ausschließlichen Sinn gebraucht.
39 Patienten mit Hypertonie
23 Patienten (systolischer Blutdruck > 150 mmHg, diastolischer normal)
1 Patient (diastolischer Blutdruck > 100 mmHg, systolischer normal)
15 Patienten (diastolischer Blutdruck > 100 mgHg und systolischer > 150 mmHg)
oder man rechnet einfach
38+16-15=39
15 ist dabei die Schnittmenge (s.Tabelle)
Aufgabe 3.4:
Klasseneinteilung – allgemein
Welche Aussage bzgl. klassierter Daten ist falsch?
Die Klassenbildung setzt ein quantitatives Merkmal voraus.
Die optimale Klassenanzahl ist abhängig vom Stichprobenumfang.
Durch die Klassenbildung geht Information verloren, dafür ist die Darstellung der
Häufigkeitsverteilung übersichtlicher.
Die Klassen müssen immer gleich breit sein.
An einem Historgramm sind charakteristische Eigenschaften der Merkmalsvertei-
lung (Lage, Streuung, Verteilungsform) erkennbar.
Lösung: 4 (Aussage ist falsch)
Vorsicht: Hier ist nach einer falschen Aussage gefragt – und dies ist Aussage D. Es ist zwar rechentechnisch günstig und übersichtlich, wenn die Klassen gleich breit sind – dies ist aber keine unabdingbare Voraussetzung bei einer Klasseneinteilung.
Aufgabe 3.5
50 Studenten sind folgendermaßen eingeteilt:
Welche Aussage bzgl. des Mittelwerts trifft zu?
A. Man kann aus diesen Angaben einen Mittelwert ermitteln und erhält dabei genau denselben Wert, der sich aus den nicht-klassierten Originalmeßwerten ergibt.
B. Man kann aus diesen Angaben einen Mittelwert berechnen, der jedoch mit einer Ungenauigkeit behaftet ist.
C. Die Berechnung eines Mittelwerts ist wegen der offenen Restklassen nicht möglich.
D. Die Berechnung eines Mittelwerts ist möglich, indem man als Klassenmitten für die Restklassen 155 cm bzw. 195 cm ansetzt.
E. Die Berechnung eines Mittelwerts ist nicht möglich, da die Klassen unterschiedlich breit sind.
Lösung: C (Berechnung des Mittelwerts nicht möglich)
Die Berechnung eines Mittelwerts (ebenso der Varianz) bei klassierten Daten ist möglich, falls keine offenen Restklassen vorliegen.
Hinweis:
Wenn keine offenen Restklassen vorlägen, wäre B die richtige Antwort, dieser Wert wäre allerdings etwas ungenau.
Aufgabe 3.6: Empirische Verteilungsfunktion – allgemein
Welche Aussage bzgl. der empirischen Verteilungsfunktion F(x) ist falsch?
F(x) ist für alle x∈ ]− ∞,+ ∞[definiert.
Zwischen dem kleinsten und dem größten Stichprobenwert wächst F(x) monoton
von 0 bis 1.
Ein Funktionswert F(x) gibt den relativen Anteil der Beobachtungen an, die
kleiner oder gleich x sind.
Ein Funktionswert F(x) gibt den relativen Anteil der Beobachtungen an, die grö-
ßer oder gleich x sind.
Es gilt: F(x) =1 für alle x ≥ xmax .
Die Aussagen A, B und E folgen sofort aus der Definition nach Formel (3.7) (Seite 36, diskrete Merkmale) bzw. nach Formel (3.9) (Seite 41, stetige Merkmale). Nach der Definition der empirischen Verteilungsfunktion ist auch Antwort C richtig, Aussage D muß dann falsch sein.
Aufgabe 3.7: Empirische Verteilungsfunktion bei klassierten Daten
Aus klassierten Daten wird die empirische Verteilungsfunktion bestimmt. Für ein be- stimmtes x1 gelte: F(x1) = 0,25. Worum handelt es sich bei diesem x1 ?
A Die relative Häufigkeit von x1 beträgt 25%.
B x1 ist das empirisch ermittelte, untere Quartil.
C x1 ist das empirisch ermittelte, obere Quartil.
D Dem x1 kann keine dieser Eigenschaften zugewiesen werden.
E Bei klassierten Daten kann die Verteilungsfunktion nicht bestimmt werden.
Antwort B
Wenn also gilt:
F(x1)=0,25 dann heißt dies, daß 25% der Stichprobenwerte kleiner oder gleich x1 sind – demnach ist x1 das untere Quartil (Antwort B)
Aufgabe 3.8: Vergleich Mittelwert und Median
Welche der folgenden Aussagen ist falsch?
Der Mittelwert wird wesentlich stärker von Ausreißern beeinflußt als der Median.
Die Berechnung des Mittelwerts setzt ein quantitatives Merkmal voraus.
Der Mittelwert und der Median sind Lagemaße.
Wenn der Median wesentlich größer ist als der Mittelwert, ist die Verteilung schief.
Wenn die Berechnung des Medians erlaubt ist, kann auch der Mittelwert berechnet
werden.
Antwort 5 falsch.
Bei ordinalskalierten Merkmalen kann der Median berechnet werden, der Mittelwert dagegen nicht.
Achtung: vielfach wird bei ordinalskalierten Daten fälschlicherweise der Mittelwert angegeben – z. B. bei Schulnoten. Dann werden von den Daten Informationen ausgewertet, die diese gar nicht enthalten.
Aufgabe 3.9
Der empirische Median ist:
A. 6
B. 6,5
C. 7
D. 14
E. nicht bestimmbar
A
(ich hab die alle aufgeschrieben und von abwechselnd links und rechts weggestrichen)
Aufgabe 3.10:
Eigenschaften des Medians
Welche Aussage ist richtig? – Der Median bleibt in jedem Fall unverändert, wenn
alle Werte außerhalb des Intervalls x ±2s aus der Stichprobe entfernt werden
zum größten Wert eine positive Zahl addiert wird
alle Werte mit der gleichen Zahl multipliziert werden
zu allen Werten eine Konstante addiert wird
man einen Ausreißer wegläßt
Lösung 2
Wenn man zum größten Wert eine positive Zahl addiert, bleibt dies der größte Wert. Dieser beeinflußt jedoch nicht den Median; deshalb ist B richtig.
bzw. wird eh rausgestrichen:)
Aufgabe 3.11: Lage- und Streuungsmaße
Im folgenden sind insgesamt 8 Lage- und Streuungsmaße aufgelistet:
a. Varianz
d. Modus
b. Spannweite
e. Standardabweichung c. Variationskoeffizient
f. Minimum
d. Quartilsabstand
g. Maximum
Gefragt ist nach der Anzahl der Streuungsmaße.
A. 3
B. 4
C. 5
D. 6
E. 7
Lösung: C (5 Streuungsmaße)
Streuungsmaße sind: die Varianz, die Spannweite, der Variationskoeffizient, der Quartilsabstand und die Standardabweichung – sie beschreiben die Variabilität einer Stichprobe. Der Modus, das Maximum und das Minimum beschreiben dagegen die Lage der Stichprobenwerte.
Aufgabe 3.12:
Maßzahlen für die ASA-Risikogruppe
Jeder Patient, der sich im Klinikum M. einer Operation unterzieht, wird bezüglich des Risikos eingestuft nach ASA I (geringes Risiko) bis ASA V (sehr schweres Risiko). Welche Maßzahlen lassen sich bei diesem Merkmal berechnen?
a. Mittelwert b. Median c. Modus. d. Varianz e. Standardabweichung f. Spannweite
alle angegebenen Maßzahlen können berechnet werden
nur a, d und e
nur c
nur b, c und f
nur a und b
Lösung 4
Es handelt sich bei der ASA-Risikogruppe um ein ordinalskaliertes Merkmal
Bei dieser Merkmalsart können als Lagemaße: Median und Modus nicht, Mittelwert
Streuungsmaß: nur die Spannweite
Hinweis: die Varianz und die Standardabweichung setzen metrische Merkmale voraus.
Aufgabe 3.13: Maßzahlen für die Aufenthaltsdauer
Bei jedem Patienten, der mit einer bestimmten Diagnose in eine Klinik eingeliefert wird, wird die Aufenthaltsdauer (in Tagen) ermittelt. Welche Maßzahlen lassen sich bei diesem Merkmal berechnen?
Mittelwert
Median
Modus
d. Standardabweichung e. Variationskoeffizient f. Spannweite
nur a und d
nur c und f
nur a, b und d
Lösung: 1 (alle Maßzahlen können berechnet werden)
Es handelt sich bei der Aufenthaltsdauer um ein quantitativ-diskretes Merkmal mit höchstem Niveau (Verhältnisskala). Deshalb können theoretisch alle Maßzahlen be- rechnet werden.
Aufgabe 3.14: Maßzahlen und Stichprobenumfang
Aus einer Stichprobe vom Umfang n = 10 ermittelt man für ein quantitatives Merkmal den Mittelwert, den Median, die Spannweite sowie die Varianz. Danach wählt man aus derselben Grundgesamtheit weitere 10 Beobachtungseinheiten und berechnet die an- gegebenen Maßzahlen aus der größeren Stichprobe des Umfangs n=20. Welche Maßzahlen können dabei in keinem Fall kleiner werden?
Spannweite
Summe der Abweichungsquadrate vom Mittelwert (Zähler der Varianz)
Varianz
keine der Maßzahlen 1–5 kann kleiner werden
nur 3 und 4 können nicht kleiner werden
nur 3, 4 und 5 können nicht kleiner werden
alle Maßzahlen können kleiner werden
diese Frage ist abhängig von dem Skalenniveau des Merkmals
Lösung 2 (Spannweite und Summe der Abweichungsquadrate)
wenn die neuen 10 Beobachtungseinheiten ein größeres Maximum (oder ein kleineres Minimum) haben als die ersten 10, vergrößert sich die Spannweite – ansonsten bleibt sie gleich.
Da Abweichungsquadrate niemals negativ sind, kann sich auch durch eine Erhöhung des Stichprobenumfangs deren Summe nicht verkleinern – (höchstens die Varianz, bei der durch den Nenner (n-1) dividiert wird.)
Last changed2 months ago