Aufgabe 4.1: Punktwolke
Der Zusammenhang 2er metrischer Merkmale läßt sich durch eine Punktwolke gra- phisch darstellen. Welche Informationen lassen sich nicht der Punktwolke entnehmen?
ob der Zusammenhang annähernd linear ist
ob Ausreißer vorhanden sind
ob der Zusammenhang stark oder eher schwach ist
ob der Zusammenhang gleich- oder gegensinnig ist
ob die beiden Merkmale in einem kausalen Zusammenhang stehen
Lösung 5 (kausaler Zusammenhang nicht erkennbar)
Ob und wie die Merkmale kausal zusammenhängen, ist allerdings anhand der Punktwolke nicht nachvollziehbar.
Man kann eine wunderschöne Punktwolke erstellen, indem man für jedes Jahr dieses Jahrhunderts das Storchenaufkommen und die Geburtenhäufigkeit als einen Punkt in ein Koordinatenssystem einzeichnet. Der Punktwolke ist es egal, ob der Zusammenhang sachlich begründet und kausal ist, oder ob es sich um eine Nonsens-Korrelation handelt.
Aufgabe 4.2: Kovarianz
Bei welchen Skalenniveaus ist die Berechnung der Kovarianz erlaubt?
Bei 2 Merkmalen mit beliebigem Skalenniveau
Beide Merkmale müssen verhältnisskaliert sein.
Es genügt, wenn beide Merkmale ordinalskaliert sind.
Es genügt, wenn mindestens 1 Merkmal metrisch skaliert ist.
Beide Merkmale müssen metrisch skaliert sein.
Lösung 5 (beide Merkmale sind metrisch)
Berechnung der Kovarianz basiert auf Mittelwerten x und y. Dazu müssen beide Merkmale metrisch sein
Welches Intervall umfaßt alle Zahlenwerte, die ein empirischer Korrelationskoeffizient r annehmen kann?
]− ∞ , + ∞ [
[0,1]
[0 , + ∞ [
]− 1 , + 1 [
[− 1 , + 1 ]
Lösung 5 (-1,+1)
Es ist ja gerade die herausragende Eigenschaft des Korrelationskoeffizienten, daß er normiert ist und deshalb nur Werte zwischen –1 und +1 annehmen kann (und damit sehr gut interpretierbar ist). Die Grenzen sind eingeschlossen.
Aufgabe 4.4:
Interpretation eines Korrelationskoeffizienten
Welcher empirische Korrelationskoeffizient nach Pearson bezeichnet den stärksten (li- nearen) Zusammenhang?
A. r = 0
B. r = 0,8
C. r = -0,95
D. r = 1,2
E. Dieses Maß ist nicht geeignet, um die Stärke eines Zusammenhangs zu quanti- fizieren.
Lösung C ( r = -0,95)
je näher der Betrag von r bei 1 liegt, desto stärker ist der Zusammenhang. Deshalb ist ein Zusammenhang mit r = − 0,95 stärker als einer mit r = 0,8 (bzgl. der Stärke spielt das Vorzei- chen keine Rolle).
Hinweis:
A: ( r = 0 ) bezieht sich auf 2 Merkmale, bei denen überhaupt kein linearer Zusammenhang erkennbar ist.
D (r =1,2) ist nicht möglich da r nur Werte zwischen -1 und 1 annehmen kann
Aufgabe 4.5: Wertebereich des Bestimmtheitsmaßes
Welches Intervall umfaßt alle Zahlenwerte, die das Bestimmtheitsmaß annehmen kann?
Lösung: 2
Dazu muß man wissen, daß das Bestimmtheitsmaß durch r2 quantifiziert wird
Da sich r zwischen –1 und +1 erstreckt, hat r2 einen Wertebereich zwischen 0 und 1 (Grenzen eingeschlossen).
Aufgabe 4.6:
Regressionsgerade
Eine Regressionsgerade habe die Form: y = − 0,8 + 0,3 ⋅x . Was folgt daraus für den dargestellten Zusammenhang?
Der Zusammenhang ist gegensinnig.
Der Zusammenhang ist gleichsinnig.
Der Korrelationskoeffizient beträgt r = − 0,8.
Der Korrelationskoeffizient beträgt r = + 0,3.
Keine dieser Aussagen läßt sich herleiten.
Aufgabe 4.6: Regressionsgerade
Wenn die Steigung der Regressionsgerade wie hier mit 0,3 positiv ist, ist der Zusam- menhang gleichsinnig (Antwort A falsch, B richtig) – weitergehende Aussagen sind nicht möglich. Man weiß also nur, daß der Korrelationskoeffizient positiv ist; die Glei- chung der Regressionsgeraden enthält keine Aussagen über dessen Betrag.
Aufgabe 4.7: Regressionskoeffizient
Der Regressionskoeffizient ist
A. die Steigung der Regressionsgeraden
B. der Schwerpunkt der Punktwolke
C. der Schnittpunkt der Regressionsgeraden mit der y-Achse
D. immer eine Zahl zwischen 0 und 1
E. ein Punkt auf der Regressionsgeraden
Lösung: A (Steigung der Regressionsgeraden)
ist eine reine Definitionssache
Der Wertebereich des Regressionskoeffizienten ist nicht eingeschränkt, mit anderen Worten: die Steigung der Regressionsgeraden kann beliebig steil oder schwach sein. Sie beschreibt die Art des Zusammenhangs, der Korrelationskoeffizient dessen Stärke.
Aufgabe 4.8: Korrelationskoeffizient und Regressionsgerade
Ein Korrelationskoeffizient betrage r = 0,2 . Was folgt daraus für die Regressionsge- rade?
Die Steigung der Regressionsgeraden ist positiv.
Die Steigung der Regressionsgeraden ist negativ.
Die Steigung der Regressionsgeraden beträgt 0,2.
Der y-Achsenabschnitt beträgt 0,2.
Da der Zusammenhang sehr schwach ist, ist die Darstellung durch eine Regressi- onsgerade nicht erlaubt.
Lösung: 1 (Steigung der Regressionsgeraden ist positiv)
Der Korrelationskoeffizient und die Steigung der Regressionsgeraden haben dasselbe Vorzeichen
Wenn man also weiß, daß r = 0,2 , kann man auf Antwort A schließen – spezifischere Aussagen bzgl. der Geradensteigung oder des y- Achsenabschnitts sind jedoch nicht möglich.
Aufgabe 4.9: Vergleich zweier Meßverfahren
Eine neue Meßmethode Y wird mit einer Referenzmethode X verglichen. Womit läßt sich die Güte der neuen Methode beurteilen?
durch den Regressionskoeffizienten
durch den Korrelationskoeffizienten
durch das Bestimmtheitsmaß
durch die Regressionsgerade und den Korrelationskoeffizienten
durch den Schwerpunkt der Punktwolke
Lösung 4 (Korrelationskoeffizient und Regressionsgerade)
Von einem neuen Meßverfahren erwartet man, daß es dieselben Werte mißt wie eine bekannte Referenzmethode (abgesehen von geringen, zufällig bedingten Abweichungen).
Dann müßte der Korrelationskoeffizient r≈1 betragen (er sollte nur wenig kleiner sein).
Das allein reicht jedoch nicht aus, um die Güte eines neuen Verfahrens zu bestimmen. Auch bei einem systematischen Fehler könnte sich ein Korrelationskoeffizient nahe bei 1 ergeben.
Es ist deshalb wichtig, auch die Regressionsgerade zu ermitteln; für sie müßte gelten y≈x
Aufgabe 4.10: Prognostizieren mit der Regressionsgeraden
Ein Patient mit Bluthochdruck erhält eine Therapie über 15 Tage, die danach abgebro- chen wird. Bezüglich der Änderung des systolischen Blutdrucks über die Zeit wird ein Korrelationskoeffizient r = − 0,89 und die Regressionsgerade y = 180 − 4 ⋅x ermittelt
(wobei x die Behandlungstage und y die Blutdruckwerte in mmHg sind). Welche der folgenden Aussagen lassen sich aus diesen Informationen schlußfolgern?
Der Blutdruck sinkt während der Therapie um durchschnittlich 0,89 mmHg pro Tag.
Der Blutdruck sinkt während der Therapie um durchschnittlich 4 mmHg pro Tag.
Der Schätzwert für den letzten Tag der Therapie beträgt 120 mmHg.
Zu Beginn der Therapie hatte der Patient einen Blutdruck von etwa 180 mmHg.
Am 20. Tag nach Beginn der Therapie ist bei dem Patienten ein Blutdruck von 100
mmHg zu erwarten.
A ) nur die Aussage 2 ist herleitbar
B ) nur die Aussage 1 ist herleitbar
C ) nur die Aussagen 2, 3 und 4 sind herleitbar
D ) die Aussagen 2, 3, 4 und 5 sind herleitbar
E ) die Aussagen 1, 3, 4 und 5 sind herleitbar
Lösung C (Aussagen 2,3,4 sind herleitbar)
Die Regressionsgerade beschreibt die Art des Zusammenhangs, in diesem Fall: der Blutdruck sinkt um 4 mmHg pro Tag (Aussage 2 richtig).
Der Korrelationskoeffizient beschreibt die Stärke des Zusammenhangs, nicht dessen Art (deshalb ist Aussage 1 falsch).
Man erhält über die Gleichung der Regressionsgeraden für : (Aussage 3).
Zu Beginn der Therapie ergibt sich mit x = 0 : (Aussage 4).
Es ist aber nicht erlaubt, über den Beobachtungsbereich hinaus zu extrapolieren. Die 5. Aussage ist deshalb falsch.
Aufgabe 4.11: Geeignetes Zusammenhangsmaß
Von zwei metrisch skalierten Merkmalen ist nur bekannt, daß der Zusammenhang mo- noton steigend ist. Welches Maß eignet sich zur Quantifizierung der Stärke dieses Zu- sammenhangs?
die Kovarianz
der Korrelationskoeffizient nach Pearson
der Korrelationskoeffizient nach Spearman
das Produkt der beiden Standardabweichungen
keine der Angaben aus A–D
Lösung 3
Wenn man nicht genau weiß, ob ein Zusammenhang zwischen 2 metrischen Merkmalen linear ist, sollte man weder die Kovarianz noch der Korrelationskoeffizienten nach Pearson (der ja auf der Kovarianz basiert) berechnen.
—> nur Darstellung eines linearen Zusammenhangs.
Die Antworten A und B sind somit falsch.
ebenso die Antwort D (das Produkt der Standardabweichungen ist generell kein Maß für die Stärke eines Zusammenhangs). Einen Ausweg liefert der Korre- lationskoeffizient nach Spearman, der schwächere Voraussetzungen hat (der Zusam- menhang muß nur monoton, nicht unbedingt linear sein).
Aufgabe 4.12: Wertebereiche
Wie viele der folgenden 10 Maßzahlen können niemals negative Werte annehmen?
Spannweite – Varianz – Standardabweichung – Minimum – Maximum – Modus – Median – Korrelationskoeffizient – Kovarianz – Bestimmtheitsmaß
alle 10
nur 7
nur 5
nur 4
nur 2
Lösung 4 (4 Maßzahlen sind nicht negativ)
Diese sind: Spannweite, Varianz, Standardabweichung und Bestimmtheitsmaß. Die er- sten 3 sind nur dann gleich 0, wenn alle Stichprobenwerte übereinstimmen; ansonsten sind sie positiv. Das ergibt sich aus der Definition dieser Kenngrößen. Das Bestimmt-
heitsmaß ist das Quadrat r2 und kann deshalb niemals negativ sein. Dagegen können – wenn die Stichprobe negative Werte enthält – das Minimum, das Maximum, der Modus und der Median negativ sein. Der Korrelationskoeffizient und die Kovarianz sind negativ, falls der Zusammenhang gegensinnig ist.
Aufgabe 4.13:
Zusammenhang zwischen Körpergröße und Gewicht
Beurteilen Sie die folgende Aussagen:
Der Korrelationskoeffizient, der den Zusammenhang zwischen Körpergröße und Körpergewicht von männlichen Erwachsenen quantifiziert, ist positiv, denn
diese beiden Merkmale können nur positive Werte annehmen.
Aussage 1 Aussage 2 Verknüpfung
richtig richtig richtig
richtig richtig falsch
richtig falsch -
falsch richtig -
falsch falsch
Aufgabe 4.13: Zusammenhang zwischen Körpergröße und Gewicht
Lösung: B (beide Aussagen richtig, Verknüpfung falsch)
Der Zusammenhang ist gleichsinnig, demnach ist der Korrelationskoeffizient positiv (große Leute wiegen viel, kleine eher weniger). 1 richtig
Die Werte der Körpergröße und des Gewicht sind immer positiv. 2 richtig
allerdings nicht deren Verknüpfung. Die Aussage 2 enthält keinerlei Information bzgl. des Korrelationskoeffizienten; dieser kann positiv oder negativ sein
Aufgabe 4.14. abhängiges und unabhängiges Merkmal
Der Zusammenhang zwischen Körpergröße und Gewicht bei erwachsenen Frauen im Alter von 20 bis 40 Jahren soll durch eine Regressionsgleichung beschrieben werden. Welches Merkmal sollte sinnvollerweise als das unabhängige x-Merkmal und welches als das abhängige y-Merkmal aufgefaßt werden?
Dieser Zusammenhang läßt sich nicht durch eine Regressionsgleichung beschrei- ben.
Es ist vollkommen gleichgültig, welches der beiden Merkmale als abhängig bzw. unabhängig angesehen wird.
Das Gewicht sollte als das unabhängige x-Merkmal gewählt werden.
Die Größe sollte als das unabhängige x-Merkmal gewählt werden.
Man berechnet 2mal den Korrelationskoeffizienten (einmal mit der Größe und
einmal mit dem Gewicht als unabhängigem x-Merkmal). Der größere Koeffizient liefert die Entscheidung
Lösung 4 (die Größe sollte das unabhängige Merkmal sein)
Im vorliegenden Fall ist die Größe quasi konstant vorgegeben; sie beeinflußt in gewissem Maße das Gewicht. Umgekehrt ist dies nicht der Fall: Frauen können ihr Gewicht zwar beeinflussen; dadurch ändert sich jedoch nicht deren Größe. Durch eine Hungerkur nimmt man ab, wird deshalb aber nicht kleiner. Während einer Schwangerschaft nimmt man zu, ohne dabei zu wachsen. Aus diesen Überlegungen folgt, daß Antwort C falsch und D richtig ist.
Zuletzt geändertvor 2 Monaten