Erklären Sie allgemein, was man unter einem Merkmalsträger, einem Merkmal sowie einzelnen Merkmalsausprägungen versteht.
Kurze Lösung
• Merkmalsträger: statistische Einheit
• Merkmal: zu erhebende Variable
• Merkmalsausprägungen: Werte der zu erhebenden Variable
Ausführliche Lösung
Ein Merkmalsträger ist eine Person bzw. ein Objekt, über welches man neue Erkenntnisse erzielen möchte. Das, was man an den Merkmalsträgern erhebt, ist ein Merkmal und die entsprechenden Werte, welche das Merkmal annehmen kann, sind die dazugehörigen Merkmalsausprägungen
Was ist unter einem natürlichen Nullpunkt zu verstehen?
Ein natürlicher Nullpunkt ist bei verhältnisskalierten Merkmalen vorhanden.
Dieser bedeutet, dass die Zahl 0 in allen erdenklichen Einheiten eines Merkmals die gleiche Bedeutung hat. Die Körpergröße in mm, cm oder m hat bspw. einen natürlichen Nullpunkt, denn es gilt: 0 mm = 0 cm = 0 m.
Nennen Sie kurz die drei Schritte statistischer Untersuchungen
Datensammlung, Datenaufbereitung, Datenauswertung
Im ersten Schritt werden die Daten gesammelt. Der zweite Schritt beinhaltet die Datenaufbereitung und im dritten Schritt werden die gesammelten und aufbereiteten Daten ausgewertet.
Erläutern Sie den Unterschied zwischen der deskriptiven Statistik und der
Inferenzstatistik.
deskriptive Statistik: Beschreibung einer Stichprobe • Inferenzstatistik: Überprüfung, ob sich die Stichprobenergebnisse
verallgemeinern lassen
In der deskriptiven Statistik werden auf Basis von Stichproben Auswertungen durchgeführt. Diese Ergebnisse gelten nur für die untersuchte Stichprobe. Mithilfe der Inferenzstatistik wird schließlich geprüft, ob sich die Stichprobenergebnisse auf die Grundgesamtheit übertragen lassen.
Warum sind Daten im Paneldesign informativer als Daten im Querschnittsdesign?
Intraindividuelle Unterschiede können über die Zeit hinweg beobachtet werden.
Wenn Daten im Querschnittsdesign vorliegen, bedeutet das, dass für jeden Merkmalsträger einmalig Daten erhoben werden. Im Kontext des Paneldesigns werden für die einzelnen Merkmalsträger wiederholt Daten erhoben. Man kann demnach durch das Paneldesign die Entwicklung eines Merkmalsträgers über die Zeit hinweg beobachten, während man im Querschnittsdesign den
Merkmalsträger nur einmalig berücksichtigt.
Erläutern Sie, warum bei nominalskalierten Merkmalen keine kumulierten Häufigkeiten bestimmt werden, während dies bei mindestens ordinalskalierten
Merkmalen der Fall ist.
Ausprägungen nominalskalierter Variablen lassen sich nicht in eine sinnvolle Reihenfolge bringen; die ordinalskalierter Variablen durchaus.
Während sich die Merkmalsausprägungen nominalskalierter Variablen nicht in eine sinnvolle Reihenfolge bringen lassen, ist dies aber für mindestens ordinalskalierte Variablen möglich. Aus dem Grund lassen sich die Häufigkeiten benachbarter Ausprägungen zusammenfassen.
Mittel
Für welche Kombinationen von Skalenniveaus kann ein
Rangkorrelationskoeffizient von Spearman berechnet werden?
mindestens Ordinalskala bei beiden Variablen
Für die Berechnung eines Rangkorrelationskoeffizienten müssen die beiden betrachteten Merkmale mindestens ordinalskaliert sein. Das bedeutet, dass die beiden Kombinationen (ordinal, ordinal) und (ordinal, kardinal) infrage kommen.
Frage 45
Leicht
Skalenniveaus
Geben Sie für die folgenden Merkmalspaare die optimale Maßzahl an, mit der Sie die Existenz eines Zusammenhangs zwischen den beiden Merkmalen prüfen
können:
• Einkommen und Geschlecht,
• Gewicht und Zufriedenheit (sehr zufrieden, zufrieden, …, sehr
unzufrieden),
• Medikamentenzahl und Alter, • Studiengang und Einstiegsgehalt
Lösung Frage 45
Lösungshinweis Einsatzgebiete der drei Zusammenhangsmaßzahlen
Die Lösung umfasst zweimal den korrigierten Kontingenzkoeffizienten, einmal den Rangkorrelationskoeffizienten und einmal den Korrelationskoeffizient.
• Einkommen und Geschlecht: korrigierter Kontingenzkoeffizient • Gewicht und Zufriedenheit (sehr zufrieden, zufrieden, …, sehr
unzufrieden): Rangkorrelationskoeffizient
• Medikamentenzahl und Alter: Korrelationskoeffizient
• Studiengang und Einstiegsgehalt: korrigierter Kontingenzkoeffizient
Frage 54
Für fünf Studierende wurden die Daten über das Einstiegsgehalt (in Tausend Euro) sowie die Abschlussnote erhoben. Es soll nun herausgefunden werden, wie sich die Abschlussnote auf das Einstiegsgehalt auswirkt. Zu diesem Zweck wurde eine lineare Regressionsgleichung ermittelt. Zusätzlich wurden zur
Qualitätsbeurteilung das Bestimmtheitsmaß in Höhe von 0,1174 sowie der Standardfehler in Höhe von 10,78 bestimmt.
Interpretieren Sie die beiden Werte.
mäßige Eignung der Geraden für Prognosen des Gehalts
Das Bestimmtheitsmaß in Höhe von 0,1174 besagt, dass 11,74 % der Streuung des Gehalts mithilfe der Noten erklärt werden kann. Dies ist ein recht niedriger Erklärungsgehalt. Der Standardfehler in Höhe von 10,78 bedeutet, dass bei Nutzung der Regressionsgleichung zur Prognose des Gehalts ein
durchschnittlicher Fehler von 10.780 Euro gemacht wird. Insgesamt scheint die aufgestellte Regressionsgerade nur mäßig geeignet, um das Gehalt auf Basis der Noten zu prognostizieren.
Die Qualitätsbeurteilung einer linearen Regressionsgleichung hat ergeben, dass der Standardfehler bei 0 liegt. Was bedeutet dies zwangsläufig für die Werte des
Korrelationskoeffizienten sowie des Bestimmtheitsmaßes?
Frage 57
Es soll der Einfluss des Alters auf das Einkommen mithilfe einer einfachen linearen
Regression geprüft werden. Erläutern Sie – bezogen auf diesen Fall – den Unterschied zwischen erklärter und nicht erklärter Streuung.
• Korrelation = −1 oder + 1
• Bestimmtheitsmaß = 1
Wenn der Standardschätzfehler 0 ist, bedeutet das, dass keinerlei Fehler bei der Schätzung der abhängigen Variablen auf Basis der Regressionsgleichung gemacht werden. Alle Punkte müssen demnach auf der linearen Regressionsgeraden liegen. Das bedeutet, dass entweder ein Korrelationskoeffizient von +1 oder –1 die Folge sein muss. Daraus lässt sich schlussfolgern, dass das Bestimmtheitsmaß einen
Wert von 1 hat.
Erläutern Sie den Unterschied zwischen einer binomialverteilten und einer
geometrisch verteilten Zufallsvariable.
• Binomialverteilung: zählt die Erfolge • geometrische Verteilung: zählt die Misserfolge bis zum ersten Erfolg
Eine binomialverteilte Zufallsvariable zählt die Erfolge innerhalb einer bestimmten Anzahl an Bernoulli-Vorgängen. Eine geometrisch verteilte Zufallsvariable zählt hingegen die Misserfolge bis zum ersten Erfolg.
Nach einer Untersuchung des statistischen Bundesamts haben 56 % der Männer in Deutschland Übergewicht. Alina sitzt im Zug nach Hamburg und beobachtet die nächsten 12 Männer, die in ihren Zug einsteigen. 𝑋 sei die Anzahl übergewichtiger
Männer.
• Mit welcher Wahrscheinlichkeit ist genau die Hälfte der 12 Männer
übergewichtig?
𝑃 ( 𝑋 = 6 ) = 0,207
Wenn genau die Hälfte von 12 Männern übergewichtig sein soll, dann muss die Wahrscheinlichkeit für 6 übergewichtige Männer berechnet werden. Dabei sind 𝑥 = 6, 𝑛 = 12 und 𝑝 = 0,56:
𝑃 ( 𝑋 = 6 ) = ô 12 6 ö ∙ 0,56 / ∙ (1 − 0,56) $-#/
= 924 ∙ 0,56 / ∙ 0,44 /
= 0,207
Mit einer Wahrscheinlichkeit von 20,7 % ist die Hälfte der betrachteten Männer übergewichtig.
Frage 78
Schwer
Betrachtet sei das Bernoulli-Experiment des mehrmaligen Würfelwurfs. Die Zufallsvariable 𝑋 zählt die Versuche, bis zum ersten Mal eine 6 gewürfelt wird.
• Um welche Verteilung handelt es sich bei der Zufallsvariable 𝑋? • Welchen Zahlen beschreiben den Erfolg, welche den Misserfolg? • Stellen Sie die allgemeine Wahrscheinlichkeitsfunktion für 𝑋 auf.
• Wie groß ist die Wahrscheinlichkeit, dass beim dritten Wurf eine 6 gewürfelt
wird?
Lösung Frage 81
Lösungshinweis Quantil einer normalverteilten Zufallsvariable bestimmen
𝑥 ).$ = 52,184
Es ist ein Quantil gesucht, da eine kumulierte Wahrscheinlichkeit vorgegeben ist. Es soll die Punktzahl herausgefunden werden, die mit einer Wahrscheinlichkeit von 90 % „überschritten“ wird. Demzufolge liegt eine Wahrscheinlichkeit in Höhe von 10 % unter dem gesuchten Quantil. Es muss demnach 𝑥 ).$ bestimmt werden:
𝑥 ).$ = 𝜇 + 𝑧 ).$ ∙ 𝜎
= 65 − 𝑧 ).C ∙ 10
= 65 − 1,2816 ∙ 10
= 52,184
Eine Punktzahl in Höhe von 52,814 wird mit einer Wahrscheinlichkeit von 90 %
überschritten.
In einem Biologielabor wurde die Lebensdauer einer bestimmten Insektenart untersucht. Es wurde ermittelt, dass ein Insekt im Durchschnitt 95 Tage überlebt, die Varianz beträgt 625. Die Lebensdauer kann als normalverteilt angenommen
werden.
Mit welcher Wahrscheinlichkeit überlebt ein Insekt mehr als 110 Tage?
Wann gilt ein Punktschätzer als konsistent?
Annäherung an den wahren Wert mit steigendem Stichprobenumfang
Ein (Punkt-)Schätzer ist konsistent, wenn dieser sich mit steigendem Stichprobenumfang dem (unbekannten) wahren Parameterwert in der Grundgesamtheit annähert.
Wann wird die Standardnormalverteilung und wann die 𝑡-Verteilung für die Erstellung eines Konfidenzintervalls für einen Erwartungswert genutzt?
• Varianz in Grundgesamtheit bekannt: Standardnormalverteilung • Varianz in Grundgesamtheit unbekannt: 𝑡-Verteilung
Ist die Varianz in der Grundgesamtheit für das betreffende Merkmal bekannt, so wird die Standardnormalverteilung zur Aufstellung des Konfidenzintervalls genutzt. Sollte die Varianz in der Grundgesamtheit nicht bekannt sein, so wird die 𝑡-Verteilung verwendet.
Erläutern Sie anhand eines selbstgewählten Beispiels, was unter Veränderungshypothesen zu verstehen ist.
zwei verschiedene Zeitpunkte; Veränderung einer Variablen von einem zum nächsten Zeitpunkt
Eine Veränderungshypothese geht davon aus, dass sich eine bestimmte Variable von einem Zeitpunkt zu einem weiteren Zeitpunkt verändert. Man könnte bspw. die Hypothese aufstellen, dass sich das Gehalt von Angestellten durch den Besuch einer Fortbildung erhöht. Man würde vermuten, dass das Gehalt nach dem Besuch der Fortbildung höher ist als vorher.
Frage 96
Sie möchten untersuchen, ob Ärzt:innen mehr Stunden arbeiten als Psycholog:innen. Formulieren Sie das Hypothesenpaar in verbaler Form.
• 𝐻 ) : Ärzt:innen arbeiten höchstens so viele Stunden wie Psycholog:innen. • 𝐻 $ : Ärzt:innen arbeiten mehr Stunden als Psycholog:innen.
Das „mehr als“ muss immer in der Alternativhypothese formuliert werden. Demzufolge lautet sie „Ärzt:innen arbeiten mehr Stunden als Psycholog:innen.“. In der Nullhypothese muss das gesamte Gegenteil stehen. Ärzt:innen und
Psycholog:innen können demnach entweder gleich viel arbeiten oder aber Ärzt:innen arbeiten weniger Stunden als Psycholog:innen. Insgesamt wird dies durch „höchstens so viel“ zusammengefasst und die Nullhypothese lautet „Ärzt:innen arbeiten höchstens so viele Stunden wie Psycholog:innen.“.
Warum kann die Nullhypothese abgelehnt werden, wenn der p-Wert geringer als das Signifikanzniveau 𝛼 ist?
Das Signifikanzniveau 𝛼 gibt die Wahrscheinlichkeit an, dass der Fehler 1. Art
auftritt. Diese Wahrscheinlichkeit wird von den Wissenschaftler:innen im Vorfeld
des Tests festgelegt. Der p-Wert gibt ebenfalls die Wahrscheinlichkeit für das Auftreten des Fehlers 1. Art an, wird aber im Rahmen der Testprozedur selbst berechnet. Ist folglich der p-Wert geringer als 𝛼, so liegt die (berechnete) Wahrscheinlichkeit für das Auftreten des Fehlers 1. Art unterhalb des Wertes, den die Wissenschaftler:innen vorgegeben (und damit toleriert) haben. Die Nullhypothese kann sodann
verworfen werden.
Angenommen, das Merkmal 𝑋 „Füllmenge von Waschpulver-Packungen“ (in kg) sei normalverteilt. Die Standardabweichung dieses Merkmals in der
Grundgesamtheit ist bekannt und beträgt 𝜎 = 0,04. Der Hersteller gibt an, dass die durchschnittliche Füllmenge 3 kg beträgt. Ein Verbraucherverband hat Zweifel an dieser Aussage und vermutet, dass die wahre, aber unbekannte
durchschnittliche Füllmenge geringer ist. Zur Überprüfung dieser Hypothese wird eine Stichprobe im Umfang von 𝑛 = 25 gezogen, der Stichprobenmittelwert beträgt 𝑥 ̅ = 2,98. Das Signifikanzniveau wird auf 0,01 festgelegt.
Wie lautet das Testergebnis? Dokumentieren Sie Ihren Lösungsweg in den
bekannten fünf Schritten.
Erläutern Sie, warum bei einem linksseitigen Test auf einen Erwartungswert sowohl die Prüfgröße als auch der kritische Wert als Betragswert betrachtet
werden können.
Die Symmetrie um den Erwartungswert 0 lässt positive und negative Werte gleich weit vom Erwartungswert entfernt sein.
Ein linksseitiger Test sorgt dafür, dass sowohl die Prüfgröße als auch der kritische Wert erwartungsgemäß negativ sind. Da das Standardisieren und die Verwendung der Standardnormalverteilung dazu führen, dass sich die Prüfgröße symmetrisch um den Wert 0 herum verteilt, ist es zu vernachlässigen, ob man sich den negativen oder positiven Wertebereich anschaut.
Frage 106
Ein Großhändler beliefert eine Supermarktkette mit Haferflockenpackungen zu je 500 Gramm. Es ist bekannt, dass das Gewicht der Packungen normalverteilt ist. Zur Probe werden 20 Packungen gewogen. Das durchschnittliche Gewicht dieser Packungen beträgt 495 Gramm; die Standardabweichung liegt bei 15 Gramm. Der Lieferant behauptet, dass das Gewicht vom Sollgewicht in Höhe von 500 Gramm abweicht. Das Signifikanzniveau wird auf 0,05 festgelegt.
Was ist eine Kardinalskala?
Ordinalskala + Berechnung möglich
Last changed2 months ago