1.1 Gegenstand der Statistik
1. EINFÜHRUNG
Rep: Warum ist die Statistik als wissenschaftliche Disziplin in nahezu jedem wissenschaftlichen Bereich unerlässlich?
Kurze Lösung
neue Erkenntnisse gewinnen
Ausführliche Lösung
Möchte man hinsichtlich eines bestimmten wissenschaftlichen Bereichs neue Erkenntnisse gewinnen, so ist es in der Regel unerlässlich, Daten mithilfe von statistischen Methoden zu analysieren.
um mit diesem Wissen eventuelle Prognosen für zukünftige Entwicklungen anstellen und daraus Handlungsbedarf ableiten zu können.
wichtig die Statistik ist, um über neue Erkenntnisse Handlungsempfehlungen aussprechen zu können
Rep: Erläutern Sie anhand eines selbst gewählten Beispiels die Bedeutsamkeit der Statistik.
zukünftige Entwicklung bestimmter Variablen
Möchte man bspw. prognostizieren, wie sich die Inflationsrate zukünftig weiterentwickelt, sollte man zunächst die vergangene Entwicklung betrachten und analysieren, um aus diesen Erkenntnissen Schlussfolgerungen für etwaige zukünftige Entwicklungen ziehen zu können.
Merkmalsträger
Rep:
1.2 Grundbegriffe der Statistik
Ein Merkmalsträger ist eine interessierende Person oder ein Objekt, über welche(s) man Aussagen gewinnen möchte.
Einzelpersonen, Unternehmen oder Gegenstände sein;
Grundgesamtheit
Die Grundgesamtheit umfasst alle Merkmalsträ- ger.
Stichprobe + Zusammensetzung
Stichprobe
umfasst alle tatsächlich untersuchten Merkmalsträger
Zusammensetzung der Stichprobe
Merkmalsträger repräsentativ für die Grundgesamtheit,
nur dann können die Aussagen über die Grundgesamtheit an Zuverlässigkeit gewinnen.
Rep: In einer wissenschaftlichen Studie soll ermittelt werden, welcher Unterrichtsstil einzelner Lehrer:innen zu höherem Lernerfolg von Studierenden führt.
Ordnen Sie jeweils zu, bei welchem der folgenden Begriffe es sich um den Merkmalsträger, das Merkmal und die Merkmalsausprägung handelt:
• Frontalunterricht,
• Lehrer:in und
• Unterrichtsstil.
• Frontalunterricht: Merkmalsausprägung
• Lehrer:in: Merkmalsträger
• Unterrichtsstil: Merkmal
Ein Merkmalsträger ist eine Person bzw. ein Objekt, über welches man neue Erkenntnisse erzielen möchte (hier also Lehrer:innen). Das, was man an den Merkmalsträgern erhebt, ist ein Merkmal (der Unterrichtsstil) und die entsprechenden Werte, welche das Merkmal annehmen kann, sind die dazugehörigen Merkmalsausprägungen (Frontalunterricht als ein möglicher Unterrichtsstil)
Stichprobe - verschiedene Arten
Differenzierung von Stichproben
Zufallsstichproben
Nur Zufallsstichproben bilden eine geeignete Basis für statistische Analysen, mithilfe derer man Rückschlüsse auf die Allgemeinheit ziehen möchte
unterschiedliche Varianten:
Einfache Zufallsstichprobe
geschichtete Stichprobe.
Klumpenstichprobe
Stichproben
einfache Zufallsstichprobe
bietet die beste Grundlage für aussagekräftige Ergebnisse.
Zufallsprinzip = jeder Merkmalsträger die gleiche Chance, für die Stichprobe ausgewählt zu werden.
nur möglich, wenn die Grundgesamtheit in ihrer Gänze bekannt ist
BSP: jedes Krankenhaus die gleiche Wahrscheinlichkeit auf, in die Stichprobe zu gelangen.
geschichtete Stichprobe
Grundgesamtheit zunächst nach relevanten Größen in Teilpopulationen aufgeteilt.
Anschließend aus Teilpopulationen Stichproben gezogen
BSP: Um im Beispiel zu gewährleisten, dass Krankenhäuser jeglicher Größe aufgenommen werden, könnte man zunächst bspw. drei Schichten an Krankenhäusern (bis 500 Patient:innen, mehr als 500 bis 1000 Patient:innen, ab 1000 Patient:innen) bilden. Im Anschluss daran werden aus all diesen drei Schichten Krankenhäuser nach dem Zufallsprinzip ausgewählt.
natürlich existierende Teilmengen der Grundgesamtheit nach dem Zufallsprinzip ausgewählt und danach vollständig untersucht.
bsp: Um sicherzustellen, dass Krankenhäuser aus allen Bereichen Deutschlands in die Studie involviert werden, könnte man aus den 294 in Deutschland existierenden Landkreisen nach dem Zufallsprinzip einige auswählen. Innerhalb der ausgewählten Landkreise werden dann alle Krankenhäuser berücksichtigt
Ad-hoc-Stichproben.
Existieren Zusätzlich zu den Zufallsstichproben
diejenigen Merkmalsträger ausgewählt welche zum Zeitpunkt der Datenerhebung verfügbar sind.
keine gute Grundlage, um allgemeingültige Aussagen zutreffen
BSP: Befragungen auf offener Straße, wenn eine Meinungs- bildung zu aktuellen Themen erfolgen soll
Merkmale
Merkmale und Merkmalsausprägungen
Ein Merkmal ist eine interessierende Eigenschaft eines Merkmalsträgers.
Merkmalsausprägung
Eine Merkmalsausprä- gung ist eine mögliche Beobachtung eines Merkmals.
Beste- hen die Merkmalsausprägungen aus Zahlen, so lassen sich weitaus mehr statistische Berechnungen durchführen, als wenn die Ausprägungen durch Wörter beschrieben wer- den.
Skalenniveau
Differenzierung von Skalenniveaus
Das Skalenniveau entscheidet über die möglichen statistischen Analysen.
Nominalskala + Spezialfall
Nominalskala
am wenigsten statistische Auswertungsmöglichkeiten.
Merkmale, deren Ausprägungen Namen oder Kategorien sind,
Kategorien keine sinnvolle Reihenfolge möglich
BSP: Frage danach, welche Stationen einem Krankenhaus zugehörig sind, ist bspw. ein solches nominalskaliertes Merkmal. Die Ausprägungen können bspw. die Onkologie, die Unfallchirurgie oder die Orthopädie sein. = keine sinnvolle Reihenfolge möglich
Spezialfall nominalskalierter Variablen = dichotome Variablen.
genau zwei Ausprägungen.
BSP: Die Frage danach, ob es sich um ein städtisches oder ländliches Kran- kenhaus handelt, ist eine solche dichotome Variable.
Ordinalskala
mehr statistische Auswertungsmöglichkeiten als die Nominalskala, aber weniger als die Kardinalskala.
nächststärkere Skalenniveau
Kategorien sinnvolle Reihenfolge möglich
Wichtig ist aber, dass sich die Abstände zwischen den Ausprägungen mathematisch nicht sinnvoll interpretieren lassen.
BSP: Merkmal zur allgemeinen Zufriedenheit der Patient:innen mit dem Krankenhaus. Nehmen wir einmal an, die Ausprägungen würden „sehr gut“, „gut“, „mittelmäßig“, „schlecht“ und „sehr schlecht“ lauten, so sind es zunächst Kategorien, welche sich zusätzlich sinnvoll sortieren lassen.
Kardinalskala
die meisten statistischen Auswertungsmöglichkei- ten
stärkste Skalenniveau
Ausprägungen, welche Zahlen sind und deren Abstände zueinander ebenfalls Zahlen sind und sich damit mathematisch sinnvoll interpretieren lassen
zwei weitere Unterteilungen
Verhältnisskala weist einen natürlichen Null- punkt auf.
Hat die Null also in allen denkbaren Einheiten ein- und dieselbe Bedeutung
Intervallskala weist keinen natürlichen Null- punkt auf.
Kardinalskala - weitere Unterteilung
Unterteilung der Kardinalskala erfolgt nach der Anzahl an verschiedenen Merkmalsausprägungen in …
diskretes Merkmal
hat nur wenige verschiedene Ausprägungen
stetiges Merkmal
hat sehr viele verschiedene Ausprägungen
Zusammenfassend - Variablenklassifizierung nach Skalenniveaus
Rep: Erklären Sie allgemein, was man unter einem Merkmalsträger, einem Merkmal sowie einzelnen Merkmalsausprägungen versteht.
• Merkmalsträger: statistische Einheit
• Merkmal: zu erhebende Variable
• Merkmalsausprägungen: Werte der zu erhebenden Variable
Ein Merkmalsträger ist eine Person bzw. ein Objekt, über welches man neue Erkenntnisse erzielen möchte. Das, was man an den Merkmalsträgern erhebt, ist ein Merkmal und die entsprechenden Werte, welche das Merkmal annehmen kann, sind die dazugehörigen Merkmalsausprägungen.
Rep: Erläutern Sie anhand eines selbst gewählten Beispiels den Unterschied zwischen der Grundgesamtheit und der Stichprobe
• Grundgesamtheit: sämtliche relevanten Merkmalsträger
• Stichprobe: tatsächlich untersuchte Merkmalsträger
Möchte man bspw. herausfinden, welchen Lernaufwand deutsche Studierende betreiben, dann stellen alle deutschen Studierenden die Grundgesamtheit dar. Diejenigen Studierenden, welche dann tatsächlich hinsichtlich ihres Lernaufwands untersucht werden, bilden die Stichprobe.
Rep: Welches Skalenniveau weisen die folgenden Merkmale auf?
• Geschlecht
• Gewicht
• Postleitzahl
• Lieblingsfarbe
• Schulnoten
• Wohnfläche
Folgende Skalen sind Bestandteil der Lösung: dreimal Nominalskala, zweimal Kardinalskala – Verhältnisskala, einmal Ordinalskala.
• Geschlecht: Nominalskala
• Gewicht: Kardinalskala – Verhältnisskala
• Postleitzahl: Nominalskala (Postleitzahlen sind nur eine Umkodierung von
Orten)
• Lieblingsfarbe: Nominalskala
• Schulnoten: Ordinalskala
• Wohnfläche: Kardinalskala – Verhältnisskala
Rep: Frage 7
Mittel
Geben Sie für die folgenden Merkmale an, ob sie diskret oder stetig sind:
• Geschwindigkeit,
• Hörerzahl einer Vorlesung,
• Zeit für die Beschleunigung,
• Anzahl Bücher,
• Stromverbrauch,
• Anzahl der Mitarbeitenden.
Die Lösung umfasst dreimal „stetig“ und dreimal „diskret“.
• Geschwindigkeit: stetig
• Hörerzahl einer Vorlesung: diskret
• Zeit für die Beschleunigung: stetig
• Anzahl Bücher: diskret
• Stromverbrauch: stetig
• Anzahl der Mitarbeiter: diskret
Rep: Frage 8
Geben Sie für die folgenden Merkmale an, welches Skalenniveau sie jeweils aufweisen:
• Nationalität,
• Temperatur,
• Arbeitsamtsbezirk mit der höchsten Arbeitslosenquote,
• Anfangsgehalt von Absolvent:innen der Wirtschaftswissenschaften,
• Fachbereich wissenschaftlicher Hochschulen,
• gemessene Zeit bei einem Sprint,
• Studiendauer.
Die Lösung umfasst dreimal die Nominalskala, einmal Kardinalskala – Intervallskala, und dreimal Kardinalskala – Verhältnisskala.
• Nationalität: Nominalskala
• Temperatur: Kardinalskala – Intervallskala
• Arbeitsamtsbezirk mit der höchsten Arbeitslosenquote: Nominalskala
• Anfangsgehalt von Absolventen der Wirtschaftswissenschaften: Kardinalskala –
Verhältnisskala
• Fachbereich wissenschaftlicher Hochschulen: Nominalskala
• gemessene Zeit bei einem Sprint: Kardinalskala – Verhältnisskala
• Studiendauer: Kardinalskala – Verhältnisskala
Rep: Frage 9
Schwer
Was ist unter einem natürlichen Nullpunkt zu verstehen?
Natürlicher Nullpunkt: Die Zahl Null hat in jeder erdenklichen Einheit die gleiche Bedeutung.
Ein natürlicher Nullpunkt ist bei verhältnisskalierten Merkmalen vorhanden. Dieser bedeutet, dass die Zahl 0 in allen erdenklichen Einheiten eines Merkmals die gleiche Bedeutung hat. Die Körpergröße in mm, cm oder m hat bspw. einen natürlichen Nullpunkt, denn es gilt: 0 mm = 0 cm = 0 m.
3 Schritte
1.3 Ablauf statistischer Untersuchungen
1. Datensammlung
2. Datenverarbeitung
3. Datenanalyse
zunächst die Daten gesammelt
Primärdaten
Daten zunächst tatsächlich in Form von schriftlichen oder mündlichen Befra- gungen oder aber Experimenten selbst zu sammeln sind
Sekundärdaten
Rückgriff auf bereits vor handene Daten
Querschnittsdesign
Querschnitts- und Längsschnittdesign
je nach zeitlicher Dimension
Untersuchung der Krankenhäuser nur zu einem Zeitpunkt oder innerhalb einer kurzen Zeitspanne (ca. 2 bis 4 Wochen) durchgeführt, so spricht man von einer Untersuchung im
Längsschnittdesign
Situation der Krankenhäuser im Laufe der Zeit verändert
Innerhalb des Längsschnittdesigns unterscheidet man zusätzlich….
Paneldesign.
immer wieder die gleichen Krankenhäuser in die Untersuchung involviert
Vorteil
intraindividuelle Veränderungen über die Zeit hinweg beobachtbar sind. So lässt sich im Beispiel feststellen, wie sich etwa die Auslastung der Intensivbetten über die Zeit hinweg verändert.
Nachteile
dieses Designs sind hingegen sog. Paneleffekte oder Lerneffekte (es werden immer wieder die gleichen Antworten gegeben; im vorliegenden Beispiel eher weniger ein Problem) sowie Panelmortalitäten (im Laufe der Zeit scheiden evtl. einige Krankenhäuser aus unterschied- lichen Gründen aus der Befragung aus)
Trenddesign
werden in regelmäßigen Abständen immer wieder Krankenhäuser bzgl. der obigen Fragestellungen untersucht. Dabei muss es sich nicht zu jedem Zeitpunkt um die gleichen Krankenhäuser handeln.
Studien im Paneldesign den höchsten Informationsgehalt, gefolgt vom Trenddesign und abschließend vom Quer- schnittsdesign
gesammelten Daten mithilfe einer Statistiksoftware wie Excel, SPSS, R, Stata oder vielen weiteren Programmen aufbereitet werden, um sie anschließend statistisch auswerten zu können.
drei Bereiche
deskriptive Statistik
dient zur Beschreibung der gesammelten Daten.
Inferenzstatistik
überprüft die Übertragbarkeit der deskriptiven Ergebnisse auf die Allgemeinheit.
explorative Statistik
erkundet neue, noch wenig erforschte Bereiche.
Rep: Frage 10
Leicht
Nennen Sie kurz die drei Schritte statistischer Untersuchungen.
Datensammlung, Datenaufbereitung, Datenauswertung
Im ersten Schritt werden die Daten gesammelt. Der zweite Schritt beinhaltet die Datenaufbereitung und im dritten Schritt werden die gesammelten und aufbereiteten Daten ausgewertet
Rep: Frage 11
Angenommen Sie führen ein Interview nach Beendigung eines Fußballspiels durch, um das Spiel gemeinsam mit dem Interviewpartner analysieren zu können, handelt es sich dabei um eine Primär- oder Sekundärerhebung? Begründen Sie Ihre Antwort.
Primärerhebung, da direkte Datenerhebung
Da das Interview eine neue Datenerhebung beschreibt und nicht auf vorhandene Daten zurückgegriffen wird, handelt es sich um eine Primärerhebung.
Rep: Frage 12
Erläutern Sie den Unterschied zwischen der deskriptiven Statistik und der Inferenzstatistik.
• deskriptive Statistik: Beschreibung einer Stichprobe
• Inferenzstatistik: Überprüfung, ob sich die Stichprobenergebnisse
verallgemeinern lassen
In der deskriptiven Statistik werden auf Basis von Stichproben Auswertungen durchgeführt. Diese Ergebnisse gelten nur für die untersuchte Stichprobe. Mithilfe der Inferenzstatistik wird schließlich geprüft, ob sich die Stichprobenergebnisse auf die Grundgesamtheit übertragen lassen.
Rep: Frage 13
Warum ist der Schritt der Datenaufbereitung einer der wichtigsten Schritte statistischer Untersuchungen?
Grundlage für die darauffolgenden Analysen
Eine saubere Datenaufbereitung ist deswegen unerlässlich, da die dadurch resultierenden Daten Grundlage für die Datenanalyse bilden. Sind die Daten nicht sauber aufbereitet, sind Fehlschlüsse die Folge
Rep: Frage 14
Warum sind Daten im Paneldesign informativer als Daten im Querschnittsdesign?
Intraindividuelle Unterschiede können über die Zeit hinweg beobachtet werden.
Wenn Daten im Querschnittsdesign vorliegen, bedeutet das, dass für jeden Merkmalsträger einmalig Daten erhoben werden. Im Kontext des Paneldesigns werden für die einzelnen Merkmalsträger wiederholt Daten erhoben. Man kann demnach durch das Paneldesign die Entwicklung eines Merkmalsträgers über die Zeit hinweg beobachten, während man im Querschnittsdesign den Merkmalsträger nur einmalig berücksichtigt
Zuletzt geändertvor 7 Stunden