Nennen Sie für die verschiedenen Skalenniveaus jeweils zwei Beispiele
· Nominal → Lieblingsessen, Religion, Beruf, Telefonnummern
· Ordinal→ Zensuren, Windstärke, Likert-Skala
· Metrisch → Alter, Temperatur, Gewicht, Geschwindigkeit bei Autofahren
Definieren Sie den Begriff Skalenniveau!
Geben an, wie viel und welche Info durch Operatoren rauszuholen sind. je höher das Skalenniveau, desto informativer
Erläutern Sie die unterschiedlichen Skalenniveaus!
· Nominalskala → kein Ordnung möglich, Interpretation nur auf Un-/Gleichheit
· Ordinalskala → Ordnung möglich, Interpretation auf Un-/Gleichheit & Rangfolge
· Metrische Skala → Ordnung möglich, Interpretation auf Un-/Gleichheit & Rangfolge; definierte Abstände zw. Merkmalsausprägungen
Erläutern Sie den Unterschied zwischen deskriptiver und Interferenzstatistik hinsichtlich der Messmethoden.
· Deskriptive Statistik: Beschreibend; Vergleich Interventionsgruppe vs. Kontrollgruppe
· Interferenzstatistik → schließend; mithilfe der deskriptiven Statistik von Stichprobe auf Population schließend
Definieren Sie den Begriff Statistik
· wissenschaftliche Methode
· Datensammlung-/erhebung + Visualisierung + Auswertung
Unterscheiden Sie die Begriffe Grundgesamtheit und Stichprobe
· Grundgesamtheit (Population) → Menge aller potenziellen Untersuchungsobjekte (zeitl./räuml./sachl. abzugrenzen!) → zB alle Masterstudenten MedPäd in Gera 2022
· Stichprobe (n) → beschränkte Auswahl der Grundgesamtheit
Gütekriterien:
Querschnitt der Bevölkerung (Repräsentativität) → zB 1000 Leute befragen, davon 500 Pflegekräfte, dann sollten bei 100 Befragten 50 Pflegekräfte vorhanden sein
Randomisierung (Auswahlverfahren)
Stichprobengröße
Erläutern Sie die Begriffe Merkmalsträger, Merkmal, Merkmalsausprägung
· Merkmalsträger → das Objekt/Subjekt, was das Merkmal trägt; kleinste Einheit, an der Eigenschaften direkt beobachtet werden zB Pflegeperson, Schulklasse
· Merkmal/Variable → Eigenschaften, die an Merkmalsträger erfasst werden zB Alter, Ausbildung, Diagnose
· Merkmalsausprägung →variierende Variablen zw. den Merkmalsträgern, in welchen sich das Merkmal realisiert zB Haarfarbe
Merkmale können hinsichtlich ihrer charakteristischen Eigenschaften nochmals genauer definiert werden. Nennen Sie die verschiedenen Eigenschaften und ordnen Sie jeweils drei passende Beispiele zu.
Was misst Variable?
· qualitative Merkmale: beschreibende Werte zum messen (nicht zahlenmäßig erfassbar) zB Geschlecht, Farbe, Beliebtheit
· quantitative Merkmale: Zahlenwerte durch messen, wägen, Zahlen zB Körpergröße, Gehalt, Gewicht
Ist die Anzahl möglicher Werte endlich oder unendlich?
· diskrete Merkmale: endlich; abzählbar viele Merkmalsausprägungen - Zähldaten zB Geschlecht, Platzierung bei Wettbewerb, Augen beim Würfeln
· stetige Merkmale: unendlich; können jeden beliebigen Wert in einem Bereich annehmen zB Messdaten → Alter, Temperatur, Gewicht
Wie werden die Variablen erfasst?
· latente Merkmale: indirekte Messung durch verschiedene Variablen zB Intelligenz, Konzentration, Zufriedenheit[1]
· manifeste Merkmale: direkte Messung möglich zB Größe durch Maßband, Gewicht durch Waage,
zu messende Variable oder Einflussgröße jener Variablen
· unabhängige Merkmale: Variable ist nicht beeinflussbar zB heiße Temperatur
· abhängige Merkmale: Variable wird durch unabhängige Variable beeinflusst zB Eisverkauf
[1] um dies festzustellen, muss Operationalisiert werden (Merkmale festlegen, die dieses latente Merkmal beschreiben)
Erklären Sie den Mittelwert, Modalwert, Median anhand eines Beispiels
Mittelwert/arithmetrisches Mittel ẍ
· Zusammenfassung großer Datenmengen in ein Überblick → ABER: auch Realitätsverzerrung möglich!
· Berechnung: Summe aller Merkmalswerte (Messwerte)/Gesamtzahl der Fälle
· nur für metrische Skalen geeignet
· empfindlich gegenüber Extremwerten (ein Extremwert kann Durchschnitt stark beeinflussen)
· "Durschnitt" → zB Alters-o. Notendurchschnitt
Modalwert/Modus D
· Wert mit der größten Häufigkeit bzw. häufigste Messwert
· kann nominal skaliert sein (zB Name); stabil gegenüber Extremwerten
· Beispiel: Alter der Studierenden → 24, 27, 31, 75, 26, 27, 32 → Modalwert = D = 27
Median (Zentralwert, Z/Mittelpunkt)
· mittlere Beobachtungswert, der die geordnete Rangreihe halbiert (50% über/unter Median)
· mindestens ordinal skaliert
· stabil gegenüber Extremwerten (mit Formel berechne ich nur Position, die in Mitte liegt; nur abhängig von Anzahl der Werten, nicht von der Ausprägung)
Erläutern Sie den Begriff Streuungsmaße in der deskriptiven Statistik. Warum sind Sie wichtig in der Statistik?
· Maßzahlen, zur Beschreibung der Variabilität der Messwerte, der Form oder der Breite einer Reihe von Messwerten
· Um die Verteilung der Datenwerte besser ablesen zu können
Nennen und erläutern Sie zwei Streuungsmaße
· Spannweite/Variationsbreite
Abstand zwischen höchstem und niedrigstem Wert V = xmax - xmin
v.a. bei metrischen Daten (da Differenz berechnet wird); anfällig bei Extremwerten
· Interquartilsabstände (IQR) → repräsentieren die mittleren 50% um den Median
· Standardabweichung (SD, s, σ)
beschreibt durchschnittliche Streuung/Abweichung um Mittelwert → zeigt wie weit die Werte von Mittelwert abweichen
anfällig für Extremwerte (da ja mit Mittelwert gerechnet wird)
nur für metrische Zahlen möglich!
hoher Infogehalt: wenn SD klein ist & Normalverteilung vorhanden sehr wichtiger Wert, v.a. zum Vergleich von 2 Datensätzen!
einfache Standardabweichung: 68,3%
Beschreiben Sie einen Boxplot und geben Sie an, welche statistischen Maße Sie dort ablesen können.
· Box- Plot → aus Quartilen & Spannweite kann "Box-Whisker-Plot" erstellt werden → ist eine grafische Darstellung
· Vmin, Vmax, Median, oberes und unteres Quartil, Spannweite zwischen diesen Werten, IQR
Erklären Sie den Begriff Standardabweichung. Welcher Zusammenhang besteht zwischen der Standardabweichung und der Varianz?
Standardabweichung (SD, s, σ)
einfache Standardabweichung: 68,3% der Werte liegen im Intervall μσ → diese 68,3% liegen um den Mittelwert
Voraussetzung hierfür ist Berechnung der Varianz (s2) = quadrierte Standardabweichung
→ mit steigender Anzahl an Werten, steigt auch Varianz
→ um SD daraus zu errechnen, muss man Wurzel daraus ziehen
Die Normalverteilung hat eine besondere Bedeutung in der Statistik. Erläutern Sie den Begriff und erklären Sie für welche Werte die Normalverteilung besonders wichtig ist.
· Werte liegen immer in einer symetrischen, glockenförmigen Verteilung vor = Gaußsche Glocke
· in Mitte ist arrythmetisches Mittel & Abweichungen zum Minimum/Maximum sind gleich verteilt
· Bedeutung: je mehr Datenwerte, desto eher komme ich an die "natürliche" Normalverteilung (bessere Repräsentativität, große Stichprobengröße..)
Wenn Datensatz sehr heterogen ist, eher keine Normalverteilung vorliegt, gegen welchen Wert entscheide ich mich?
· gegen arrythmetisches Mittel → sehr empfindlich gegenüber Extremwerte
· besser Median, Modus
Definieren Sie den Begriff Korrelation!
=statistischer Zusammenhang zwischen mindestens 2 Variablen
Welche Form, Richtung, Stärke kann die Korrelation haben?
Form: linear, nicht linear Stärke: leicht, mittel, stark/ kein Zusammenhang bis sehr starker Z. Richtung: positiv, negativ
Bedeutet eine Korrelation auch automatisch, dass ein kausaler Zusammenhang besteht?
· Korrelation ist nicht mit Kausalität (Ursache-Wirkungsbeziehung) gleichzusetzen (Korrelation: Variablen entwickeln sich ähnlich, aber hier viele verschiedene Faktoren, die da mit einbezogen sind (Störvariablen nicht berücksichtigt zB Korrelationsstudie mit Störchen und gesteigerte Geburtenrate → keine wirkliche Ursache-Wirkung zu erkennen)
· aber: Korrelation ist Voraussetzung für Ursache-Wirkungsbeziehung zw. 2 Variablen (bei Kausalität: hier werden Störvariablen ausgeschaltet zB Rauchen-Lungenkrebsrisiko (hier Störvariablen zB Medikamente, Beruf usw..)
Erklären Sie, welche Hinweise der Korrelationskoeffizient r für die Einschätzung der Korrelation liefern kann
· Pearson r, nur bei metrischen Daten, immer linear → zur Objektivierung des Zusammenhangs
· Werte -1 bis + 1 Vorzeichen: Richtung des Zusammenhangs (positiv, negativ) Betrag: Stärke des Zusammenhangs (-1/+1 perfekter Zusammenhang, 0 kein Zusammenhang)
Erklären Sie den Begriff Regression!
= basiert auf Korrelation und ermöglicht bestmögliche Voraussage für eine Variable auf Basis einer anderen Variable (Prognose) =Schätzfehler werden in Kauf genommen
Was ist das Besondere an der Regressionsgeraden im Vergleich zur Korrelation?
bei Korrelation denkt man sich die Gerade, bei der Regression wird diese berechnet (jedem Punkt x wird einen Punkt auf y zugeordnet)
Wie werden die Variablen bei der Regression genannt? Erläutern Sie dies an einem Beispiel
· vorhersagende (unabhängige) Variable X → Prädiktor (Temperatur)
· vorhergesagte Variable (abhängige) Y → Kriterium (Eisverkauf)
→ das Kriterium Y wird durch Prädiktor X vorhergesagt (zB bei steigender Temperatur, steigt der Eisverkauf)
Benennen und erläutern je die unterschiedlichen Arten der Regression. Unterscheiden Sie die Arten der Regression anhand von Beispielen.
· multiple Regression → mehrere Prädiktoren und ein Kriterium→ mehrere Variablen versuchen eine gemeinsame Zielvariable vorauszusagen zB verschiedene Lernfaktoren (Lernzeit, Vorwissen…) können die Note voraussagen
· logistische Regression → Kriterium hat nur 2 Ausprägungen (binär, d.h. 0 der 1) → Note ist uninteressant, sondern nur bestanden oder nicht bestanden
In einer Studie wurde der Eisverkauf zu bestimmten Temperaturen erfasst. Der Korrelationskoeffizient beträgt r=0,65. In der Regression wurden folgende Werte berechnet. F = 7,3; R2=0,4225. Interpretieren Sie die Werte aus der Korrelation und Regression und erläutern Sie, was das für die unabhängige Variable bedeutet.
· abhängige Variable: Eisverkauf; unabhängige Variable: Temperatur
· starker, positiver, linearer Zusammenhang → r= 0,65, d.h. bei steigender Temperatur steigt Eisverkauf
· F>1 → gutes Modell
· R2=0,4225 → in etwa 42% der Fälle, ist die Temperatur für die Varianz des Eisverkauf verantwortlich
In einer weiteren Studie wurden die Schüler zu ihrer Konzentrationsleistung zu bestimmten Tageszeiten untersucht. Die Korrelation ergab einen Koeffizienten r=0,71. Die Regression ergab in der F-Statistik einen Wert F=3,1. Berechnen Sie R2 und werten Sie anschließend die Werte aus. Welche Schlussfolgerung ziehen Sie aus den Werten?
· unabhängige Variable: Tageszeit; abhängige Variable: Konzentrationsleistung
· r=0,71 → starker, positiver, linearer Zusammenhang
· R2 = 0,50, d.h. in 50% der Fälle ist die Tageszeit für die Varianz der Konzentrationsleistung verantwortlich
Beschreiben Sie die Funktion des Konfidenzintervalls!
· Erwartungsbereich; gibt uns ein Intervall vor, in dem der vermutetete Mittelwert mit einer bestimmten Wahrscheinlichen zB 95% liegt
Beschreiben Sie den Unterschied der Interferenzstatistik zur deskriptiven Statistik!
· deskriptiv beschreibt nur die Stichprobe; Interferenzstatistik basiert darauf und schließt auf gesamte Population
Von welchen Faktoren ist das Konfidenzintervall abhängig?
· Stichprobengröße (desto größer Stichprobe, desto kleiner das Intervall)
· gewünschte Sicherheit der Aussage (desto sicherer, desto größer das Intervall)
· Streuung der Werte um die Stichprobe (umso kleiner Streuung, desto kleiner Intervall)
Beschreiben Sie den Unterschied zwischen Kennwerten und Parametern im Bereich der Interferenzstatistik! Je zwei Beispiele!
· Kennwerte: statistische Werte, die ich aus der Stichprobe zurückbekomme (aus deskriptiven Statistik) zB x (Mittelwert), Ϭ2
Parameter: Kennwerte der Grundgesamtheit bzw. Population zB μ (Mü), s2(Varianz)
Erläutern Sie den Begriff Erwartungstreue!
· für den Mittelwert bedeutet, ich übernehme eins zu eins von der Population den MW; wenn ich unendlich viele Stichproben aus meiner Population ziehe, bekomme ich unendlich viele Mittelwerte → wenn ich die nach ihrer Häufigkeit sortiere (Funktion einer Normalverteilungskurve), wird sich dieses auch wieder normal verteilt darstellen (spiegelt Population wieder)
· es wird ein Wert für die Genauigkeit der Schätzung benötigt
· abhängig von: Stichprobengröße, Streuung des Merkmals, Typ des Kennwerts[1], Stichprobenart (nur Zufallsstichproben)
[1] Mittelewert geht, Varianz nicht
Warum ist Mittelwert Erwartungstreu und Varianz nicht?
· wenn ich eine Stichprobe aus einer Population ziehe, dann werde ich auch nur ein Teil der Varianz/Streuung untersuchen - deshalb muss ich die Varianz korrigieren (ich muss davon ausgehen, dass noch extremere Werte vorhanden sind)
Erläutern Sie die wesentlichen Unterschiede zwischen dem Verfahren der Punktschätzung und Intervallschätzung!
· Punktschätzung schätzt möglichst genau den exakten Näherungswert für gesuchten Parameter aus der Grundgesamtheit unter Beachtung Standardfehler
· KI gibt nur einen Bereich an, in dem dieser Wert liegen könnte (Berechnung orientiert sich ja an Punktschätzung (nämlich an Mittelwert) und Sicherheitsfaktor wäre der Standardfehler in der Formel)
Beschreiben Sie den Begriff Standardfehler bzw. Standardschätzfehler!
· Bestimmung der Schätzgenauigkeit; je niedriger Standardschätzfehler, umso sicherer die Schätzung
· "Sicherheitsfaktor" für Punktschätzung, Intervallschätzung
· abhängig von: Stichprobengröße, …?
Bei bestimmten Parametern muss eine sog. Korrektur in der Berechnung vorgenommen werden. Nennen Sie Ihnen bekannte Werte und beschreiben Sie die Notwendigkeit dieser Korrektur.
· bei der Varianz, da diese nicht erwartungstreu ist
Es wurden 250 Mitarbeiter eines Krankenhauses nach der durchschnittlichen Arbeitsstunden/Woche befragt. Der Mittelwert aller Befragten liegt bei x= 46,3 h. Die Varianz s2=3,1 h.
1. Berechnen Sie den Schätzfehler des Mittelwertes für die Population.
2. Berechnen Sie den Konfidenzintervall für eine Sicherheit von 90, 95 und 99%.
3. Vergleiche Die Ergebnisse der verschiedenen Konfidenzintervalle.
4. Wähle ein Ergebnis des KI aus und stelle es anschließend mit dem Standardschätzfehler aus der Punktschätzung gegenüber.
gegeben: N=250 Mitarbeiter; x=46,3; s2=3,1
1. Schätzfehler des Mittelwertes Varianzkorrektur: s2 * n/(n-1) = 3,1 Standardfehler des Mittelwerts berechnen (Wurzel aus 3,1/250) → Ϭ = 0,111 Antwortsatz: Im Durchschnitt arbeiten die Mitarbeiter 46,3 h. Es wird sich bei dieser Annahme um +/- 0,111 h verschätzt.
2. Konfidenzintervall gegeben: x=46,3, Ϭ = 0,111, Z=siehe Abb. KI 95= 46,3 + 1,96*0,111 =46,5 KI 95 =46,3 - 1,96*0,111 = 46,083
KI 95 [46,08; 46,52] KI 90 [46,11; 46,48] KI 99 [46,02; 46,58]
3. Vergleich: KI ist umso größer, desto höher die Sicherheit ist; Werte liegen trotzdem nah beieinander ( weil Varianz so gering)
4. Gegenüberstellung KI und Standardschätzfehler ?? KI 99 [46,83; 46,02] & Standardschätzfehler Ϭ = 0,111
Unterscheide Begriffe diskrete und stetige Wahrscheinlichkeitsverteilung
· diskret: abzählbar viele Möglichkeiten, die sich auf Merkmalsausprägungen verteilen (zB Münzwurf Kopf, Zahl; Würfeln bis zur ersten 6) → in Summe ergibt das 100%
· stetig: unendlich viele Merkmalsausprägungen (zB Verteilung der Körpergrößen in DE (jede beliebige Größe möglich)
Erläuter den Begriff Standardnormalverteilung. Welchen Nutzen hat sie für die Interferenzstatistik? (nicht prüfungsrelevant)
· besondere Form der Normalverteilung; liegt vor, wenn der Mittelwert 0 und die Standardabweichung σ = 1 ist
· somit kann ich sagen, dass zB bei einfacher Standardabweichung 68,3% der Daten in diesem Bereich liegen
Beispiel Nutzen:Stell dir vor, dir liegt eine Normalverteilung von Schuhgrößen vor. Anhand dieser Normalverteilung möchtest du die Wahrscheinlichkeit für eine bestimmte Schuhgröße berechnen. Dafür wandelst du die Normalverteilung zunächst in die Standardnormalverteilung um. Nun kannst du in der Wahrscheinlichkeitstabelle der Standardnormalverteilung mit dem z Wert die Wahrscheinlichkeit für eine bestimmte Schuhgröße ablesen.
Zuletzt geändertvor 2 Jahren