Quantitative Daten
i.d.R. numerisches Datenmateral zur Bezeichnung und Beurteilung von Sachverhalten, die sich messen oder zählen lassen
z.B.
Messdaten = Zahlendaten, Maße, Länge, Abstände, Entfernungen..
Zähldaten = Häufigkeiten…
Übersicht über quantitative Studienarten
Deskriptive Statistik
= beschreibende Statistik
stellt numerische Stichprobendaten zusammenfassend in Form von Stichprobenwerten dar
Inferenzstatistik
= schließende Statistik
schließt auf der Basis von Stichprobendaten auf Populationseffekte
Explorative Studie
dient der Bildung von Hypothesen
Deskriptive Statistik in explorativen Studien
Stichprobenbeschreibung
spezielle Techniken der Deskriptivstatistik: explorative Datenanalyse und Data-Mining zur Identifikation von Effekten in Datensätzen mit sehr vielen Variablen
Inferenzstatistik in explorativen Studien
Beantwortung der Foschungsfrage mit
Visualisierungstechniken,
explorativen multivariaten Verfahren und
teilweise auch mit statistischen Signifikanztests (haben dann aber nicht den Status der Hypothesenprüfung)
Deskriptive Studie
dient der Beschreibung von Populationen
Deskriptive Statistik in Deskriptiven Studien
Inferenzstatistik in deskriptiven Studien
PArameterschätzung für die laut Forschungsproblem interessierenden Variablen mittels Verfahren
der Punktschätzung u/o
der Intervallschätzung (Konfidenzintervall)
Explantive Studie
dient der Prüfung von Hypothesen
Deskriptivstatistik in explantiven Studien
Ergänzende deskriptive Darstellung der Stichprobenkennwerte zu den in den Hypothesen geprüften Effekten
Inferenzstatistik in explantiven Studien
Hypothesenprüfung gemäß der zum Forschungsproblem formulierten
Unterschiedshypothesen
Zusammenhangshypothesen
Veränderungshypothesen
Einzelfallhypothesen
wobei unterschiedliche Inferenzstatistische Ansätze zur Verfügung stehen
Arbeitsschritte bei der Auswertung quantitativer Studien
Datenbereinigung [im Normalfall schon vorher passiert]
Dateninspektion und deskriptiv-statistische Analysen
Inferenzstatistische Analysen
Inhaltliche Interpretation der statistischen Ergebnisse
jede Stichprobe sollte anhand ihres zentralen soziodemografischen Merkmals mithilfe von deskriptiven Verfahren beschrieben werden
-> z.B. Angaben zur Häufigkeit, Mittelwerden und Streuungen hinsichtlich Geschlecht, Alter, Beruf, Bildung…
vor der Durchführung komplexer Analysen sollte man sich zunächst in einer Dateninspektion die Daten im Detail ansehen, um bei Unklarheiten (Fehlern) die Analyse nicht umsonst durchgeführt zu haben
Bei deskriptiven Studien stehen inferenzstatistische Verfahren der Parameterschätzung im Mittelpunkt
Bei explantiven Studien wird vorrangig ein klassischer Signifikanztest durchgeführt (bei Vollanalysen rausgelassen weil man ja alle Zahlen hat)
Alle relevanten deskriptiv- und inferenzstatistischen Ergbenisse sind mit Bezug zum Forschungsproblem bzw. den einzelnen Forschungsfragen und Forschungshypothesen zu interpretieren
-> zur Interpretation gehören auch Empfehlungen für aussagekräftige Anschlusstsudien sowie Handlungsempfehlungen.
Deskriptive Statistik: Univariate Datenanalyse
Stichprobenbeschreibung - Kategorisierung der Variablen durch…
Anzahl der Ausprägungen
Skalenniveau
Ausprägung der Merkmale
Diskrete Variable
Stetige Variable
Quasi-Stetige Variable
Die Menge der angenommenen Werte ist abzählbar (z.B. Schulnoten)
Die Menge der angenommenen Werte ist nicht abzählbar (z.B. Größe in cm)
Quasi-stetige Variable
Die Menge der angenmmenen Werte ist nur aufgrund des Messgerätes abzählbar (z.B. Währungen)
Nominalskaliertes Merkmal
Ordinalskaliertes Merkmal
Intervallskaliertes Merkmal
Verhältnisskaliertes Merkmal
Ausprägungen sind Namen/Kategorien, die nicht in eine Ordnung gebracht werden können (z.B. Geschlecht, Haarfarbe)
Ordnung kann hergestellt werden (z.B. Schulnoten, Windstärken)
Ordnung ist linear und die Differenz zwischen den Ausprägungen einheitlich (z.B. Temperatur in Celsius)
Quotienten der Ausprägung können inhaltlich interpretiert werden (auch kardinalskaliert/metrisch)
(z.B. aktueller Wert eine Währung)
Ausprägung von Merkmalen
Quantitative Merkmale
Qualitattive Merkmale
sind messbar - Zahlen, Alter, Einkommen
Qualitative Merkmale
sind nicht messbar - Zustände, Geschlecht, Familienstand, Schulnoten (hat eine numerische Zuordnung, beschreibt aber einen Zustand)
Dateninspektion
-> Überblick verschaffen über die Ergebnisse der Studie;
gesamter Datensatz wird ausgezählt,
Häufigkeiten und Merkmalsausprägungen der Variablen werden erstellt, auch wenn man am Ende nur einen Teil davon braucht
Absolute Häufigkeit
Verteilung der Antworten in Nennungen, also absolte Zahlen
Relative Häufigkeit
Verteilung der Antworten in Prozent
Gültige Prozentwerte
Fallzahl der Antwortoption geteilt durch die Anzahl der gültigen Fälle (ohne fehlende Werte)
Kumulierte Häufigkeitsverteilung
Am Ende muss 100% rauskommen!
n
Gesamtzahl
fehlende Werte werden auch mit reingenommen!
Bildung von Kategorien
-> bei Variablen mit sehr hohen Ausprägungen
Variablenwerte werden systematisch gruppiert und zusammengefasst
Anzahl der gebildeten Kategorien richtet sich nach gewünschter Detailgenauigkeit
Bilden von Kategorien mit gleicher Breite
Variationsbreite als Differenz aus größtem und kleinten Wert ermitteln
durch gewünschte Anzahl an Kategorien dividieren
= Kategorienbreite (= Differenz zwischen Minimum und Maximum einer Kategorie)
Dabei muss beachtet werden
Anzahl der Kategorien sollte eine Differenzierung ermöglichen, aber andererseits nicht zu groß sein
Die Kategorien sollten möglichst die gleiche Breite haben
Alle Kategorien sollten zumindest eine gewisse Anzahl an Fällen aufweisen
“Natürliche” Stellenwerte sollten berücksichtigt werden
Kategorienbildung sollte möglichst unabhängig von Ausreißerwerten sein
die Grenzen der Kategorien sollten plausibel und gut kommunizierbar sein
Skalenniveau / Messniveau
Eigenschaft von Merkmalen bzw. Variablen
bestimmt…
die möglichen mathematischen Operationen, die bei einer Variable mit diesem Skalenniveau erlaubt sind
-> dabei gilt: eine mathematische Operation ist immer auch auf einem höheren Skalenniveau durchführbar/berechenbar, andersherum nicht
Die Transformationen, die mit entsprechend skalierten Variablen ohne Informationsverlust durchgeführt werden können
Welche Informationen aus dem relevanten Material herausgezogen werden können bzw. überhaupt zulässig sind
Stufen der Skalierbarkeit
-> von niedrig zu hoch
Nominalskala
Ordinalskala
Intervallskala
Verhältnis/Absolutskala
beinhaltet die Möglichkeit zur Kategorisierung
keine Berechnungen sind möglich
es gibt keine Hierarchien, Reihenfolge ist irrelevant
es können Häufigkeiten und Modalwerte gebildet werden
zwei mögliche Aussagen:
Gleichheit
Verschiedenheit
z.B. Telefonnummer, Krankheitsklassifikation
leistet eine Einordnung der Werte in einer Rangfolge
macht Aussagen über Größenrelationen, aber keine Aussagen über Größenunterschiede
es gibt keinen absoluten Nullpunkt und Zahlenwerte haben unterschiedlichste Distanzen zueinander, daher sind die Abstände nicht interpretierbar
es kann der Meridian (Mittelwert) berechnet werden und Werte in Perzentilen angegeben werden
zusätzliche Ausagen: Größer/kleiner
z.B. Militärische Ränge, Schulnoten
metrische Skala, bei der die Abstände zwischen den Werten identisch sind (Intervalle), aber aufgrund des fehlenden echten (natürlichen) Nullpunkts nicht in ein Verhältnis gesetzt werden können
Gleichheit der Differenzen / Differenzen werden interpretiert
z.B. Temperatur in Celsius, Kalenderzeit
Verhältnis- bzw. Absolutskala
metrische Skala, bei der der die Abstände zwischen den Werten auf der Skala identisch sind und aufgrund des echten Nullpunkts ins Verhältnis gesetzt werden können
Gleichheit der Verhältnisse, können deshalb interpretiert werden
z.B. 5 Gramm sind halb so viel wie 10 Gramm, Längenmessung, Einkommen
statistische Maßzahlen
bei der Durchführung univariater Analysen spielen statistische Maßzahlen eine sehr bedeutende Rolle.
-> Mit ihnen kann die Vielzahl von Informationen, die in einem Datensatz steckt, reduziert und verdichetet werden
-> immer wieder Informationsverlust, aber durch schnellere und bessere Vergleichbarkeit sinnvoll!
Maße der zentralen Tendenz
= statistischer Kennwert, beschreibt die allgemeine Niveaulage der Grundgesamtheit in Bezug auf den zu analysierenden Wert#
Arithmethisches Mittel
Median
Modus/Modalwert
Arithmetisches Mittel
Mittelwert bei Merkmalen mit Intervall- und Ratioskala (Verhältnis)
wird berechnet, indem man die Summe aller gültigen Werte teilt
ist nur bei intervall- oder verhältisskalierten Merkmalen anwendbar (z.B. Durchschnittsgewicht; Durchschnittshaarfarbe macht keinen Sinn)
Mittelwert bei Merkmalen mit Ordinalskala
Ziel: Merkmalsausprägungen in möglichst gleich große Hälften aufteilen - die eine Hälte überschreitet den Wert, die andere Hälfte unterschreitet ihn
ist nicht vom Extremwert beeinflusst (siehe Bsp. 2)
Bsp 1: Zahlenstrahl mit 11 Werten:
0 1 1 2 2 4 4 6 9 13 17 -> Median ist der sechste Wert (4)
Bsp 2: Zahlenstrahl mit 12 Werten:
0 1 1 2 2 3 4 4 6 9 13 1763 -> Median liegt zwischen den beiden Mittelwerten, also bei 3,5 (muss nicht selbst auf dem Zahlenstrahl enthalten sein)
bezeichnet den Mittelwert bei Merkmalen mit Nominalskala
es lässt sich kein Mittelwert berechnen, der Modus ist die Merkmalsausprägung, die am häufigsten auftritt
wenn es zwei gibt, die gleich häufig auftreten, kann es auch zwei Modi geben
Disperationsmaße
geben Auskunft über die Unterschiedlichkeit der Werte
-> Werte können sehr unterschiedlich sein, auch wenn die Maßde der zentralen Tendenz stark ähneln, wenn die Streuung (Dispersion) unterschiedlich ist
Variationsbreite (range)
Quantile oder Perzentile
Empirische Varianz s^2
Standardabweichung
= bezeichnet den Gesamtbereich aller Messwerte
wird berechnet, indem man den kleinsten Wert vom größten Wert abzieht
bezeichnet den Wert in einer Verteilung, der die Verteilung in bestimmte Gruppen einteilt
z.B. die Besten 50%, die schlechtesten 25 %
gibt an, welcher Anteil der untersuchten Elemente maximal einen bestimmten Wert hat
das am häufigsten verwendete Perzentil ist der Median (P50)
andere häufig verwendete Perzentile sind P25 und P75, also Viertel -> Quantile
z.B. Größen- oder Gewichtsperzentile
empirische Varianz s^2
= durchschnittliche quadratische Abweichung vom arithmethischen Mittel
Summe der quadrierten Abweichungen vom Mittelwert
wird 0, wenn sich alle quadrierten Differenzen gegenseitig aufheben, was nur dann möglich ist, wenn alle Merkmalswerte identisch sind, es also keine Streuung gibt (nur selten, außer man hat nur einen Wert
schwer interpretierbar - wenn man die Wurzel zieht, erhält man einen interpretierbaren Wert (Standardabweichung)
= die Wurzel aus der empirischen Varianz
man hat damit kein Flächenmaß mehr sondern einen interpretierbaren Wert
z.B.: das arithmetische Mittel einer Altersverteilung liegt bei 20,95 Jahren, dann ergäbe sich eine empirische Varianz von 2,8475^2 (sinnloser Wert) -> empirische Standradabweichung liegt bei 1,69 Jahre, ist interpretierbar!
Schiefe von Verteilungen
Eingipflige, symmetrische Verteilung
arithmetisches Mittel, Median und Modalwert stimmen immer überein
mehrgipflige, symmetrische Verteilung
arithmetisches Mittel und Median stimmen überein, es kann jedoch mehrere Modi geben -> bimodale Verteilung
Schiefe Verteilung - Linkssteil
z.B. Vermögensverhältnisse - wenige Menschen mit sehr hohem Einkommen vs. viele Menschen mit sehr niedrigem Einkommen
Schiefe Verteilung - rechtssteil
z.B. Sprint mit einer Person, die deutlich schneller ist als die anderen
Schiefe Verteilung - symmetrisch
Deskriptive Statistik: Bivariate Datenanalyse
Kreuztabelle: Abhängige und unabhängige Variablen
= geordnete Darstellung von Werten
-> die abhängige Variabel wird immer von der unabhängigen Variabel erklärt
z.B. Medikamentenstudie
-> unabhängiges Merkmal: medikamentöse Behandlung mit Ausprägung Placebo (1) oder Medikament (2)
-> abhängiges Merkmal: auftreten von Schmerzen mit keine Schmerzen (1) und Schmerzen (2)
4 Zusammenhänge
Unabhängiges Merkmal vorhanden - abhängiges Merkmal vorhanden (Medikament + Verbesserung)
Unabhängiges Merkmal vorhanden - abhängiges nicht Merkmal vorhanden (Medikament + keine Verbesserung)
Unabhängiges Merkmal nicht vorhanden - abhängiges Merkmal vorhanden (Placebo + Verbesserung)
Unabhängiges Merkmal nicht vorhanden - abhängiges nicht Merkmal vorhanden (Placebo + keine Verbesserung)
Randhäufigkeiten
Die Häufigkeit einer Ausprägung eines Mermals im Bezug auf die gesamte Messung
Statistische Tests
Chi-Quadrat-Test
= Signifikanztest für Häufigkeitstabellen zum Feststellen der Häufigkeitsunterschiede im Auftreten bestimmter Merkmalsausprägungen
nutzt die x^2 Verteilung als Prüfgröße
unterteilt man in ein- und zweidimensionale Chi-Quadrat-Tests
-> beim zweidimensionalen werden zwei normalskalierte Merkmale gleichzeitig untersucht
berechnen
empirisch beobachtete Häufigkeiten werden mit der gemäß der Hypothese erwarteten Häufigkeiten verglichen, aus den Abweichungen wird die Prüfgröße x^2 berechnet, deren empirischer Wert an der x^2 Verteilung auf Signifikanz getestet wird
signifikanter Unterschied
können die Unterschiede auf Zufall beruhen wie z.B. Messfehler, Verzerrung in der Stichprobe etc.?
-> wenn nein, ist der Unterschied signifikant und muss interpretiert werden
Korrelationsanalysen
= Messung von wechselseitigen Zusammenhängen, geben Auskunft über den Grad des Zusammenhangs
-> Bei zwei Variablen gibt es wie viele Möglichkeiten der Kausalbeziehung?
mindestens 3 Möglichkeiten:
A bewirkt B
B bewirkt A
A und B werden durch C bewirkt
Korrelationskoeffizient
= Stärke der Beziehung zwischen den Variablen
Pearson-Korrelationskoeffizient
Produkt-Moment-Korrelation
Voraussetzung: Normalverteilung und linearer Zusammenhang zwischen Variablen
kann alle Werte zwischen -1 und +1 annehmen:
0 = kein Zusammenhang
-1 starker negativer Zusammenhang
+1 starker positiver Zusammenhang
Spearman Korrelation
-> bezieht sich auf Ränge der Daten
Variablen sind nicht normalverteilt und oder haben keinen linearen Zusammenhang
Korrelationskoeffizient Kendalls Tau
vielseitiger als Spearman-Korrelation, weil alle Wertepaare untereinander verglichen werden und nicht nur zwei Werte eines jeden Paares
-> kann auf beliebig viele Paare angewandt werden
-> anstatt der quadrierten Rangdifferenzen werden die Fehlordnungen der Paare untereinander ausgewertet
Partielle Korrelation
Wert für die Stärle des Zusammenhangs zweier Variablen unter Herausberechnung einer dritten Variable
-> Werte scheinen zu korrelieren, allerdings aufgrund einer anderen Variable
Diskrete Wahrscheinlichkeitsverteilung
> Relative Häufigkeit (relativiert an allen Versuchspersonen) wird dargestellt
gibt Wahrscheinlichkeiten an (im Beispiel: mit der sich an eine bestimmte Anzahl an Adjektiven erinnert wurde)
allen Werte auf der x-Achse ist eine bestimmte Wahrscheinlichkeit auf der y-Achse zugeordnet
Alle drei Maße der mittleren Tendenz liegen relativ nah beieinander
Kontinuierliche Wahrscheinlichkeitsverteilung
> ist kontinuierlich und stetig, lässt die beliebig genaue Berechnung des abgetragenen Wertes zu
auf der x-Achse stehen unendlich viele Zahlen mit unendlich vielen Nachkommastellen, es entsteht eine kontinuierliche Kurve
Werte auf der x-Achse liegen so nah beieinander, dass einem einzelnen Wert keine Wahscheinlichkeit zugeordnet werden kann
Normalverteilung
Basis aller Überlegungen der Inferenz- und Teststatistik
glockenförmige, unimodale, eingipflige Verteilung, sie symmetrisch ist und sich der x-Achse asymptotisch nähert - alle drei Mittelwerte sind gleich
Durch ihr arithmetisches Mittel (my) und ihre Streuung (sigma)
der Flächeninhalt unter der Kurve der Normalverteilung ist immer 1
Um die Wahrscheinlichkeit, dass ein Wert x zwischen zwei Werten y liegt, zu berechenen, berechnet man den Flächeninhalt unter der Kurve für den entsprechenden Bereich
Standardnormalverteilung
= liegt vor, wenn der Modus (Hochpunkt) bei 0, die Wendepunkte bei +1 und -1 liegen und die Streuung (sigma) 1 beträgt.
Jede Normalverteilung kann durch eine z-Transformation in eine Standardnormalverteilung umgewandelt werden
damit können die z-Werte (standardisierte Werte aus der z-Transformation) direkt als Standardabweichung vom Mittelwert interpretiert werden, weswegen sie auch auf der x-Achse abgetragen sind, was wiederum bedeutet, dass ein z-Wert von genau 2,5 genau 2,5 Standardabweichungen vom Mittelwert entfernt liegt
Populationsparameter
= tatsächliche verteilung in der Grundgesamtheit
-> werden ermittelt, indem mithilfe von Inferenzstatistik auf die Grundgesamtheit geschlissen wird
! geht nur, wenn die Grundgesamtheit repräsentativ ist
Stichprobenkennwerteverteilung
die Mittelwertverteilung aller (unendlich vieler) Stichprobenwerte
Erwartungswert
Mittelwert der Stichprobenkennwerteverteilung
= entspricht dem Populationsmittelwert
Standardfehler des Mittelwerts
Die Streuung der Stichprobenwerteverteilung
zum Einschätzen der Genauigkeit des Populationsmittelwerts
Größe hängt ab von
der Streuung der Messwerte in der Population (je größer die Streuung desto größer der Fehler)
der Stichprobengröße (je größer die Probe, desto genauer die Schätzung)
Vertrauens-/Konfidenzintervall
Maß der Genauigkeit, mit der der wahre Wert aus der Population mit dem Stichprobenkennwert geschätzt wird
mit einer Wahrscheinlichkeit von 68,26% liegt der wahre Populationswert zwischen +-1 Standardfehler
in der Praxis wird ein Konfidenzintervall von 99% oder 95% bestimmt, indem auf beiden Seiten der Verteilung jeweils 2,5 bzw. 0,5% abgeschnitten werden
Regressionsanalyse
-> um bestimmte Variablen in Abhängigkeit von anderen Variablen vorauszusagen
erklärt Zusammenhänge zwischen abhängigen (Regressand) und unabhängigen (Regressor) Variablen bzw. bietet die Möglichkeit, unbekannte Werte der abhängigen Variabel zu schätzen (=Prognose)
setzt ein metrisches Skalenniveau für alle Variablen voraus
-> Ziel: Regressionsgleichung berechenen/schätzen: B=f(A)
Regressionsanaylse
Welche Fragestellungen können beantwortet werden?
Zeitreihenanalyse
Wirkungsprognose
Ursachenanalyse
Wie verändert sich die abhängige Variable im Zeitverlauf?
Wie verändert sich die abhängige Variabel wenn sich die unabhängige verändert?
Wie stark ist der EInfluss der unabhängigen auf die abhängige Variable?
Regressionsgerade
Gerade durch die Datenpunkte, bei der die Residuen minimal sind
-> um die Gerade zu finden, wird das Verfahren der kleinsten Quadrate verwendet: Quadrierung, Summierung und Minimierung der Residuen aller Datenpunkte, wodurch größere Abstände stärker gewichtet werden und sich positive und negative Abstände nicht aufheben
zur Schätzung der Stärke des linearen Zusammenhangs anhand der Daten
Residuum
Abstand des Datenpunktes zur Regressionsgerade
Bestimmtheitsmaß R^2
gibt an, wie gut das Modell durch die Regressionsgerade erklärt wird
Verhältnis der erklärten Varianz zur Gesamtvarianz
Wertebereich = 0 - +1
0 = keine Varianz der Daten wird durch das Modell erklärt
1 = alle Varianz der Daten wird durch das Modell erklärt
Inwieweit das Ergebnis sich auf die Grundgesamtheit prüfen lässt, findet man mithilfe des F-Werts und der F-Verteilung raus
Inferenzstatistik: Hypothesentests
-> werden immer dann durchgeführt, wenn man empirische Daten erhoben hat und etwas nachweisen muss bzw. widerlegen möchte
-> Grundsatz: Das Gegenteil muss widerlegt werden!
Beispiel: “unschuldig im Zweifel des Angeklagten”
H0 = Der Angeklagte ist unschuldig
H1 = Der Angeklagte ist schuldig
Möglichkeit 1: Ausreichende Beweise für die Schuld
-> H0 wird abgeleht, H1 wird angenommen, der Angeklagte ist schuldig
Möglichkeit 2: Man hat nicht ausreichden Beweise für die Schule gefunden - damit ist die Unschuld (H0) noch nicht bewiesen, man weiß es einfach nicht, daher kann die Gültigkeit von H1 nicht angenommen werden.
Inferenzstatistik: Hypothesentest
Aufstellen von Hypothesen
Hypothese aufstellen
Signifikanzniveau alpha feststellen
Daten sammeln
Prüfgröße berechnen
Verteilung der Prüfgröße bestimmen
Kritischen Wert oder p-Wert berechnen
Testentscheidung treffen
Hypothesen aufstellen
Fragestellung formulieren und in Form H0 und H1 bringen
-> Hypothesen müssen richtig formuliert werden! Was man beweisen will, kommt in H1!
wie wahrscheinlich ist es, dass Fehler auftreten? -> meist 5%
Fehlerarten Übersicht:
-> vergrößert man Fehler 1. Art, verkleinert sich der Fehler 1. Art und umgekehrt.
Fehler 1. Art
Alpha-Fehler
H1 wird fälschlicherweise angenommen
“falscher Alarm”
Fehler 2. Art
Beta-Fehler
H0 wird fälschlicherweise angenommen
“versäumter Alarm”
Befragung, Experiment, Dokumentenanalyse o.ä.
Datenerhebung und Qualitätsanforderungen müssen dem methodischen Standard entsprechen
Prüfgröße berechenen
Prüfgröße = der Kennwert aus den erhobenen Daten zur Durchführung des Signifikanztests; häufig standardisierte Version des Mittelwerts
-> Annahme: H0 gilt
Prüfgrößen berechnen
-> warum ist die Prüfgröße häufig eine standardisierte Version des Mittelwerts?
standardisiert, weil es dann für den Test egal ist
wie groß die Stichprobe ist
welcher Mittelwert als Nullhypothese festgelegt wurde
Welche Streuung Daten aufweisen
Verteilung der Prüfgröße feststellen
Braucht man, um festzulegen, welche Werte für die Prüfgröße noch akzeptabel sind
-> z.B. eine T-Verteilung
Der eigendliche Test ist so konzipiert, dass die Verteilung “einfach” ist (z.B. Standardnormalverteilung), weshalb auch die Prüfgröße standardisiert ist - damit bekommt man eine Verteilung, die bekannt ist, und deren Werte vorliegen
t-Verteilung
= stetige, symmetrische Verteilung, ähnelt in der Form der Normalverteilung bzw. der Standardnormalverteilung, ist jedoch niedriger und breiter - Standardabweichung ist also größer
kann verwendet werden, denn die Varianz bzw. die Standardabweichung der Grundgesamtheit nicht bekannt ist
es gibt viele t-Verteilungen - Anzahl hängt mit der Anzahl der Freiheitsgerade und damit vom Stichprobenumfang ab
t-Verteilung - Voraussetzungen
Grundgesamtheit muss zumindest annähernd normalverteilt sein (in dem Fall kann auch mit kleinen Stichproben gearbeitet werden)
Stichprobenumfang der Zufallsstichprobe muss kleiner/gleich 30 sein
-> mit stetigem Stichprobenumfang nähert sich die t-Verteilung der Normalverteilung immer mehr an (ab 100 nahezu identisch), sodass man bei gro0en Stichproben mit der Normalverteilung arbeiten kann
t-Verteilung - Freiheitsgerade
Anzahl der Werte, die frei variiert werden können, ohne den interessierenden statostischen Parameter zu ändern
kritischen Wert/p-Wert berechnen
Ist die Prüfgröße noch akzeptabel?
Zwei Möglichkeiten, dies zu beantworten:
Kritisch Schranke bestimmen
p-Wert berechnen
Kritische Schranke
Wert festlegen, der maximal mit der Wahrscheinlichkeit von alpha überschritten wird -> trifft dies zu, wird H1 bestätigt
bei gerichteten Hypothesen: einseitige Tests -> Schranken auf einer Seite
bei ungerichteten Hypothesen: zweiseitige Tests -> Schranken auf beiden Seiten
aus der Prüfgröße
sagt aus, wie wahrscheinlich H1 zutrifft
man schaut, ob die Prüfgröße im Bereich der kritischen Schranke liegt
-> wenn ja: H0 wird beibehalten
-> wenn nein: H1 wird angenommen
P-Wert
man betrachtet p-Wert und Signifikanzniveau alpha
-> p-Wert liegt über alpha: H0 wird beibehalten
-> p-Wert ist kleiner als alpha: H1 wird angenommen
Untersuchungsergebnisse darstellen
Grundsätze bei der Erstellung von Grafiken
Verständnis der Daten
Kenntnis über die Zielgruppe
Eindeutige Botschaft
Reduktion der Daten
Auswahl der Darstellung
Einfache, klare und genaue Darstellung
Möglichkeiten zur Antwort
Möglichkeiten der Darstellung
Kreisdiagramm
Liniendiagramm
Einfaches Balkendiagramm
gruppierte Balkendiagramme (Stapelbalken)
einfache Histogramm
Streudiagramme (Punktdiagramme)
Dashboards
Kreisdiagramm (Tortendiagramm)
nur für kategorielle Daten sinnvoll
Vorteil: Anteile lassen sich übersichtlich darstellen
Nachteile:
Alle Anteile müssen 100% ergeben
unsinnig für Fragen mit Mehrfachantworten (außer sie werden prozentuiert)
Kategorien dürfen nicht zu klein sein
für die Veranschaulichung von Entwicklungen oder Zeitverläufen
es können gut 2 verschiedene Gruppen über einen Zeitraum verglichen werden
einfaches Balkendiagramm
Ideal, um Fragen mit Mehrfachantworten zu präsentieren
Gruppierte Balkendiagramme (Stapelbalken)
vor allem bei kontrastiven Darstellungen von Ausprägungen einer Variabel, z.B. Geschlechterverhältnisse in Untergruppen
einfache Histogramme
Daten sind auf der x-Achse nach Größe sortiert, y-Achse stellt die Häufigkeit dar
für die Veranschaulichung von Verteilungen
Stellen den Zusammenhang zweier Variablen grafisch dar, eine auf der x-Achse, eine auf der y-Achse
zur Aufzeichnung des Zusammenhangs zweier Variablen, auch der Regression und Korrelation
Dashboard
Daten aus verschiedenen Quellen werden zusammengefügt und optisch aufbereitet, Diagramme bilden den Hauptteil
alles auf einen Blick, übersichtlich und klar sturkturiert
Im Idealfall: intuitive Bedienung
bei falscher Diagrammwahl kann es zu Fehlinterpretationen kommen -> dezentes, einheitliches Design und Integration von Benchmarks
Last changed2 months ago