undefined

Buffl

Statistik

by Liudmila K.

Deduktion vs. Induktion

Induktion:

Theoriebildung - aus einzelnene Aussagen eine allgemeine Theorie herzustellen

Vom Einzelfall auf das Ganze schließen
Qualitativen Verfahren

Dedukrion:

Vom Allgemeinen auf das Einzelfallschließen
Quantitative Verfahren

Theorie —> Deduktion —> Empirie —> Induktion

Between-Subjects-Design vs. Within-Subjects-Design

Bei einer experimentellen Studie mit Between-Subjects-Design werden alle Teilnehmenden während des Experiments nur mit je einer Behandlung untersucht. Die Forschenden bewerten Gruppenunterschiede zwischen Teilnehmenden mit unterschiedlichen Behandlungen.

Bei einem Within-Subjects-Design werden alle Teilnehmenden während des Experiments mit allen Behandlungen untersucht. Die Forschenden testen dieselben Teilnehmenden wiederholt auf Unterschiede in der Reaktion auf unterschiedliche Behandlungen.

Deskriptive Statistik

einer übersichtliche und anschauliche Informationsaufbereitung
Das erhobene Material wird so aufbereitet, dass man sich schnell einen Überblick über die in der untersuchten Stichprobe angetroffenen Merkmalsverteilungen verschaffen kann

Inferenzstatistik

Verfahren, die Schlussfolgerungen von der Stichprobe auf die Grundgesamtheit zulassen, bezeichnen wir als inferenzstatistische Verfahren
ermöglicht eine Überprüfung von Hypothesen an der beobachteten Realität
Für den sinnvollen Einsatz der Inferenzstatistik ist es erforderlich, dass vor Untersuchungsbeginn eine theoretisch gut begründete Hypothese formuliert wurde

Qualitative(1) vs. quantitative (2) Forschung

Verscht eine Typologie & Fallbezogenheit indivivdueller Lebensgeschichten zu zeichnen, in dem Kontextorientierung mitbezogen wird. Möglichst viele Einflusse werden berücksichtigt.
sowohl explorativ wie hypothesenbestätigend
will Phänomene verstehen und folgt dabei prinzipiell der induktiven Forschungslogik

Versucht mithilfe von vorher definirten Variablen statistische Zusammenhänge von Unterschiedlichen Merkmalsausprägungen zu identifitizieren
Vorteile:
- Existenz annerkanner Gütekriterien zu Überprüfung
- Ergebnisse bei hinreichend großer Fallzahl relativ gut generalisierbar.

Hypothese

Vermuteter Zusammenhang (Beziehung) zwischen Merkmalen, welche aus theoretischen Grundlagen abgeleitet werden

Operationalisierung

Das Messbarmachen von Variablen

Nachdem festgelegt wurde, welche Variablen erfasst werden sollen, muss durch die Operationalisierung bestimmt werden, wie die Variablen erfasst werden sollen.

interne Validität

Eine Untersuchung ist intern valide, wenn ihr Ergebnis eindeutig interpretierbar ist. Die interne Validität sinkt mit wachsender Anzahl plausibler Alternativerklärungen für das Ergebnis aufgrund nicht kontrollierter Störvariablen.

—> eingeschränkter Generalisierbarkeit —> geringe externe Validität

Man beachte allerdings, dass ein Mindestmaß an interner Validität für jede wissenschaftliche Untersuchung erforderlich ist.

externe Validität

Eine Untersuchung ist extern valide, wenn ihr Ergebnis über die besonderen Bedingungen der Untersuchungssituation und über die untersuchten Personen hinausgehend generalisierbar ist. Die externe Validität sinkt mit wachsender Unnatürlichkeit der Untersuchungsbedingungen bzw. mit abnehmender Repräsentativität der untersuchten Stichproben.

Randomisierung

Unter Randomisierung versteht man die zufällige Zuordnung der Untersuchungsteilnehmer zu den Untersuchungsbedingungen.

Da es durch die Randomisierung der Personen zu einem „statistischen Fehlerausgleich“ kommt, hat dieser Untersuchungstyp eine höhere interne Validität als Untersuchungen ohne Randomisierung.

Variablen

Daten mit mehreren möglichen Ausprägungen

Kategoriale (überschaubare Anzahl an Ausprägungen) vs. metrische (umüberscaubare Anzahl an Ausprägungen)

UV (Prädiktor) - Variable, die manipuliert wird (Beim Prädiktor wird streng gennomen nichts manipuliert)

AV(Ouutcome) - Variable, die gemessen wird

Nominalskala

Die Nominalskala beinhaltet kategoriale Antworten. Diese können dichotome Ausprägungen wie beispielsweise das Geschlecht sein oder andere einfache Ja-/Nein-Szenarien. Die Nominalskala entspricht also einer Klasse, die durch die Person oder durch etwas anderes zugeordnet werden kann. Ein weiteres Beispiel ist etwa die Schule, die man besucht hat.

Nur Verschiedenheit, keine Rangfolge angebbar und auch keine Abstände (qualitative Unterschiede). Beispiele: Staatsangehörigkeit, Augenfarbe, Geschlecht (kategoriale Merkmale) – mögliche Rechenoperation: Modus/Modalwert

Ordinalskala

Wie Nominalskala, aber: Rangfolge angebbar, Abstände nicht quantifizierbar und vergleichbar. Beispiele: Ränge beim Militär, Medaillen bei Olympia, Schulnoten (kategoriale Merkmale) – mögliche Rechenoperation: Modus/Modalwert und Median

Intervallskala

Wie Nominal- und Ordinalskala, aber: Abstände können angegeben und verglichen werden. Beispiele: Temperatur in Grad Celsius, Intelligenzquotient, Jahreszahlen (metrische Variablen) – mögliche Rechenoperationen: Auch arithmetisches Mittel und Varianz

Verhältnisskala

Wie Intervallskala, aber die Abstände können zusätzlich in Relation gesetzt werden (Grund: „natürlicher“ Nullpunkt). Beispiele: Alter, Einkommen, Körpergröße und Gewicht (metrische Variablen) – mögliche Rechenoperationen: Auch arithmetisches Mittel und Varianz

Normalverteilung

Bei größeren Fallzahlen nähern sich viele metrische Merkmale der Normalverteilung an

Merkmale:

Die Fälle sind symmetrisch um den Gipfel (Mittelwert) - Durchschnitt der Merkmalsausprägungen verteilt

Unipolar
rund 95% der Werte liegen im Intervall von 𝜇 - 2 𝜎 bis 𝜇 + 2 𝜎
rund 68% der Werte liegen zwischen 𝜇 - 𝜎 und 𝜇+ 𝜎

Arithmetisches Mittel

Die Summe aller Merkmalsausprägungen dividiert durch die Fallzahl

Das arithmetische Mittel berücksichtigt alle Werte (dies ist zugleich Stärke und Schwäche).

Median

Der Wert des Falles, der die Verteilung in zwei gleich große Teile teilt

Der Median ist unempfindlich gegenüber extremen Werten (auch dies ist zugleich Stärke und Schwäche)

Modus / Modalwert

Am häufigsten vorkommender Wert/vorkommende Merkmalsausprägung

Der Modus ist häufig nicht eindeutig bestimmbar. Insgesamt hat er deutlich weniger Aussagekraft.

Varianz s² und Srandartabweichung s

Die Varianz einer Stichprobe des Umfangs n ist definiert als die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel, dividiert durch n − 1. Wir bezeichnen die Stichprobenvarianz mit s².

Srandartabweichung —> Wurzel aus der Varianz

Bsp.

Beispiel Einkommen: 𝑥 ̅=194

Varianz s² = (20-194)² + (30-194)² + (30-194)² + (40-194)² …. + (900-194)² / 7-1

z-Transformation

Das Umrechnen des Rohwertes x in den z-Wert mit Hilfe von der Gleichung wird auch „z-Transformation“ genannt. Somit gibt der z-Wert an, um wie viele Standardabweichungen ein Rohwert unter bzw. über dem Mittelwert liegt.

Die sog. z-Werte erhält man, indem man die Abweichung vom Mittel an der Standardabweichung relativiert.

z-transformierte Werte haben einen Mittelwert von 0 und eine Standardabweichung von 1.

Schritte jedes Signifikanztests

•1 Wir formulieren die Null- und die Alternativhypothese.

•2 Wir legen eine Irrtumswahrscheinlichkeit α fest. (0,05%)

•3 Wir bestimmen aus der zugehörigen Verteilung die Prüfgröße

•4 Wir berechnen die zugehörige Teststatistik und interpretieren das Ergebnis.

p-Wert

Alpha / Beta Fehler

Test Power

Effektstärke

Befragung & Beobachtung

Was ist ein Interaktionseffekt?

Ein Interaktionseffekt liegt vor, wenn die Wirkungen eines Faktors auf die abhängige Variable von der Ausprägung des anderen Faktors abhängen. Die beiden (oder mehr) Faktoren beeinflussen sich also gegenseitig im Hinblick auf ihre Wirkung auf die abhängige Variable.

Was ist ein disordinaler Interaktionseffekt und was hat dieser zur Folge?

Bei einer disordinalen Interaktion überschneiden sich die Linien in beiden Interaktionsgrafiken. Tritt eine disordinale Interaktion auf, können die Haupteffekte nicht mehr interpretiert werden, da sich ihre Wirkung abhängig vom jeweils anderen Faktor umkehren kann.

Wenn bei einer zweifaktoriellen ANOVA nur ein Haupteffekt signifikant wird, was bedeutet dies für unsere Analyse?

In diesem Fall hat nur der eine (signifikante) Faktor einen Einfluss auf die abhängige Variable. Der andere (nicht signifikante) Faktor beeinflusst nicht die abhängige Variable. Es gibt auch keinen Zusammenhang zwischen den beiden Faktoren im Hinblick auf ihre Wirkung auf die abhängige Variable.

Wozu kann die einfaktorielle Varianzanalyse verwendet werden?

Die einfaktorielle Varianzanalyse prüft, ob sich die Mittelwerte von 3 oder mehr Gruppen signifikant voneinander unterscheiden

Warum werden zusätzlich zur ANOVA meist sogenannte Post-hoc Testungen durchgeführt?

Die ANOVA beschreibt nur ob es zwischen mindestens zwei Gruppen einen Unterschied gibt, aber nicht zwischen welchen Gruppen genau dieser Unterschied liegt und ob es nur einen oder sogar mehrere signifikante Unterschiede gibt. Deshalb führt man bei einer signifikanten Varianzanalyse üblicherweise die Post-Hoc Verfahren durch, um die genauen Unterschiede zu ermitteln.

univariat vs. multivariat

Verfahren können immer nur eine einzige Antwortvariable betrachten (dies nennt man univariat). Diese Modelle übersehen die komplexe Struktur verschiedener abhängiger Variablen (wird mehr als eine abhängige Variable betrachtet, nennt man das Verfahren multivariat), die mehrere abhängige Variablen bilden können.

Was ist der Korrelationskoeffizient? In welchem Verhältnis steht dieser zur Kovarianz im Falle der Produkt-Moment-Korrelation?

Der Korrelationskoeffizient gibt die Richtung und Stärke des linearen Zusammenhangs zweier Variablen an. Es handelt sich also um einen Kennwert, der den Zusammenhang von zwei Variablen beschreibt. Er kann Werte zwischen -1 und +1 annehmen und errechnet sich aus der standardisierten Kovarianz.

Welche Arten von Zusammenhängen zwischen zwei Variablen sind denkbar?

Positiver Zusammenhang: je höher (niedriger) der Wert einer Variable, desto höher (niedriger) der Wert der anderen Variable Negativer Zusammenhang: je höher (niedriger) der Wert einer Variable, desto niedriger (höher) der Wert der anderen Variable Kein Zusammenhang: die Höhe der Werte auf beiden Variablen variieren nicht miteinander.

Darüberhinaus sind nicht-lineare Zusammenhänge denkbar, auf die wir hier nicht näher eingehen.

Wann sollten Sie eine Rangkorrelation (Sperman's Rho Kendall's Tau) verwenden?

Wenn beide untersuchten Variablen ordinal skaliert sind oder wenn eine Variable metrisch skaliert ist, die andere jedoch ordinal. Wenn Sie Beispielsweise den Zusammenhang des Alters (metrisch) und der Rangplatzierung eines Marathons (ordinal) untersuchen wollen.

Was ist das Ziel einer bivariaten linearen Regression?

Es soll eine lineare Gleichung bestimmt werden, die eine Vorhersage von einer Variablen (Prädiktor) auf eine zweite Variable (Kriterium) ermöglicht.

Was gibt der Determinationskoeffizient (R2) bei einem Regressionsmodell an?

Der Determinationskoeffizient (R2) drückt den Varianzanteil der abhängigen Variablen aus, der mit der unabhängigen vorhergesagt bzw. erklärt werden kann. Das Ergebnis ist ein Prozentwert. der ausdrückt wieviel Prozent der Varianz des Kriteriums durch den Prädiktor erklärt wird.

Was ist der Regressionskoeffizient b?

Der Regressionskoeffizient b (Auch Regressionsgewicht genannt) gibt die Steigung der Regressionsgraden an. Ist dieser Beispielsweise 0,5, dann bedeutet dies, dass der Wert des Kriteriums um 0,5 steigt wenn der Wert des Prädiktors um 1 erhöht wird.

Wie unterscheidet sich eine eine multiple Regressionsanalyse mit zwei Prädiktoren von zwei einzelnen Regressionsmodellen mit jeweils einem der beiden Prädiktoren?

Wenn die Prädiktoren untereinander korrelieren, wird nur die hinzukommende aufgeklärte Varianz durch den zweiten Prädiktor berücksichtigt. Wenn Beispielsweise ein Prädiktor 20% der Varianz des Kriteriums aufklärt und der andere Prädiktor 30%, so zeigt die multiple Regression die tatsächliche gemeinsame Varianzaufklärung, die dann unter 50% liegen wird (je nachdem wie stark die Prädiktoren korrelieren).

Welchen Vorteil bieten die standardisierte Regressionsgewichte β (beta) bei der multiplen Regression?

Durch die Standardisierung lassen sich β-Gewichte über alle Prädiktoren hinweg vergleichen und wir können zum Beispiel sehr einfach ablesen, welcher Prädiktor den größten Einfluss hat.

Was bedeutet Multikollinearität?

Dieser Begriff bedeutet, dass die Prädiktoren stark korrelieren. Wenn die Prädiktoren zu stark korrelieren sollten Sie nicht in ein multiples Regressionsmodell aufgenommenwerden. Üblicherweise wird hier ein Schwellenwert von r = 0.8 angesetzt (bivariate Korrelationen zwischen der Prädiktoren). Alternativ kann auch der Variance Inflation Factor (VIF) berechnet werden. Dieser sollte einen Wert kleiner als 10 aufweisen.

Sensitivität

Die Sensitivität gibt an, gut unser Modell eine Person mit einem Merkmal auch korrekt als solche identifiziert hat.

Spezifität

Sie beschreibt die Fähigkeit unseres Modells eine Person ohne ein Merkmal (in unserem Fall einer Erkrankung) korrekt als solche zu identifizieren.

Ladungen in der PCA

In der PCA geben die Ladungen an, wie stark jede Variable mit jeder Hauptkomponente korreliert. Ladungen werden oft als Koeffizienten interpretiert, die anzeigen, wie viel Einfluss jede Variable auf die Bildung der Hauptkomponenten hat. Höhere Ladungen bedeuten eine stärkere Beziehung zwischen den Variablen und den Hauptkomponenten.

Eigenwert in der PCA

Eigenwerte geben an, wie viel Varianz von jeder Hauptkomponente erklärt wird. Sie sind ein Maß für die Bedeutung oder den Beitrag jeder Hauptkomponente zur Gesamtvarianz in den Daten. Höhere Eigenwerte bedeuten, dass die entsprechende Hauptkomponente mehr Varianz in den Daten erklärt. Eigenwerte können verwendet werden, um zu entscheiden, wie viele Hauptkomponenten extrahiert werden sollen, basierend auf der Eigenwert > 1-Regel oder anderen Kriterien. Sie können auch verwendet werden, um die relative Bedeutung der extrahierten Hauptkomponenten zu bewerten und die Varianzaufklärung durch die Hauptkomponenten zu quantifizieren.

Kommunalität

geben den Anteil der Varianz jeder Variable an, der von den Hauptkomponenten in der PCA erklärt wird.

liegt zwischen 0 und 1, wobei höhere Werte auf eine größere Erklärung der Varianz durch die Hauptkomponenten hinweisen. Eine hohe Kommunalität bedeutet, dass die Variable gut durch die Hauptkomponenten repräsentiert wird und somit ein hoher Anteil ihrer Varianz in den Hauptkomponenten enthalten ist. Eine niedrige Kommunalität bedeutet, dass die Variable weniger gut durch die Hauptkomponenten erklärt wird und ein großer Anteil ihrer Varianz nicht von den Hauptkomponenten erfasst wird.

Join Course

Preview

Author

Liudmila K.

Information

Last changed
3 years ago

Report course