undefined

by isa K.

Deskriptive Statistik

Unter dem Begriff wird eine Gruppe statistischer Methoden your Beschreibung von Daten anhand stat. Kennwerte, Grafiken, Diagrammen o. Tabellen zusammengefasst

(Ergebniszusammenfassung von Daten einer Stichprobe)

Merkmal

Ein Merkmal ist eine Eigenschaft, die zu einem Objekt oder einer Person gehört und mind. 2 mögliche Ausprägungen hat

Unterscheidungen:

quantitativ: Ausprgungsgrad eines Merkmals auf einem Kontinuum

qualitativ: Zugehörigkeit zu einer Kategorie

manifest: direkt beobachtbar

latent: theoretisches Konstrukt, von versch. manifesten Merkamlen wird darauf geschlossen

Operationalsierung

Operationalisierung beschreibt die Menge von Operationen zur Erfassung eines Merkmals. Hierbei muss exakt beschrieben werden, mit welchen Mitteln ein Merkmal in Zahlen überführt wird.

Messen

Messen ist eine Zuordnung von Zahlen zu Objekten oder Ereignissen, sofern diese Zuordnung eine homomorphe (eindeutige) Abbildung eines empirischen Relativs in ein numerisches Relativ ist

Skalenniveaus und letzte mögliche Transformation

Nominalskala: Namen, Zahlen für Merkmalsausprägungen (Information über Gleichheit, Unterschied)
eindeutige Zuordnung A=1
Ordinalskala: Ordnung (Folge) der Werte (Größer/kleiner Relation)
monotone Transformation y= log(x)
Intervallskala: Abstände der merkmalsausprägungen (Größe v. Unterschieden)
Lineare Transformation y=ax+b
Verhältnisskala: Abstände im Verhältnis (abs. Nullpunkt) (Verhältnis der Merkmalsausprägungen)
Multiplikative Transformation y=ax

Häufigkeiten

Diskret: Anzahl der Merkmalsträger pro Ausprägung

Kumuliert: Anzahl der Merkmalsträger mit der gleichen oder geringeren Merkmalsausprägung

Stetig: Anzahl in Kategorien

Kategorien

Werden die Werte einer stetigen Variable in einer Stichprobe in einzelnen Gruppen mit definierten Grenzwerten unterteilt, so werden diese Gruppen als Kategorien bezeichnet. Innerhalb jeder Kategorie wird die Häufigkeit der beobachteten Fälle der zugehörigen Gruppe aufsummiert

Regeln zur Kategoriebildung

Kategorien sind disjunkt. Ein Wert kann nur einer Kategorie zugeordnet werden
benachbarte Konzipierung, keine Lücke
Offene Kategorien oben und unten sind bei Ausreißern und Extremwerten sinnvoll
Geschlossene Kategorien gleich breit
Je größer N desto kleiner die Kategoriebreiten
Max. 20 Kategorien
Faustregel m=1+3.32 x lg(N)
Die Breite der Kategorien ist Abhängig von der Range der Werte
Die Grenzwerte sollen inhaltlich sinnvoll gebildet werden

Modalwert

Diejenige Merkmalsausprägung o. Kategorie (Kategoriemitte angeben), die am häufigsten besetzt ist

Stabil gegenüber Extremwerten

Möglichkeit der Bimodalität

Median

Wert der geordneten Reihe der Messwerte, der diese in obere und untere 50% einteilt

Mind. Ordinalskalenniveau

stabil gegenüber Extremwerten

Berechnung in Kategorien:

Untere Grenze der Kategorie mit dem Median + (N/2-Anzahl aller Kategorien darunter) / Anzahl der Kategorie mit Md x Kategorienbreite

Arithmetisches Mittel (x ̄)

Summe aller Messwerte geteilt durch die Anzahl, daraus lassen sich zentrale Momente ableiten

Mit Kategorien: gewichtetes arithmetisches Mittel: Gewichtung der Gruppengröße an den einzelnen Gruppenmittelwerten

Mind Intervallskalenniveau

empfindlich gegenüber Extremwerten

Schiefe

Anhand von Verteilung von Median, Modalwert und Mittelwert)

Je größer die Differenz zw. Modalwert und AM desto schiefer ist die Verteilung

Berechnung mithilfe des zentralen Moments 3. Ordnung

a3 <0 rechtssteil (linksschief)

a3=0 symmetrisch (normalverteilt)

a3> 0 linkssteil (rechtsschief)

Range/Spannweite

Diskrete Daten: Anzahl der vorhandenen Kategorien

Stetige Daten: maximaler Wert - minimaler Wert

Ehr empfindlich gegenüber Extremwerten

Keine Aussage über die Verteilung

Quartile

Punkte Q1 und Q3 die mit dem Modalwert eine Verteilung in 4 gleichgroße abschnitte aufteilt

Differenz: IQA

Voraussetzung Ordinalskalaniveau

Vorteil: Ausreißer nicht so großen Einfluss, da nur mittleren 50%

Nachteil: Verlust v. Information über die äußeren 50%

AD Streuung

Durchschnitt der absoluten Abweichungen (zentr. Moment 1. Ordung) vom Mitellwert an

Voraussetzung: Intervallskalenniveau

Nachteil kleine und große Abweichungen haben gleichen Einfluss auf das Maß der Verteilung

Varianz

Quadrieren der Abweichunfen der einzelnen Messwerte vom Mittelwert und dann Teilen durch die Stichprobengröße, größere Abweichungen größerer Einfluss

Voraussetzung Intervallskalenniveau

Wenn nur Aussagen über eine Stichprobe sx hoch 2

Bei Schätzung von der Stichprobe auf die Population mit Freiheitsgrad

Transformation von Varianz

Bei Addition ändert sich die varianz nicht
Bei Multiplikation mit einer Konstanten a>0 vergrößert sich die Varianz um a^2

Standartabweichung (σ; sx)

Wurzel der Varianz

Voraussetzung: Intervallskalenniveau

Varianzkoeffizient

Der Varianzkoeffizient gibt an, wie viel Prozent des AM die Standartabweichung beträgt

Sx/x(Mittel) x 100

Voraussetzung: Verhältnisskalenniveau

Exzess

Der Exzess beschreibt die Breite der Verteilung und wird über das zentralen Moment 4. Ordnung berechnet

a4<3 platykurtisch (breitgipflig)

a4=3 Normalverteilt

a4>3 leptokurtisch (scmalgipflig)

Bei SPSS wird mit Kurtosis E-3 mit einem Mittel von 0 gerechnet

Gauß`sche Normalverteilung

Voraussetzung bei vielen Variablen, die sich bei N>30 daran annähern

Berechnungen mit Hilfe eines Integrals möglich

Normalität

Unter Normalität wird jenes Intervall verstanden, in dem 95% der Stichprobenwerte liegen.

Mit x ̄ ± 1 . 9 6 · s x

Normierung

Unter Normierung wird eine lineare Transformation verstanden. Dadurch lassen sich Werte von Personen aus versch. Stichproben oder Messinstrumenten vergleichbar machen (Bsp. z-Transformation)

Normalisierung

Der Begriff Normalisierung umfasst im Gegensatz zur Normierung eine nicht-lineare Flächentransformation. Bei der Normalisierung wird durch “Verbiegen” eine schiefe Verteilung in eine Normalverteilung überführt. Diese nicht-lineare Transformation verändert allerdings das Skalenniveau.

Ziel einer Grafik

Darstellung der Stadt. Kennwerte einzelner Variablen
Darstellung von Vergleich der Kennwerte mehrerer Gruppen
Darstellung von Zusammenhängen zw. 2 oder mehr Variablen

Polygon

Darstellung einzelner stetigen Variablen

Auf der Abszisse (x-Achse) werden die in der Stichprobe vorhandenen

Ausprägungen des Merkmals aufgetragen.

Auf der Ordinate (y-Achse) werden die absolute Häufigkeiten des Merkmals abgebildet.

Diese einzelnen Ausprägungen werden mit einer Linie, dem Polygonzug, verbunden.

Nachteile nicht besetzte Merkmalsausprägungen werden komplett ausgelassen

Histogramm

Nutzung bei vielen unterschiedlichen Rohwerten oder Kategorien

Mittelwerte der Kategorien werden beschriftet

Stem and Leaf Plot

Bei Kategoriesierten Daten mit weniger Rohdaten, dadurch bleiben allerdings auch alle Rohwerte erhalten

Vorteile

Häufigkeiten und einzelne Werte in einer Kategorie lassen sich zusammen ablesen

Balkendiagramm

Darstellung der absoluten Häufigkeit diskreter Daten

Kreisdiagramm

Darstellung relativer Häufigkeit von diskreten Variablen

BoxPlot

Für Stichprobenvergleiche bei 2 oder mehr stetigen Variablen

Median Strich

IQA Kasten (Symmetrie und Breite der Variabilität)

Whiskers Strich letzter normaler Wert bis zu 1.5 x IQA

Ausreißer Kreise 1.5 bis 3 x IQA

Extremwerte Kreuze 3 oder mehr x IQA

Vorteil: Darstellung von Maßen der zentr. Tendenz und Dispersion

Satter Plot

Zusammenhang zweier stetigen Variablen Mit Hilfe von Wertepaaren beider Variablen

Ausreißer

Turkey-Kriterium: wie bei BoxPlot

Definition 2:

N<80 2.5 x SD vom Mittelwert

N>80 4 x SD vom Mittelwert

Winsorisieren

Beim Winsoriseren wird um den Mittelwert einer Stichprobe ein Konfidenzintervall ermittelt, welches 90% der Werte enthält. Alle Werte außerhalb werden als Ausreißer betrachtet und durch den Grenzwert des Konfidenzintervalls ersetzt

Vorteil:

Stichprobengröße bleibt erhalten

Nachteil: Verzerrung, da ersetzte Werte mit großer Wkeit falsch sind

Kontrolle der Daten

Auf Korektheit (Verständnis des Probanden)

Plausibilität

Fehleingaben

Fehlende Werte

Fehlende Werte liegen in einem Datensatz vor, wenn Werte einer Person im Datensatz fehlen, obwohl die entsprechenden Merkmalsausprägungen empirisch vorhanden sind.

-> Verlust der Effizienz und Power der Aussagen

Missing completly at random

Komplett zufällige fehlende Werte ohne Zusammenhang mit jeglicher Variable

Vorteil: Weiterhin repräsentative Teilstichprobe von der auf alle Probanden geschätzt werden kann

Missing at Random

Fehlende Daten sind abhängig von einer anderen Variable

Nicht mehr repräsentativ, Bias

Ersetzung möglich

Nonrandom Missing

Systematische Verzerrung, die durch keine andere Variable erklärt werden kann -> Abhängig von der Ausprägung der Variable selbst

Ersetzung schwer, Werte lassen sich nicht schätzen

Ausschlussverfahren

listenweise Ausschluss (komplett aus der Analyse ausgeschlossen) paarweiser Ausschluss (für Teilberechnungen ausgeschlossen) Mittelwertsersetzung (Mittelwert der Variable zur Ersetzung verwendet)

Regressionsimputation (Vorhersage des fehlenden Wertes)

Zuifallsexperiment

Ein Zufallsexperiment ist ein Experiment, das beliebig oft wiederholbar ist und zu unterschiedlichen Ergebnissen führen kann. Für ein mögliches Ergebnis gibt es eine bestimmte Wahrscheinlichkeit p (=probability). Das Ergebnis eines Versuchsdurchgangs wird mit ω bezeichnet.

Logisches Und ∩

Das logische UND beschreibt die Schnittmenge, die durch das gleichzeitige Auftreten zweier Ereignisse entsteht.

Disjunkte Ereignisse

Zwei Ereignisse A und B werden disjunkt genannt, wenn sie einander ausschließen, das heißt, dass A und B nicht gleichzeitig eintreffen können.

Bedingte Wkeit

p(A|B) wird als “p von A unter der Bedingung B” gelesen und bezeichnet die Wahrscheinlichkeit für das Ereignis A unter der Bedingung, dass das Ereignis B bereits eingetroffen ist.

p(A|B) = p(A ∩ B) / p(B)

Additionstheorem

Die Wahrscheinlichkeit für das Auftreten der Ereignisse A oder B

bei nicht-disjunkten Ereignissen:

p(A∪B) = p(A)+p(B)−p(A∩B)

bei disjunkten Ereignissen:

p(A ∪ B) = p(A) + p(B)

Kombinatorik

Uneingeschränkte Zufallsauswahl

Die uneingeschränkte Zufallsauswahl gewährleistet die Repräsentativität einer Stichprobe.

Jedes Mitglied der Population hat gleich große Chancen, in die Stichprobe aufgenommen zu werden.

Vorteil: hohe Repräsentativität

Nachteil: Praktisch schwierig, da Zentralregister notwendig

Geschichtete Zufallsauswahl

Zufällige Ziehung aus einer Teilpopulation

So, dass sie im relevanten Merkmal analog zur Population geschichtet ist, sonst kann sie sich schon unterschieden

Vorteil: Homogenere Merkmalsverteilungen in den Teilpopulationen implizieren kleinere Streuung und einen kleineren Standardfehler und somit eine präzisere Schätzung

Mehrstufige Zufallsauswahl

Zufällige Auswahl aus einer mehrfach abgestuften Teilpoulation

Nachteil: nur wenn VErteilung identisch ist mit der der Gesamtpopulation, sonst erhöhter Standartfehler

Klumpenauswahl

Letzte abgestufte teilpopulation wird gesamt erhoben

Quotenauswahl

Stichprobe hat identischen Anteil in zentralen Merkmalen wie Geschlecht, Alter, nicht allerdings in dien für die Erhebung relevanten

Nachteil: Voraussetzng für die Berechnung des Standartfehlers ist nicht gegeben

Ad-hoc Auswahl

Erstbesten Personen werden ausgewählt

Nachteil:

Die Voraussetzungen des Standardfehlers sind nicht erfPlot

Theoriegeleitete Auswahl

Stichprobe aufgrund theoretischer Vorüberlegungen ausgewählt (z.B. typische Fälle einer Krankheit)

Anforderungen an ein Schätzmaß

Erwartungstreue kein Bias

Konsistenz sollte mit steigendem N immer präziser werden

Effizienz Streuung möglichst klein

Exhaustivität

Punkt und Intervallschätzung

Wird zur Schätzung eines Populationsparameters nur ein Stichprobenkennwert angegeben, so handelt es sich um eine Punktschätzung. Wird bei einer Schätzung aber neben dem Kennwert noch ein Konfidenzintervall bestimmt, in welchem mit einer bestimmten Wahrscheinlichkeit der Populationswert liegt, so handelt es sich um eine Intervallschätzung.

Zentraler Grenzwertsatz

Definition:

In einer Population mit einer endlichen Varianz σx2 und einem Mittelwert μx nähert sich die Verteilung der Mittelwerte aus gleichgroßen Stichproben mit N unabhängigen Beobachtungen einer Normalverteilung an. Diese Verteilung hat eine Varianz von σx^2 /N= σx ̄^2 und einen Mittelwert μx . Ist N sehr groß, so sind die

x ̄j-Werte annähernd normalverteilt

Hypothese

Die inferenzstatistische Hypothesenprüfung erlaubt Aussagen über die Gültigkeit von Hypothesen in einer Population, aus welcher die untersuchten Stichproben zur Hypothesenprüfung gezogen wurden. Hierbei werden über Stichprobenkennwerte Populationskennwerte geschätzt und mit Hilfe dieser Schätzungen Hypothesenprüfungen durchgeführt.

α-Niveau

Das α-Niveau legt in Abhängigkeit von Stichprobengröße und zugrunde liegender theoretischer Verteilung einen Grenzwert für ein Konfidenzintervall fest. Liegt der empirisch ermittelte Kennwert einer erhobenen Stichprobe außerhalb dieses Intervalls, so wird die Nullhypothese verworfen und die Alternativhypothese angenommen.

Signifikanz

Liegt die Wahrscheinlichkeit für das Auftreten eines gefundenen oder eines größeren Mittelwertsunterschiedes unter der Bedingung der Nullhypothese unterhalb des α-Niveaus, handelt es sich um einen signifikanten Unterschied.

Fehler beim Hypothesentesten

α- Fehler: Ablehnung der richtigen Nullhypothese bei gültiger Nullhypothese

ß - Fehler: Beibehaltung der Flaschen Nullhypothese bei gültiger Alternativhypothese

Teststärke

Die Teststärke (Power) ist die Wahrscheinlichkeit, dass ein in der Population vorhandener Unterschied bei statistischer Testung entdeckt wird. Die Teststärke (1 − β) verläuft gegenläufig zum β-Fehler.

Einfluss des ß-Fehlers

Der ß ist geringer, wenn

der Alpha Fehler höher ist
Einseitig getestet wird
Die Streuung geringer ist
Die Stichprobe größer ist
Der Stat. Effekt größer ist
Die Stichprobe abhängig ist
Die Teststärke größer ist

Parametrische Testverfahren

Unter dem Begriff der parametrischen Testverfahren werden alle inferenzstatistischen Tests zusammengefasst, die eine Verteilung, meist eine Normalverteilung, des untersuchten Merkmals voraussetzen und welche die Signifikanzprüfung der statistische Kennwerte anhand dieser theoretischen Verteilung durchführen.

Voraussetzung z Test

N>30

Eine Zufallsstichprobe

Intervallskaliertes

Normalverteiltes Merkmal

Voraussetzung T Test für eine Stichprobe

Mind intervallskaliet

Normalverteiltes Merkmal

N<30

Voraussetzungen t- Test für Abhängige Stichproben

Mind. Intervallskaliertes Messwertpaar

Differenzen sollten normalverteilt sein

Vorsaussetzungen für t-Test bei unabhängigen Variablen

Mind. Intervallskaliertes Merkmal

In zwei unabhängigen Stichproben

Varianz entweder homogen oder heterogen (F-Test)

Effektgröße (d)

Als Effektgröße, synonym auch Effektstärke (effect size) genannt, wird bei der Berechnung von Mittelwertsdifferenzen Cohens d verwendet. Hierbei wird die Differenz zwischen zwei Mittelwerten an der Streuung relativiert.

0.20 = kleiner Effekt 0.50 = mittlerer Effekt 0.80 = großer Effekt

Optimaler Stichprobenumfang

Können die zu erwartende Effektgröße, α- und β-Fehler sowie die statistische Analysemethode einer geplanten psychologischen Studie definiert werden, dann kann in Abhängigkeit von diesen Werten der optimale Stichprobenumfang ermittelt werden. Diese Stichprobe ist vom Umfang gerade so groß, dass der zu erwartende Effekt, falls er auftritt, statistisch abgesichert werden kann. Andererseits ist die Stichprobe so klein, dass geringere Effekte nicht statistisch bedeutsam werden.

Einflussfaktoren auf die optimale g-power

Die optimale Stichprobenanzahl sinkt, wenn

das Alpha Niveau höher ist
Einseitig getestet wird
Effektgröße größer ist
Die Stichprobe abhängig ist
Die Teststärke steigt
Der ß-Fehker sinkt

Kovarianz

Die Kovarianz ist ein Maß für den linearen Zusammenhang zwischen den Variablen x und y. Sie beschriebt das Ausmaß gleich- bzw. Gegenläufiger Variablen

Korrelation (Produkt-Moment Korrelation)

Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhang zwischen zwei Variablen.

Determinationskoeffizient

Der Determinationskoeffizient r2 xy ist der quadrierte Korrelationskoeffizient r xy. Er beschreibt den Anteil der gemeinsamen Varianz beider Merkmale

Dichotomisierung

Die Bildung zweier Variablenausprägungen durch die Aufteilung eines intervall- oder ordinalskalierten Merkmals in Kategorien, beispielsweise in Werte über und unter dem Median, wird als künstliche Dichotomisierung bezeichnet.

Liegen die Eigenschaften der Variablenausprägung des Merkmals auch ursprünglich in zwei Ausprägungen vor, wird dies natürlich dichotom genannt.

Voraussetzungen Spearmans Rangkorrelation

Die beiden manifesten Variablen x und y liegen in Form einer Rangreihe vor. Hat eine Variable Ordinalskalenniveau und ist die zweite Variable intervallskaliert, dann wird die intervallskalierte Variable auf Ordinalskalenniveau transformiert.

2 Wenn bei kleinen Stichprobengrößen (N < 20) und intervallskalierten Variablen die Voraussetzung der Normalverteilung nicht gegeben ist.

3 Liegen multimodale oder asymmetrische Verteilungen vor, sind die intervallskalierten Rohdaten in Rangreihen zu transformieren und dann Spearmans Rangkorrelation zu berechnen.

Voraussetzungen Kendalls τ

Kendalls τ (sprich Tau) wird unter folgenden Bedingungen zur Berechnung eines Zusammenhangs zwischen zwei Variablen eingesetzt:

1 Bei mindestens einer der beiden ordinalskalierten Variablen liegen Ausreißerwerte vor.

2 Es gibt erhebliche Rangbindungen bei zwei ordinalskalierten Variablen.

Nachteil: geringe Power

Voraussetzungen punkttetrachorische Korrelation rptet oder φ-Korrelation

1 Es liegen zwei natürlich dichotome (zwei Ausprägungen) nominalskalierte Variablen vor.

2 Mindestens eine der beiden Variablen wurde künstlich dichotomisiert, wobei ursprünglich keine Normalverteilung zugrunde lag

Vorausstzungen für Produkt-Moment Korrelation

1) Intervallskalenniveau der Variablen

2) Normalverteilung der Variablen

3) Der Zusammenhang zwischen den Variablen sollte linear sein

4) Homoskedastizität

Regression

Das Ziel einer linearen Regression ist die Vorhersage einer Variablen y durch eine Variable x, die mit der Variablen y korreliert.

Die vorherzusagende Variable y wird als Kriteriumsvariable bezeichnet, die zur Vorhersage herangezogene Variable x als Prädiktorvariable.

Voraussetzung lineare Regressionsanalyse

Linearer Zusammenhang zwischen beiden variablen, je höher der lineare Zusammenhang, desto präziser die Schätzung

1 die Unabhängigkeit der Differenz zwischen den tatsächlichen beobachteten Werten und den vorhergesagten Werten einer statistischen Analyse. gegeben ist,

2 Prädiktor und Kriterium intervallskaliert und normalverteilt sind,

3 Homoskedastizität vorliegt und

4 die Regressionsresiduen normalverteilt sind.

p-Wert

Der p-wert gibt die Wkeit an, dass unter der Bedingung der H0 ein Effekt in der beobachteten Größe oder ein noch extremer Effekt auftritt.

Nicht parametrische Testverfahren

Bei den non-parametrischen Testverfahren unterliegt der untersuchte statistische Kennwert keiner theoretischen Prüfverteilung (z-Test, t-Test, F-Test). Deshalb werden diese Prüfverfahren auch als verteilungsfreie Verfahren bezeichnet. Im Allgemeinen sind die verteilungsfreien Verfahren an weniger oder schwächere Voraussetzungen gebunden. Sind allerdings auch testschwächer

Voraussetzungen x^2-Test

In wie weitunterscheidet sich (signifikant), aus unabhängigen Zufalssstichprobe die erwartete Häufigkeit (fe) von der beobachteten Häufigkeit (fb)

Nominaldaten (zwei Variablen, mehrfach abgestuft)
Weniger als 1/5 aller Zellen eine erwartete Häufigkeit kleiner 5 haben
Keine Zelle mit erw. Häufigkeit <1

-> sonst Fisher-Yates

McNemar Test Voraussetzungen

Nominale Daten
Dichotomes Mermla bei abhängiger Stichprobe (unterschiedliche Messzeitpunkte)
Häufigkeit nie <5

Falls Häufigkeit zu klein -> Binominialtest

McNemar Test

Variablen:

b: Anzahl der Personen, die bei der ersten Untersuchung Merkmalsträger waren, es bei der zweiten Untersuchung aber nicht mehr sind.

c: Anzahl der Personen, die bei der ersten Untersuchung nicht Merkmalsträger waren, es jedoch zur zweiten Untersuchung sind

Testen mit der X Quadrat Verteilung mit df=1, gerichtete Testung

Kritischer X Quadrat Wer ablesen

Ist der berechnete Wert signifikant hat ein Treatment einen Signifikanten Einfluss auf ein Verhalten

Voraussetzungen Cochran-Test

In den abhängigen Stichproben werden Daten dichotomer Merkmale erhoben

In mehreren Messzeitpunkten (mehr als 2 sonst McNemar Test)

Kreuzvalidierung

Eine Kreuzvalidierung ist ein Verfahren zur Überprüfung der Validität einer Regressionsgeraden. Die Übertragbarkeit einer empirisch ermittelten Regressionsgleichung auf eine weitere Stichprobe wird hierbei überprüft.

Join Course

Preview

Author

isa K.

Information

Last changed
2 years ago

Report course

Definitionen

Author

isa K.

Information