Statistik Lernkarten

Buffl

Statistik

by Evelyn K.

LE 1 - Was ist Statistik

Induktive Statistik

= Schließende Statistik/ Inferenzstatistik

—> Schluss von Stichproben auf die Grundgesamtheit mit Hilfe von Wahrscheinlichkeitsrechnung

LE 1 - Was ist Statistik

Deskriptive Statistik

= Beschreibende Statistik

Beschreibung, graphische Aufbereitung, Komprimierung von Daten und Tabellen

LE 1 - Was ist Statistik

explorative Statistik

ist Teilgebiet der deskriptiven Statistik

-> Suche nach Mustern und Strukturen

LE 1- Skalenniveaus

Was ist ein diskretes Merkmal - inkl. Beispiel
Was ist ein stetiges Merkmal - inkl. Beispiel
Zu welcher Skala wird das untergeordnet

haben eine endliche oder zumindest abzählbare Anzahl an Elementen - Bsp.: hergestellte Auto pro Monat
Ausbildungen prägen ein Intervall - Bsp.: Gewicht von Personen, Zeitdauer, Größen
Metrische Skala

LE 1 - Skalenniveaus

Ordinalskala

+Beispiel

natürliche Reihenfolge, “besser als”

Bsp.:

Platzierung beim Fußball

LE 1 - Skalenniveaus

Bei welcher Skala gibt es keinen natürlichen Nullpunkt?
Zu welcher Skala wird diese untergeordnet?
Beispiel

Intervallskala und Verhältnisskala (= Ratioskala)
Metrische Skala
Geburtsjahr, Temperatur in Grad Celsius

LE 1 - Sklaenniveaus

Nominalskala

+ 2 Beispiele

Unterscheidung nur durch ihren Namen möglich.

Kann man nicht ordnen oder subtrahieren bzw. addieren

Bsp.:

Familienstand - ledig, verheirate, geschieden, verwitwet
Geschlecht - männlich, weiblich, divers

LE 1 - Skalenniveaus

Metrische Skala

+2 Beispiele

Festlegung einer Rangfolge, als auch Abstände oder Verhältnisse möglich

Bsp.:

Körpergröße
Alter

LE 1 - Skalenniveaus

Metrische Merkmale unterscheidet man in…

Intervallskala
Verhältnisskala
stetige Merkmale
diskrete Merkmale

LE 1 - Ablauf/ Datengewinnung

Primärstat. Datengewinngungsmethoden sind…

Introspektion
Befragung
Beobachtung
Messung physiologischer Daten
Analyse geronnener Spuren

LE 1 - Ablauf/ Datengewinnung

Sekundärstat. Datenquellen sind…

amtliche Wirtschaftsstatstik
nicht- amtliche Produzenten (z.B. Marktforschung, Forschungsinstitute)

LE 1 - Ablauf

5 Phasen der statistischen Untersuchung

LE 1 - Sinnvoll interpetrierbare Berechnungen bei Skalenniveaus

Ordne zu

Verhältnisskala		Auszählen
Ordinalskala		Differenzen bilden
Nominalskala		Quotienten berechnen
Intervallskala		Logische Reihenfolge bilden

Verhältnisskala	(metrische Skala)	Auszählen
Ordinalskala		Differenz bilden
Nominalskala		Quotienten berechnen
Intervallskala	(metrische Skala)	Logische Reihenfolge bilden

LE 2

Urliste

Menge aller Merkmalswerte (beobachtbare Ausprägungen eines Merkmals)

LE 2

Relative Häufigkeiten

Absolute Häufigkeit/Anzahl der Beobachtungen n

multipliziert mit 100 für %

LE 2

Gruppierung von Daten

bei stetigen Variablen können Häufigkeitsverteilungen oftmals unübersichtlich werden (da hohe Anzahl an Merkmalsausprägungen)
Einteilung der Merkmalsausprägungen in Klassen

LE 2

Grafische Darstellungen

Anhand von Merkmalen passende Form wählen
nur bei bestimmten Skalenniveau sinnvoll
2D oder 3D?
Farbwahl
Proportionale Darstellung / Nicht proportionale Darstellung?
Achsenursprung?
Falsche/schlechte Darstellungen?

LE 2

kumulierte Häufigkeiten

Werte werden aufsummiert
interessant bei rangskalierten / metrischen Merkmalen

LE 3: Zentralmaße

Was sind Zentralmaße?

Warum brauchen wir Zentralmaße?

Zentralmaße (auch Lagemaße, Lokalisationsmaße) gehören zu den Verteilungskennwerten (neben Streuungsmaßen und Maßen der Verteilungsform). Diese drei Gruppen von Maßen haben alle die prägnante Beschreibung einer Verteilung von Werten zur Aufgabe.

1. Ist kürzer, als jeden Wert einzeln zu betrachten

2. So können mehrere Verteilungen leichter miteinander verglichen werden

Zentralmaße beschreiben eine Verteilung hinsichtlich der Zentralität und beantworten so die Frage: Welcher Wert ist der typischste, wahrscheinlichste, repräsentativste für die Verteilung?

LE 3: Zentralmaße

Modus

Was ist der Modus?

Nenne drei Vorteile und drei Nachteile des Modus.

(= Modalwert, Mo)

„Der Wert, der in einer Merkmalsverteilung am häufigsten vorkommt“

Sehr grobes Maß, das nur selten verwendet wird (eher zur Beschreibung des häufigsten Wertes, nicht zur Zentralitätsbeschreibung).

Ist sinnvoll, wenn mehrere Modalwerte vorliegen

+ Der Wert existiert real in den Daten

+ Ab Nominalskalenniveau verwendbar

+ Robust gegenüber Extremwerten

- Möglicherweise nicht repräsentativ

- Bei kleinen Stichproben instabil

- Sehr grob

LE 3: Zentralmaße

Median

Was ist der Median?

Nenne zwei Vorteile und drei Nachteile des Medians.

(=50. Perzentil, Mde, Md, Med)

„Der Wert, der sich in der Mitte einer sortierten Merkmalsverteilung befindet“

Die Werte einer Verteilung werden sortiert (daher mind. Ordinal), der mittlere ist der Median (bei ungerader Anzahl von Werten; bei gerader ist es der Mittelwert der beiden mittleren Werte)

+ Ab Ordinalskalenniveau anwendbar

+ Robust gegenüber Extremwerten

- Bei kleinen Stichproben instabil

- Ziemlich grob

- Liegt als Wert möglicherweise nicht in der Verteilung vor

LE 4

Was ist des Variationskoeffizient?

Um die Streuung verscheiedener Merkmale miteinander zu vergleichen benutzt man den Variationskoeffizient v. Die Berechnung des Variaitionskoeffizienten ergibt sich aus der Division des Standardabweichung durch den Mittelwert. Sinvoll ist der Variationskoeffizient, wenn die Merkmalsprägungen Vielfache einer Einheit sind.

LE 3: Zentralmaße

Arithmetisches Mittel

Was ist das artithmetische Mittel?

Nenne zwei Vorteile und drei Nachteile des arithmetischen Mittels.

(=M, MW, AM)

„Der Wert, der sich ergibt, wenn man die Werte einer Verteilung aufsummiert und durch ihre Anzahl teilt“

Sehr häufig angewendet zur Verteilung der zentralen Tendenz

+ Relativ stabil bei Stichprobenverteilungen, die aus der gleichen Grundgesamtheit gezogen worden sind

+ Grundlage für viele statistische Berechnungen

- Anfällig gegenüber Ausreißern

- Verlangt Intervallskalenniveau

- Liegt als Wert wahrscheinlich nicht in der Verteilung vor

LE 4

Wie berechnet man die Standarabweichung?

Die Standardabweichung ist die Quadratwurzel der Varianz. Dies wird gemacht, damit der Wert der Standardabweichung in der gleichen Dimension gemessen wird wie die Urwerte (bei der Varianz wurden die Werte ja vorher quadriert).

LE 3 Zentralmaße

Geometrisches Mittel

Was ist das geometrische Mittel?

Welches Skalenniveau benötigt man mindestens für das geometrische Mittel?

(= GM, G, Xgeo)

„Das GM wird zur Berechnung einer konstanten (durchschnittlichen) Wachstumsrate verwendet“

Es verlangt Verhältnisskalenniveau

LE 4

Was sagt die Standardabweichung aus?

Entspricht die Verteilung einer Normalverteilung (viele Messerte im mittleren Bereich, wenige in der Randbereichen), so kann man die Verteilung der Gauß´schen Glockenkurve annähern.

LE 3: Zentralmaße

Harmonisches Mittel

Wozu benötigt man das harmonische Mittel? Welches Skalenniveau ist dabei mindestens notwendig?

(= subkonträres Mittel)

„Zur Berechnung von Durchschnittsgeschwindigkeit bei gleicher Weglänge“

Verhältnisskalenniveau notwendig

LE 4

Was sind Quantile?

Die Streuung zumindest ordinalskalierter Daten um ihr Zentrum lässt sich zusätzlich durch das p-Quantil beschreiben. Das p-Quantil einer Verteilung ist der Wert, der die aufsteigend geordnete Reihe von n Beobachtungswerten in eine bestimmten Verhältinis p zu (1-p) in zwei Gruppen trennt.

Bsp. Verhältinis bei Median: 50:50

wichtige Quantile: oberes, underes Quartil und obere und untere Dezile

Teilt man die Beobachtungswerte im Verhältnis 25:75, d.h man teilt den Datensatz in 4 gleich große Stücke, so spricht man von Quartilen. Die Grenzen nennt man 1. Quartil (unteres Quartil), 2. Quaritl (=Median) und 3. Quartil (oberes Quartil).

Teilt man die Beobachtungswerte in 10% Schritte (also in 10 Teile) spricht man von Dezilen, teilt man sie in 100 Teile spricht man von Perzentilen.

LE 4

Wie berechnet man die Varainz?

Bei der Varianz wird jeder Wert des dAtensatzes vom Mittelwert subtrahiert und anschließend quadriert (damit sich die Differenzen nicht gegenseitig aufheben). Die Summe dieser quadrierten Abwichungen wird dann durch de Umfang des Datensatzes n geteilt.

LE 4

Was ist eine Boxplot?

Bei einem Boxplot werdes das obere und das untere Quartil in Form eines Kastens (=Box) der Länge x 0,75 - x 0,25 dargestellt, der Median wird durch einen Punkt oder Strich markiert. Durch die mittige oder nicht-mittige Position des Medians innerhalb der Box kann man einer symmetrische oder asymmetrische Verteilung herleiten.

Fügt man dieser Grafi noch Minimum oder MAximum in Form von dünnen Linien (engl. Whiskers) ein, so erkennt man zusätzlich noch eventuelle Ausreißer.

LE 4

Wozu brauchen wir Streuungsmaße?

Zur Beschreibung einer Datenmenge reicht die Ermittlung eines Zentralmaßes alleine nicht.
Durch die zusätzliche Angabe eines Streuungsmaßes kann die Datenmenge wesentlich genauer beschrieben werden.
Da tatsächlich ermittelte Werte immer streuen, (Toleranz in der Produktion, Abweichungen bei Individuen …) ist das Modell mit Streuungsmaß realitätsnäher.

LE 4

Welche Aussagen ergeben sich bei einer Normalverteilung?

In dem Intervall (Mittelwert -1s; Mittelwert +1s) befinden sich 68% aller Messerte
In dem Intervall (Mittelwert -2s; Mittelwert +2s) befinden sich 95,5% aller Messwerte
In dem Intervall (Mittelwert -3s; Mittelwert +3s) befinden sich 99,7% aller Messwerte

LE 4

Ab welchem Saklenniveau können Merkmale durch die Spannweite (r) beschrieben werden, welche aus der Differenz zwischen dem größten Wert (= Maximum) und dem kleinsten Wert (= Minimum) der Urliste berechnet wird?

LE 4

Was misst die Standardabweichung s, bzw. die die Varianz s^2?

Sie messen die Streuung des Daten um das arithmetische Mittel. Dies ist v.a. wichtig, um die Qualität des AM einordnen zu können.

LE 5

Was sind grobe Abweichungen?

Grobe Abweichungen können mehrgipflig oder extrem schiefe/gewölbte Verteilungen sein.

LE 5

Wie kann mathematisch abgeschätzt werden, ob eine Normalverteilung vorliegt?

Im Intervall muss die 0 enthalten sein —> Normalverteilung liegt vor

Intervall mit Null: ein negativer Wert bis ein postiver Wert

Siehe Beispiel - wurde ausgeteilt

LE 5

Wie kann anhand eines Q-Q-Diagrammes von einer Normalverteilung ausgegangen werden?

Bei diesem Diagramm werden die beobachteten Werte gegen die bei einer Normalverteilung zu erwarteten Werte abgetragen. Streuen die beobachteten Werte relativ eng und zufällig um die Gerade, kann von einer Normalverteilung ausgegangen werden.

LE 5

Wie werden grobe Abweichungen graphisch dargestellt?

LE 5

Wie kann anhand eines Boxplot von einer Normalverteilung ausgegangen werden?

Über den Median kann beim Boxplot auf eine Normalvereteilung gschlossen werden. Wenn dieser ungefähr in der Mitte der Box liegt, kann von einer Normalverteilung ausgegangen werden.

LE 6

Was ist eine Kontingenztabelle?

Eine Tabelle, die die Häufigkeiten von Kombinationen mehrerer Merkmalsausprägungen darstellt.

Wird z.B. durch Aufbereitung einer bivariaten Urliste (Urliste mit 2 Merkmalsausprägungen) erstellt.

LE 6

Welche Möglichkeiten hat man, um die relativen Häufigkeiten einer Kontingenztabelle zu berechnen?

3 Möglichkeiten:

Bezogen auf die Zeilen
(z.B. erste Zeile: 17/39*100=43,6% und 22/39*100=56,4%

Bezogen auf die Spalten (z.B. erste Spalte: 17/104*100=16,3%)

Bezogen auf die Gesamtsumme (z.B. 17/194*100=8,8%)

LE 6

Wie ergeben sich die Randhäufigkeiten einer Kontingenztabelle?

Die Randhäufigkeiten sind die Summen der jeweiligen Zeilen und/oder Spalten.

LE 6

Wie nennt man die Datenanalyseverfahren, bei denen

1 Mekrmal
2 Merkmale
mehr als 2 Merkmale

untersucht werden?

1 Merkmal: Univariate Datenanalyse
2 Merkmale: Bivariate Datenanalyse
mehr als 2 Merkmale: Multivariate Datenanalyse

LE 6

Wie wählt man im konkreten Fall aus, auf welche Art man die relativen Häufigkeiten einer Kontingenztabelle berechnet?

Die Wahl, auf was man die prozentuale Verteilung bezieht (Spalte, Zeile, Gesamtsumme) hängt von der Fragestellung ab.

Faustregel: Will man Spalten miteinander vergleichen, nimmt man die Zeilensumme. Will man Zeilen miteinander vergleichen, nimmt man die Spaltensumme.

LE 7

Was bedeutet “signifikant”

Signifikanz ist das Maß an Wahrscheinlichkeit, mit der eine Aussage die Wirklichkeit trifft.

LE 7

Von was ist die Auswahl eines statistischen Tests in bedeutendem Maße abhängig?

von dem Skalenniveau der Merkmale

LE 7

Wann kann ein Korrelationskoeffizient berechnet werden?

Voraussetzung ist eine annähernde Normalverteilung (beim Test der Signifikanz)

LE 7

Chi^2 - Unabhängigkeitstest: Interpretationen

wenn > 0, dann gibt es einen Zusammenhang
p-Wert (asymptotische Signifikanz)
Richtwert p < 0.05 => signifikanter Zusammenhang

LE 7

Korrelationskoeffizient nach Bravais/Pearson

Die Korrelationsanalyse gibt die Stärke und Richtung eines linearen Zusammenhangs an
Der Korrelationskoeffizient liegt zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang)
0 heißt, dass es keinen Zusammenhang zwischen den beiden Variablen gibt

LE 7

Was versteht man unter Zusammenhangsanalysen?

Gibt es einen statistisch signifikanten Zusammenhang zwischen zwei Variablen

LE 7

Was ist beim Korrelationskoeffizienten zu beachten?

Eine starke Korrelation ist nicht unbedingt ein Beleg für Kausalität, d.h. für einen inhaltlichen Zusammenhang.

Z.B. ist es möglich, dass sich zwei Variablen durch den Einfluss einer dritten in derselben Weise ändern (also stark korrelieren) und so eine Scheinkorrelation zu beobachten ist.

LE 7

Chi^2 - Unabhängigkeitstest

Mittels des Chi^2 - Unabhängigkeitstests können Zusammenhänge zwischen zwei nominal skalierten Variablen aufgedeckt werden

LE 8

Was bedeutet es, wen Stichproben voneinander unabhängig sind?

Gruppen/ Stichproben beeinflussen sich NICHT gegenseitig

Beispiele: Mann-Frau, Elefant-Maus, alkoholfreies Bier-normales Bier

LE 7

Wie sieht ein Streudiagramm bei einer positiven / negativen starken Korrelation aus, wie bei einer sehr schwachen?

LE 8

Welche Voraussetzungen müssen für einen T-Test mit einer Stichprobe vorliegen?

Unabhängigkeit der Gruppen
in diesem Fall nur eine Gruppe z.B. ein Kurs in der Uni (—> also sowieso unabhängig)
metrisches Niveau der Testvariable z.B. Punktedurchschnitt
annähernde Normalverteilung

LE 8

Welche Voraussetzungen müssen für einen T-Test für zwei unabhängige Stichproben vorliegen?

Abhängigkeit der Gruppen z.B. Bachelor-Master
zwei Gruppen (ist bei Abhängigkeit immer der Fall)
metrisches Skalenniveau
annähernde Normalverteilung

LE 8

Welche Voraussetzungen müssen für einen Mann-WhitneyU-Test vorliegen?

Unabhängigkeit der Gruppen z.B. alkoholfreies Bier-normales Bier
Zwei Gruppen
ordinales Skalenniveau z.B. Abfrage welches Bier besser schmeckt auf einer Skala von 1-6
ODER
metrisches Skalenniveau mit KEINER Normalverteilung

LE 8

Welche Voraussetzungen müssen für einen T-Test für zwei unabhängige Stichproben vorliegen?

Unabhängigkeit der Gruppen z.B. Mann-Frau
zwei Gruppen
metrisches Skalenniveau der Testvariable z.B. Punktedurchschnitt, Gehalt etc.
annähernde Normalverteilung

LE 8

Welche Voraussetzungen müssen für einen Wilcoxon-Rangsummen-Test vorliegen?

Abhängigkeit der Gruppen z.B. vor und nach einer Fortbildung
zwei Gruppen
ordinales Skalenniveau z.B. Abfrage auf einer Skala von gut - schlecht
ODER
metrisches Skalenniveau mit KEINER Normalverteilung

LE 8

Welche Aspekte sind bei der Auswahl des richtigen Tests bzw. Zentralmaßvergleiches zu beachten?

das Skalenniveau
die Anzahl der Gruppen
Abhängigkeit bzw. Unabhängigkeit der Gruppen

(4. ein Merkmal ab nominalen Skalenniveau -Gruppenvariable mit zwei Ausprägungen z.B. Mann-Frau- und ein zweites Merkmal - die Testvariable mit dem wir vergleichen möchten z.B. Durchschnittsgehalt)

LE 8

Unabhängigkeit der Stichprobe, da nur eine Gruppe vorhanden -> Studierende der HAM
Anzahl der Gruppe: 1
metrisches Skalenniveau
keine Angabe zur Normalverteilung

—> T-Test für eine Stichprobe

LE 8

Abhängigkeit der Stichprobe, da Messung vor und nach dem Trainingslager
Anzahl der Gruppen: 2, da zwei Messungen (vor- und nach)
metrisches Skalenniveau
da keine Anmerkung -> Normalverteilung

—> T-Test für abhängige Stichproben

LE 8

Unabhängigkeit der Stichprobe, da nun Teilnehmer und Nicht-Teilnehmer des Trainingslagers verglichen werden
Anzahl der Gruppen: 2 -> Teilnehmer und Nicht-Teilnehmer
ordinales Skalenniveau, da Vergleich aufgrund der Platzierung bzw. Rangfolge der Teilnehmer

—> Mann-WHitney-U-Test

Join Course

Preview

Author

Evelyn K.

Information

Last changed
4 years ago

Report course