LE 1 - Was ist Statistik
Induktive Statistik
= Schließende Statistik/ Inferenzstatistik
—> Schluss von Stichproben auf die Grundgesamtheit mit Hilfe von Wahrscheinlichkeitsrechnung
Deskriptive Statistik
= Beschreibende Statistik
Beschreibung, graphische Aufbereitung, Komprimierung von Daten und Tabellen
explorative Statistik
ist Teilgebiet der deskriptiven Statistik
-> Suche nach Mustern und Strukturen
LE 1- Skalenniveaus
Was ist ein diskretes Merkmal - inkl. Beispiel
Was ist ein stetiges Merkmal - inkl. Beispiel
Zu welcher Skala wird das untergeordnet
haben eine endliche oder zumindest abzählbare Anzahl an Elementen - Bsp.: hergestellte Auto pro Monat
Ausbildungen prägen ein Intervall - Bsp.: Gewicht von Personen, Zeitdauer, Größen
Metrische Skala
LE 1 - Skalenniveaus
Ordinalskala
+Beispiel
natürliche Reihenfolge, “besser als”
Bsp.:
Platzierung beim Fußball
Bei welcher Skala gibt es keinen natürlichen Nullpunkt?
Zu welcher Skala wird diese untergeordnet?
Beispiel
Intervallskala und Verhältnisskala (= Ratioskala)
Geburtsjahr, Temperatur in Grad Celsius
LE 1 - Sklaenniveaus
Nominalskala
+ 2 Beispiele
Unterscheidung nur durch ihren Namen möglich.
Kann man nicht ordnen oder subtrahieren bzw. addieren
Familienstand - ledig, verheirate, geschieden, verwitwet
Geschlecht - männlich, weiblich, divers
+2 Beispiele
Festlegung einer Rangfolge, als auch Abstände oder Verhältnisse möglich
Körpergröße
Alter
Metrische Merkmale unterscheidet man in…
Intervallskala
Verhältnisskala
stetige Merkmale
diskrete Merkmale
LE 1 - Ablauf/ Datengewinnung
Primärstat. Datengewinngungsmethoden sind…
Introspektion
Befragung
Beobachtung
Messung physiologischer Daten
Analyse geronnener Spuren
Sekundärstat. Datenquellen sind…
amtliche Wirtschaftsstatstik
nicht- amtliche Produzenten (z.B. Marktforschung, Forschungsinstitute)
LE 1 - Ablauf
5 Phasen der statistischen Untersuchung
LE 1 - Sinnvoll interpetrierbare Berechnungen bei Skalenniveaus
Ordne zu
Auszählen
Differenzen bilden
Quotienten berechnen
Logische Reihenfolge bilden
(metrische Skala)
Differenz bilden
LE 2
Urliste
Menge aller Merkmalswerte (beobachtbare Ausprägungen eines Merkmals)
Relative Häufigkeiten
Absolute Häufigkeit/Anzahl der Beobachtungen n
multipliziert mit 100 für %
Gruppierung von Daten
bei stetigen Variablen können Häufigkeitsverteilungen oftmals unübersichtlich werden (da hohe Anzahl an Merkmalsausprägungen)
Einteilung der Merkmalsausprägungen in Klassen
Grafische Darstellungen
Anhand von Merkmalen passende Form wählen
nur bei bestimmten Skalenniveau sinnvoll
2D oder 3D?
Farbwahl
Proportionale Darstellung / Nicht proportionale Darstellung?
Achsenursprung?
Falsche/schlechte Darstellungen?
kumulierte Häufigkeiten
Werte werden aufsummiert
interessant bei rangskalierten / metrischen Merkmalen
LE 3: Zentralmaße
Was sind Zentralmaße?
Warum brauchen wir Zentralmaße?
Zentralmaße (auch Lagemaße, Lokalisationsmaße) gehören zu den Verteilungskennwerten (neben Streuungsmaßen und Maßen der Verteilungsform). Diese drei Gruppen von Maßen haben alle die prägnante Beschreibung einer Verteilung von Werten zur Aufgabe.
1. Ist kürzer, als jeden Wert einzeln zu betrachten
2. So können mehrere Verteilungen leichter miteinander verglichen werden
Zentralmaße beschreiben eine Verteilung hinsichtlich der Zentralität und beantworten so die Frage: Welcher Wert ist der typischste, wahrscheinlichste, repräsentativste für die Verteilung?
Modus
Was ist der Modus?
Nenne drei Vorteile und drei Nachteile des Modus.
(= Modalwert, Mo)
„Der Wert, der in einer Merkmalsverteilung am häufigsten vorkommt“
Sehr grobes Maß, das nur selten verwendet wird (eher zur Beschreibung des häufigsten Wertes, nicht zur Zentralitätsbeschreibung).
Ist sinnvoll, wenn mehrere Modalwerte vorliegen
+ Der Wert existiert real in den Daten
+ Ab Nominalskalenniveau verwendbar
+ Robust gegenüber Extremwerten
- Möglicherweise nicht repräsentativ
- Bei kleinen Stichproben instabil
- Sehr grob
Median
Was ist der Median?
Nenne zwei Vorteile und drei Nachteile des Medians.
(=50. Perzentil, Mde, Md, Med)
„Der Wert, der sich in der Mitte einer sortierten Merkmalsverteilung befindet“
Die Werte einer Verteilung werden sortiert (daher mind. Ordinal), der mittlere ist der Median (bei ungerader Anzahl von Werten; bei gerader ist es der Mittelwert der beiden mittleren Werte)
+ Ab Ordinalskalenniveau anwendbar
- Ziemlich grob
- Liegt als Wert möglicherweise nicht in der Verteilung vor
LE 4
Was ist des Variationskoeffizient?
Um die Streuung verscheiedener Merkmale miteinander zu vergleichen benutzt man den Variationskoeffizient v. Die Berechnung des Variaitionskoeffizienten ergibt sich aus der Division des Standardabweichung durch den Mittelwert. Sinvoll ist der Variationskoeffizient, wenn die Merkmalsprägungen Vielfache einer Einheit sind.
Arithmetisches Mittel
Was ist das artithmetische Mittel?
Nenne zwei Vorteile und drei Nachteile des arithmetischen Mittels.
(=M, MW, AM)
„Der Wert, der sich ergibt, wenn man die Werte einer Verteilung aufsummiert und durch ihre Anzahl teilt“
Sehr häufig angewendet zur Verteilung der zentralen Tendenz
+ Relativ stabil bei Stichprobenverteilungen, die aus der gleichen Grundgesamtheit gezogen worden sind
+ Grundlage für viele statistische Berechnungen
- Anfällig gegenüber Ausreißern
- Verlangt Intervallskalenniveau
- Liegt als Wert wahrscheinlich nicht in der Verteilung vor
Wie berechnet man die Standarabweichung?
Die Standardabweichung ist die Quadratwurzel der Varianz. Dies wird gemacht, damit der Wert der Standardabweichung in der gleichen Dimension gemessen wird wie die Urwerte (bei der Varianz wurden die Werte ja vorher quadriert).
LE 3 Zentralmaße
Geometrisches Mittel
Was ist das geometrische Mittel?
Welches Skalenniveau benötigt man mindestens für das geometrische Mittel?
(= GM, G, Xgeo)
„Das GM wird zur Berechnung einer konstanten (durchschnittlichen) Wachstumsrate verwendet“
Es verlangt Verhältnisskalenniveau
Was sagt die Standardabweichung aus?
Entspricht die Verteilung einer Normalverteilung (viele Messerte im mittleren Bereich, wenige in der Randbereichen), so kann man die Verteilung der Gauß´schen Glockenkurve annähern.
Harmonisches Mittel
Wozu benötigt man das harmonische Mittel? Welches Skalenniveau ist dabei mindestens notwendig?
(= subkonträres Mittel)
„Zur Berechnung von Durchschnittsgeschwindigkeit bei gleicher Weglänge“
Verhältnisskalenniveau notwendig
Was sind Quantile?
Die Streuung zumindest ordinalskalierter Daten um ihr Zentrum lässt sich zusätzlich durch das p-Quantil beschreiben. Das p-Quantil einer Verteilung ist der Wert, der die aufsteigend geordnete Reihe von n Beobachtungswerten in eine bestimmten Verhältinis p zu (1-p) in zwei Gruppen trennt.
Bsp. Verhältinis bei Median: 50:50
wichtige Quantile: oberes, underes Quartil und obere und untere Dezile
Teilt man die Beobachtungswerte im Verhältnis 25:75, d.h man teilt den Datensatz in 4 gleich große Stücke, so spricht man von Quartilen. Die Grenzen nennt man 1. Quartil (unteres Quartil), 2. Quaritl (=Median) und 3. Quartil (oberes Quartil).
Teilt man die Beobachtungswerte in 10% Schritte (also in 10 Teile) spricht man von Dezilen, teilt man sie in 100 Teile spricht man von Perzentilen.
Wie berechnet man die Varainz?
Bei der Varianz wird jeder Wert des dAtensatzes vom Mittelwert subtrahiert und anschließend quadriert (damit sich die Differenzen nicht gegenseitig aufheben). Die Summe dieser quadrierten Abwichungen wird dann durch de Umfang des Datensatzes n geteilt.
Was ist eine Boxplot?
Bei einem Boxplot werdes das obere und das untere Quartil in Form eines Kastens (=Box) der Länge x 0,75 - x 0,25 dargestellt, der Median wird durch einen Punkt oder Strich markiert. Durch die mittige oder nicht-mittige Position des Medians innerhalb der Box kann man einer symmetrische oder asymmetrische Verteilung herleiten.
Fügt man dieser Grafi noch Minimum oder MAximum in Form von dünnen Linien (engl. Whiskers) ein, so erkennt man zusätzlich noch eventuelle Ausreißer.
Wozu brauchen wir Streuungsmaße?
Zur Beschreibung einer Datenmenge reicht die Ermittlung eines Zentralmaßes alleine nicht.
Durch die zusätzliche Angabe eines Streuungsmaßes kann die Datenmenge wesentlich genauer beschrieben werden.
Da tatsächlich ermittelte Werte immer streuen, (Toleranz in der Produktion, Abweichungen bei Individuen …) ist das Modell mit Streuungsmaß realitätsnäher.
Welche Aussagen ergeben sich bei einer Normalverteilung?
In dem Intervall (Mittelwert -1s; Mittelwert +1s) befinden sich 68% aller Messerte
In dem Intervall (Mittelwert -2s; Mittelwert +2s) befinden sich 95,5% aller Messwerte
In dem Intervall (Mittelwert -3s; Mittelwert +3s) befinden sich 99,7% aller Messwerte
Ab welchem Saklenniveau können Merkmale durch die Spannweite (r) beschrieben werden, welche aus der Differenz zwischen dem größten Wert (= Maximum) und dem kleinsten Wert (= Minimum) der Urliste berechnet wird?
Was misst die Standardabweichung s, bzw. die die Varianz s^2?
Sie messen die Streuung des Daten um das arithmetische Mittel. Dies ist v.a. wichtig, um die Qualität des AM einordnen zu können.
LE 5
Was sind grobe Abweichungen?
Grobe Abweichungen können mehrgipflig oder extrem schiefe/gewölbte Verteilungen sein.
Wie kann mathematisch abgeschätzt werden, ob eine Normalverteilung vorliegt?
Im Intervall muss die 0 enthalten sein —> Normalverteilung liegt vor
Intervall mit Null: ein negativer Wert bis ein postiver Wert
Siehe Beispiel - wurde ausgeteilt
Wie kann anhand eines Q-Q-Diagrammes von einer Normalverteilung ausgegangen werden?
Bei diesem Diagramm werden die beobachteten Werte gegen die bei einer Normalverteilung zu erwarteten Werte abgetragen. Streuen die beobachteten Werte relativ eng und zufällig um die Gerade, kann von einer Normalverteilung ausgegangen werden.
Wie werden grobe Abweichungen graphisch dargestellt?
Wie kann anhand eines Boxplot von einer Normalverteilung ausgegangen werden?
Über den Median kann beim Boxplot auf eine Normalvereteilung gschlossen werden. Wenn dieser ungefähr in der Mitte der Box liegt, kann von einer Normalverteilung ausgegangen werden.
LE 6
Was ist eine Kontingenztabelle?
Eine Tabelle, die die Häufigkeiten von Kombinationen mehrerer Merkmalsausprägungen darstellt.
Wird z.B. durch Aufbereitung einer bivariaten Urliste (Urliste mit 2 Merkmalsausprägungen) erstellt.
Welche Möglichkeiten hat man, um die relativen Häufigkeiten einer Kontingenztabelle zu berechnen?
3 Möglichkeiten:
Bezogen auf die Zeilen
(z.B. erste Zeile: 17/39*100=43,6% und 22/39*100=56,4%
Bezogen auf die Spalten (z.B. erste Spalte: 17/104*100=16,3%)
Bezogen auf die Gesamtsumme (z.B. 17/194*100=8,8%)
Wie ergeben sich die Randhäufigkeiten einer Kontingenztabelle?
Die Randhäufigkeiten sind die Summen der jeweiligen Zeilen und/oder Spalten.
Wie nennt man die Datenanalyseverfahren, bei denen
1 Mekrmal
2 Merkmale
mehr als 2 Merkmale
untersucht werden?
1 Merkmal: Univariate Datenanalyse
2 Merkmale: Bivariate Datenanalyse
mehr als 2 Merkmale: Multivariate Datenanalyse
Wie wählt man im konkreten Fall aus, auf welche Art man die relativen Häufigkeiten einer Kontingenztabelle berechnet?
Die Wahl, auf was man die prozentuale Verteilung bezieht (Spalte, Zeile, Gesamtsumme) hängt von der Fragestellung ab.
Faustregel: Will man Spalten miteinander vergleichen, nimmt man die Zeilensumme. Will man Zeilen miteinander vergleichen, nimmt man die Spaltensumme.
LE 7
Was bedeutet “signifikant”
Signifikanz ist das Maß an Wahrscheinlichkeit, mit der eine Aussage die Wirklichkeit trifft.
Von was ist die Auswahl eines statistischen Tests in bedeutendem Maße abhängig?
von dem Skalenniveau der Merkmale
Wann kann ein Korrelationskoeffizient berechnet werden?
Voraussetzung ist eine annähernde Normalverteilung (beim Test der Signifikanz)
Chi^2 - Unabhängigkeitstest: Interpretationen
wenn > 0, dann gibt es einen Zusammenhang
p-Wert (asymptotische Signifikanz)
Richtwert p < 0.05 => signifikanter Zusammenhang
Korrelationskoeffizient nach Bravais/Pearson
Die Korrelationsanalyse gibt die Stärke und Richtung eines linearen Zusammenhangs an
Der Korrelationskoeffizient liegt zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang)
0 heißt, dass es keinen Zusammenhang zwischen den beiden Variablen gibt
Was versteht man unter Zusammenhangsanalysen?
Gibt es einen statistisch signifikanten Zusammenhang zwischen zwei Variablen
Was ist beim Korrelationskoeffizienten zu beachten?
Eine starke Korrelation ist nicht unbedingt ein Beleg für Kausalität, d.h. für einen inhaltlichen Zusammenhang.
Z.B. ist es möglich, dass sich zwei Variablen durch den Einfluss einer dritten in derselben Weise ändern (also stark korrelieren) und so eine Scheinkorrelation zu beobachten ist.
Chi^2 - Unabhängigkeitstest
Mittels des Chi^2 - Unabhängigkeitstests können Zusammenhänge zwischen zwei nominal skalierten Variablen aufgedeckt werden
LE 8
Was bedeutet es, wen Stichproben voneinander unabhängig sind?
Gruppen/ Stichproben beeinflussen sich NICHT gegenseitig
Beispiele: Mann-Frau, Elefant-Maus, alkoholfreies Bier-normales Bier
Wie sieht ein Streudiagramm bei einer positiven / negativen starken Korrelation aus, wie bei einer sehr schwachen?
Welche Voraussetzungen müssen für einen T-Test mit einer Stichprobe vorliegen?
Unabhängigkeit der Gruppen
in diesem Fall nur eine Gruppe z.B. ein Kurs in der Uni (—> also sowieso unabhängig)
metrisches Niveau der Testvariable z.B. Punktedurchschnitt
annähernde Normalverteilung
Welche Voraussetzungen müssen für einen T-Test für zwei unabhängige Stichproben vorliegen?
Abhängigkeit der Gruppen z.B. Bachelor-Master
zwei Gruppen (ist bei Abhängigkeit immer der Fall)
metrisches Skalenniveau
Welche Voraussetzungen müssen für einen Mann-WhitneyU-Test vorliegen?
Unabhängigkeit der Gruppen z.B. alkoholfreies Bier-normales Bier
Zwei Gruppen
ordinales Skalenniveau z.B. Abfrage welches Bier besser schmeckt auf einer Skala von 1-6
ODER
metrisches Skalenniveau mit KEINER Normalverteilung
Unabhängigkeit der Gruppen z.B. Mann-Frau
zwei Gruppen
metrisches Skalenniveau der Testvariable z.B. Punktedurchschnitt, Gehalt etc.
Welche Voraussetzungen müssen für einen Wilcoxon-Rangsummen-Test vorliegen?
Abhängigkeit der Gruppen z.B. vor und nach einer Fortbildung
ordinales Skalenniveau z.B. Abfrage auf einer Skala von gut - schlecht
Welche Aspekte sind bei der Auswahl des richtigen Tests bzw. Zentralmaßvergleiches zu beachten?
das Skalenniveau
die Anzahl der Gruppen
Abhängigkeit bzw. Unabhängigkeit der Gruppen
(4. ein Merkmal ab nominalen Skalenniveau -Gruppenvariable mit zwei Ausprägungen z.B. Mann-Frau- und ein zweites Merkmal - die Testvariable mit dem wir vergleichen möchten z.B. Durchschnittsgehalt)
Unabhängigkeit der Stichprobe, da nur eine Gruppe vorhanden -> Studierende der HAM
Anzahl der Gruppe: 1
keine Angabe zur Normalverteilung
—> T-Test für eine Stichprobe
Abhängigkeit der Stichprobe, da Messung vor und nach dem Trainingslager
Anzahl der Gruppen: 2, da zwei Messungen (vor- und nach)
da keine Anmerkung -> Normalverteilung
—> T-Test für abhängige Stichproben
Unabhängigkeit der Stichprobe, da nun Teilnehmer und Nicht-Teilnehmer des Trainingslagers verglichen werden
Anzahl der Gruppen: 2 -> Teilnehmer und Nicht-Teilnehmer
ordinales Skalenniveau, da Vergleich aufgrund der Platzierung bzw. Rangfolge der Teilnehmer
—> Mann-WHitney-U-Test
Zuletzt geändertvor 2 Jahren