Häufigkeitsverteilungen (Histogramme)
x-Achse = Werden die Kategorien aufgetragen
y-Achse = Werden die Anzahl der Beobachtungen dieser
Kategorien aufgertragen
Wie sieht eine Normalverteilung aus?
Symmetrisch
Glockenförmig
Eigenschaften von Häufigkeitsverteilungen
-> Schiefe (Skew)
= Bezieht sich auf die Symmetrie der Verteilung (beide seiten
gleich aufgeteilt)
Negative Skew - Ansammlung bei hohen Werten, Ausläufer sind niedrigr Werte (rechtssteil, linksschief)
Positive Skew - Ansammlung bei niedrigen werten, Ausläufer sind hohe Werte (linkssteil, rechtsschief)
-> Breite Wölbung (Kurtosis)
= Das Gewicht der Kurve
steilgipflig, supergaußförmig, leptokurtisch = schwere Ausläufer (heavy tails)
flachgipflig, supergaußförmig, platykurtisch = leichte Ausläufer (light tails)
(Normalverteilung - mesokurtisch = 0)
Zentrale Tendenzen: der Mode
Mode = häufigster vorkommender Wert
Mode (häufigster vorkommender Wert)
Bimodal (wenn 2 Modes existieren)
Multimodal (wenn mehre Modes exestieren)
zentrale Tendenz: arithmetisches Mittel
(Mittelwert)
Gleichgewichtspunkt der Daten
Summe der Daten dividiert durch die Anzahl der Daten
Zentrale Tendenz: Median
= Jener Wert, der die Verteilung in zwei gleiche Teile teilt
Verteilung: Range
= Differenz zwischen kleinstem und größtem Wert
(Stark verzerrt, wenn Ausreißer vorliegen)
Verteilung: Quantile
Quantil (Q1, Q2, Q3)
Jene drei Werte, die eine Verteilung in 4 gleiche Teile trennt
zweites Quantil = Median
unteres Quantil = Median der unteren Hälfte der Daten
oberes Quantil = Median der oberen Hälfte der Daten
Prozentrange (percentil)
= Verteilung in 100 gleich große Teile zerlegt
So entspricht das Quantil Q97 dem P97: unterhalb dieses Punktes liegen 97% aller Fälle der Verteilung
teilt ein die Zahlengrade in sich nicht überlappende Intervalle
Wahrscheinlichkeitsverteilungen
= Stellen “idealisierte Verteilungen” dar und werden allgemein als Wahrscheinlichkeitsverteilung bezeichnet
-> Von diesen Verteilungen lassen sich Wahrscheinlichkeiten berechnen, mit denen ein bestimmter Wert in einer angeführten Verteilung auftritt
(z.B. Normalverteilung, t-Verteilung)
Varianz
= Die Varianz ist ein Maß dafür, wie stark die Werte einer Zufallsvariable um ihren Mittelwert streuen -> Je größer die Varianz, desto größer die Streuung um den Mittelwert
Kennzeichnet für symmetrisch verteilte Merkmale die Variabilität von Messwerten am besten
Merkmale: erhobene Größe/ statistische Variable
Mittelwert: repräsentiert modellhaft die zentrale Eigenschaft der Daten
Abweichung: der Einzelnen Werte vom Mittelwert
Stichprobenumfang: Quadratsumme ist auch vom Stichprobenumfanf abhängig (realtivieren wir sie an N)
-> Stichprobenvarianz unterschätzt die Populationsvarianz
(Nachteil: quadrierte Einheit)
Standardabweichung
= Kann als repräsentative Abweichung vom Zentrum interpretiert werden
Gleiche Einheit wie Messwerte
Quadratwurzel der Varianz
Eigenschaft der z-Transformation
z-Werte haben einen Mittelwert von 0 und eine Standardabweichung von 1
z- Werte
Standardisierte Werte
= Umwandlung von Werten versch. Messinstrumente in neue gemeinsame Einheit -> um sie miteinander zu vergleichen
Stellen ein vielfaches der Standardabweichung dar.
Sind Einheitslos
Standardfehler
= Statistische Kennzahl, die die Streuung des Stichprobenmittelwertes um den wahren Mittelwert der Population repräsentiert
Die Schätzung des Populationsmittelwertes ist unter folgenden Vorraussetzungen hinreichend genau:
Stichprobengröße n > 30
Stichprobenvarianz unterschätz Populationsvarianz, daher Korrektur
(Stichprobenvarianz in der Regel kleiner als die Populationsvarianz)
Kennwerte
Mittelwert und Varianz sind statistische Kennwerte zur Beschreibung einer Empirischen Verteilung
Bzg auf Stichprobe - mit lateinischen Buchstaben dargestellt
Bzg auf Population - griechische Buchstaben verwendet
Nicht bekannte Kennwerte (Schätzung aus Teilmenge der Grundgesamtheit - greichische Buchstaben mit Dach
Verteilung: als Wahrscheinlichkeit
Anstelle von absoluter Häufigakeit (Hn), kann man die relative Häufigkeit (hn) mit der ein bestimmter Wert auftritt, betrachten
Wahrsheinlichkeit ist die beste Vorhersage für die zu erwartende relative Häufigkeit des bestimmten Ergebnisses bei einem Zufallsversuch
Frequentistische (objektive) Wahrscheinlichkeitsbegriff (interpretiert die Wahrscheinlichkeit eines Ereignisses als relative Häufigkeit, m. der eine groze Anzahl gleicher, wiederholter, voneinander, unabhängiger Zufallsexperimente auftritt)
Bayesscher Wahrscheinlichkeitsbegriff
Interpretiert Wahrscheinlichkeit als Grad persönlicher Überzeugung (degree of beliefe)
Wahrscheinlichkeit als Aussage über die Plausibilität des Eintretens eines Ereignisses
Zufallsexperiment als Grundlage nicht notwendig
In Bayesschen Statistik werden immer bedingte Wahrscheinlichkeiten betrachtet (wie wahrschein ist es, dass Aussage A eintritt, wenn Aussage B eingetreten ist)
Berechnung erfolgt mit Hilfe desBayestheorem
Das statistische Modell
Grundlegenste Formel der Statistik
Ergebnis = Modell + Fehler
In Statistik, Modelle um Wirklichkeit abzubilden (bspw. Mittelwert -> keine perfekte Abbildung d. Wirklichkeit)
Eine gute Beschreibung des Fehlers ist die Standardabweichung
In Bzg Vgl. Modell mit Wirklichkeit eignet sich Standardfehler als kennzeichnender Wert (gibt an, wie gut Stichprobe Grundgesamtheit repräsentiert)
Punktschätzung
Schätzung von Populationsparametern durch einen einzigen Wert, der aus beobachteten Daten ermittelt wird
Schwanken von Stichprobe zu Stichprobe
Stellen Zufallsvariablen dar, deren Verteilung bekannt sein muss um Brauchbarkeit d. Schätzung richtig zu bewerten
Konfidenzintervall - Motivation
= Berechnung eines Bereiches, in dem der unbekannte Parameter mit großer Sicherheit liegt
Standardfehler gibt dabei eine Aussageb über Genauigkeit der Schätzung (wie fehlerbehaftet Mittel ist)
Bei Berechnung von Konfidenzintervallen wird Standardfehler des Mittelwerts (SE) verwendet, weil Variabilität des Stiprobenmittelwerts untersucht wird und nicht Variabilität innerhalb der Stichporbe
Warum benutzt manbei der Berechnung von Konfidenzintervallen den Standardfehler des Mittelwertes?
Weil wir nicht an der
Unter welchen Bedingungen würde ein Konfidenzintervall schmäler ausfallen (genauere Schätzung des Konfidenzintervalls)
Bei einer größeren Stichprobe (Weil dann die Schätzung des Mittelwerts besser ist -> unwahrscheinlicher, dass Stichprobe zufällig verzerrt wird)
Bei einer niedrigeren Streuung (Wenn Streuung niedriger ausfällt, liegen die einzelnen Werte vergleichsweise näher am Mittelwert)
Bei weniger Konfidenz
Last changed8 months ago