Häufigkeitsverteilung - Pivottabelle
Pivottabelle mit allen Daten erstellen
Merkmal in Zeilen ziehen, dann das Merkmal in Werte ziehen und bei Wertfeldeinstelungen statt Summe, Anzahl auswählen
Rel. Häufigkeit: Wertfeldeinstellung bei Anzahl, dann Werte anzeigen als: % des Gesamtergebnisses
Hotkeys Excel
Alle Daten markieren: Überschriften in erster zeile markieren, dann Strg + Shift + Pfeiltaste unten
F4 um eine Formel auf alle Spalten anzuwenden ($$)
Formel relative Häufigkeit
Anzahl des Merkmals durch Gesamtanzahl aller Merkmale dieses Typs
Skalenniveau:
nominal
ordinal
intervall
verhältnis
nominal: Daten werden kategorisiert, keine Ordnung oder Reihenfolge, keine mathematischen Operationen möglich.
Erlaubte Verdichtung/Aggregation (statistische Maße): Häufigkeitsverteilung und daraus resultierende Anteilswerte
—> Beispiel: Geschlechter, Lieblingsfarbe
ordinal: Daten werden kategorisiert, Ordnung oder Rangfolge, mathematische Operation nicht sinnvoll.
Erlaubte statistische Maße: Häufigkeiten, Median, Quantile.
—> Beispiel: Bildungsniveau(Grundschule,Gymnasium,Universität)
intervall: Merkmale besitzen Werte auf einer Skala mit gleich großen Abschnitten ohne natürlichen Nullpunkt(genauer Zeitpunkt), Addition und Subtraktion möglich
Zulässige statistische Maße (resultieren aus zulässigen math. Operationen): Arithmetisches Mittel, Standardabweichung etc.
—> Beispiel: Temperaturskala in celsius
verhältnis: Merkmale besitzen Werte auf einer Skala mit gleich großen Abschnitten und natürlichen Nullpunkt(genauer zeitpunkt)
Verhältniswerte können gebildet werden. Alle mathematischen Operationen
sind erlaubt (auch Division, Multiplikation).
—> Beispiel: Gewicht, Größe oder Anzahl etwas.
Summenhäufigkeit Excel Formel + Pivottabelle
Formel berechnen:
rel. Häufigkeit berechnen
Erste Spalte übernehmen
Jetzt den Wert aus der Spalte zuvor mit dem Wert der aktuellen Spalte addieren
In Excel die Spalten erweitern bis 100%
In Pivot:
Merkmal in Bereich Werte ziehen
auf Anzahl ändern
Werte anzeigen lassen als % laufende Summe in
Empirische Verteilungsfunktion mit Hilfstabelle
Treppenfunktion konstruieren mit Hilfstabelle ( Eckpunkte):
Erster Punkt auf der x-Achse (0|0) weil Artikelnummer fängt bei 1 an und der erste Punkt soll drunter liegen
Zweiter Punkt fängt bei x = 1 (weil 1 erster Wert von Merkmal Artikelnummer) an und immernoch y = 0 (1|0)
Dritter Punkt bleibt bei x = 1 (weil 1 erster Wert von Merkmal Artikelnummer) und y = 1. Wert der Summenhäufigkeit
Vierter Punkt x = 2 und y = Wert zuvor
Punkte 3 + 4 wiederholen sich wobei y der nächste Wert in der Summenhäufigkeit ist siehe Screenshot
In Excell unter Diagramme ein Punkt XY “Diagramm mit geraden Linien und Datendarstellungen” auswählen und die X und Y Werte als Daten von der Hilfstabelle auswählen
!! Wenn man keine numerischen Werte für das Merkmal hat z.B Band A und B, dann umcodieren zu Zahlen wie Band 0 und Band 1 !!
Histogramm Excel + klassen
Vorgegebene Anzahl an Klassen derselben Breite bilden
—> MIN = in Excel Formel Min nutzen und alle Daten auswählen; für MAX das gleiche mit Formel Max
—> MAX - MIN / Anzahl an Klassen = Breite
Klassierte HfktVerteilung berechnen:
—> Tabelle mit einzelnen Klassen + Obergrenze erstellen
—> K1 Obergrenze = MIN + Breite
—> Alle weiteren Klassen = Obergrenze von davor + Breite
Histogramm erstellen über Datenanalyse:
—> Eingabebereich = Daten von Merkmal mit Überschrift auswählen
—> Klassenbereich = Daten der Obergrenze mit Überschrift
—> Ausgabebereich = in Feld klicken, dann Feld auswählen wo das Diagramm hinkommt
—> Haken setzen bei: Beschriftungen, Kummulierte Häufigkeit und Diagrammdarstellung
Approximierende Verteilungsfunktion
Hilfstabelle erstellen mit X und Y:
Erster Punkt auf der x-Achse (1000|0) weil Menge fängt bei 1059 an und der erste Punkt soll drunter liegen (Hilfspunkt)
Zweiter Punkt fängt bei x = 1059 an (weil 1 erster Wert von Merkmal Artikelnummer) und immernoch y = 0 (1|0)
Dritter Punkt x = 1. Wert Obergrenze und y = 1. Wert kummulierte Häufigkeit aus Histogramm
Für die restlichen Punkte Schritte von Dritter Punkt wdh
Letzter Punkt x = künstlicher Wert größer als Wert zuvor y = 100%
Liniendiagramm “Linie mit Datenpunkten” erstellen mit Werten der Hilfstabelle
—> Für Reihen: Benennen und Werte von Y auswählen
—> Für Rubrik: Werte von X auswählen
Feinberechnung eines Wertes der approximierenden Verteilungsfunktion
relative Häufigkeit von histogramm berechnen:
—> absolute Hfkt / Summe der absoluten Hfkt
relative normierte Hfkt berechnen:
—> rel. Hfkt / Klassenbreite
F(x) bestimmen:
—> X Wert anschauen in welcher Klasse dieser sich befindet
—> Kumulierter Wert der Klasse zuvor + (X Wert - Untergrenze der aktuellen Klasse bzw Obergrenze der Klasse zuvor) * rel. normierte Hfkt von aktueller Klasse = Feinberechnung eines X Wertes
Mittelwertkennzahlen für ein Merkmal berechnen
Arithmetisches Mittel:
=Mittelwert —> Durchschnitt des Merkmals
auch mit Pivot möglich über Wertefeld - Mittelwert
—> nur sinnvoll bei berechnungen für mehrere Daten mit bestimmten Kriterien
Modus:
=Modus.einf —> häufigster Wert der Daten
Median:
=Median —> Wert der in der Mitte steht (Position)
Quantil:
=Quantil.inkl —> abhängig von k (quantil ein Wert zwischen 0 und 1)
Arithmetisches Mittel bei gruppierten Daten (Tabelle):
Tabelle mit abs. Hfkt. bzw Beobachtungen aufschreiben (xi und ni)
Eine weitere Spalte mit xi*ni bilden und dementsprechend berechnen
Summe aus xi*ni / Beobachtungen ni = arith. Mittel
Klassieren mit Quantilswerten
1 / Anzahl gegebene Klassen = Quantilswert der Klasse 1
—> bei jeder Klasse zusätzlich drauf addieren (siehe Beispiel)
Obergrenze berechnen: =Quantil.inkl(Daten;Quantilswert)
—> Hieraus kann man auch ein Histogramm über Datenanalyse erstellen
Streuungskennzahlen
Spannweite berechnen: =Max(Daten)-Min(Daten)
—> geht nur mit Datenset
Lineare Streuung: =mittelabw(Daten)
—> durchschnittliche Abweichung von arith. Mittel
Standardabweichung: =STABW.N(Daten)
—> durchschnittliche abweichung vom arith. Mittel
—> in Pivot: Merkmal in Wertefeld ziehen - zusammenfassen als Standardabweichung Gesamtheit
Varianz =var.p(Daten)
—> auch in Pivot möglich unter Werte anzeigen als Varianz
Variationskoeffizienz: = Standardabweichung / arith. Mittel
Zinswert ausrechnen Geomittel Excel
Tabelle erstellen:
—>Jahr
—>angespartes Kapital (Geldmenge) pro Jahr
—> Zuwachsrate in % (Zinssatz) pro Jahr
—> Zuwachsfaktor (1+(Zinssatz/100)) pro Jahr
Um die durchschnittliche Verzinsung herauszufinden für gleiches Ergebnis wie mit unterschiedlicher Verzinsung:
—> Alle Zuwachsfaktoren multiplizieren und die n-te Wurzel ziehen (n=Jahre)
In Excel: =Geomittel(jeder Zuwachsfaktor)
Outlier Detection
Mittelwert-Standardabweichung Verfahren:
—> Schrittweite a=b=: Richtwert von 2 nehmen wenn nicht angegeben
—> Intervalluntergrenze berechnen: =Mittelwert - Schrittweite * Standardabweichung
—> Intervallobergrenze berechnen: =Mittelwert + Schrittweite * Standardabweichung
Quantilabstandsverfahren:
—>alpha Wert ist gegeben
—>Untergrenze berechnen: =quantil.inkl(Daten;alphaWert)
—>Obergrenze berechnen: =quantil.inkl(Daten;1-alphaWert)
Outlier mit oder berechnen:
—> =Oder(Daten<Intervalluntergrenze;Daten>Intervallobergrenze)
—> Wahrheitswert als Ergebnis —> Outlier(ausreisser) sind WAHR
In Pivot Tabelle übernehmen:
—> Datensatz Outlier mit in die Daten der Pivottabelle übernehmen
—> Outlier als Filter benutzen und nur Daten anzeigen, bei denen der Wert FALSCH ist
Symmetrische Verteilung
Säulendiagramm
—> eindeutiges Maximum: Median = Mittelwert
—> Rechtsschiefe Verteilung: Median < Mittelwert
—> Linksschiefe Verteilung: Median > Mittelwert
Korrelationswert in Excel
Mit Formel:
=Korrel(Datenmenge1;Datenmenge2)
—> negativer Wert: entgegen-gesetzt gerichteter Zusammenhang
—> positiver Wert: gleich-gesetzt gerichteter Zusammenhang
—> Werte 0-0,35(auch für negative Werte): schwacher Zusammenhang zwischen den Datenmengen
—> Werte 0,35-0,65(auch für negative Werte): mittel starker Zusammenhang zwischen den Datenmengen
—> Werte 0.65-1(auch für negative Werte): starker Zusammenhang zwischen den Datenmengen
—> Je höher der Zusammenhang desto abhängiger sind die Merkmale von einander
Datenanalyse:
—> Datenanalyse: Korrelation auswählen, Eingabebereich = Alle Daten mit Überschrift und Überschriften anhaken
Rangkorrelation
Ränge berechnen:
Bei Ordinalen Skalenniveaus wie Noten verwenden
=Rang.mittelw(1. Wert in Daten;Alle Daten;1(absteigend))
—> Kleinster Wert = 1; Größter Wert = größte Zahl im Rang
—> Erstelle Rangwerte für alle Daten
—> Wenn nur 2 Datenreihen dann Formel =korrel benutzen
—> Wenn mehr dann Datenanalyse mit den Rang werten
Kontingenzkoeffizient
Pivot Tabelle erstellen 2 diemnsional (Zeile+Spalte)
Nur die Werte kopieren und alle außer die ganze links löschen
Berechnung unabhängig erwartende absolute Häufigkeit berechnen:
—> Randverteilungswert*Gesamtergebnis von Merkmal/Gesamtergebnis Randverteilung
—> Refferenzieren $1.Wert*2.Wert$/$3.Wert$
Chi-quadrat:
Tabelle von oben kopieren außer das berechnete
Formel: =(Wert von Merkmal-unabhängig Hfkt)^2/unabhängig Hfkt
Chi quadrat jetzt berechnen: =Summe(Werte Merkmal1:Werte Merkmal2)
K berechnen: =Wurzel(Chi/(Chi+Gesamtergebnis Merkmal))*Wurzel(2)
Regressionsanalyse
Bei 2 Datensätzen:
—> XY Streudiagramm Mit Trendlinie erstellen
—>Bei mehr: Datenanalyse Regression
—>Stabilität rechnen: =Standardfehler/Mittelwert(abhängige Daten)
Wenn ein kleiner Wert dann ist es eine hohe Stabilität
Bei mehr, Datenanalyse Regression:
—> Regressionsfunktion: Y= Schnittpunkt+Merkmal1x1+Merkmal2*x2
(x1 bei Merkmal1, x2 bei Merkmal2)
Absatz um 1E von Merkmal1 anheben:
1/Koeffizienten Merkmal1
Merkmal1 ändern um Absatz um 1E zu erhöhen:
Kehrwert:
Richtungszusammenhang
Korrelationskoeffizient gibt STärke und Richtung des Zusammenhangs an. Wert nahe an -1 starker negativer Zusammenhang, Nah an 1 starker positiver zsmhang
Trendprognose
Trend für nächsten Wert berechnen, anhand vergangener Daten:
—> Aktuellster Wert+(aktuellster Wert-Wert zuvor) T*(abs. Änd.)
Performance Measurement:
et: =abs(tatsächlicher Wert-Trendwert)
abs(et/Tt): =abs(et/tatsächlicher Wert)
et2: =et^2
—> MAD: =Mittelwert(et Werten), durchsnittliche Abweichung von tatsächlichem Wert
—> MAPE: = Mittelwert(abs(et/Tt) durchschnittlichen Prozentualen Fehler
—> RMSE: =Wurzel(Mittelwert(et2))
—> VKRMSE: =RMSE/Mittelwert(tatsächliche Werte)
Prognosegenauigkeit:
—> 0-0,1 gering
—> 0,1-0,25 mittel
—> >0,25 hoch
Wahrscheinlichkeiten
Unabhängige Merkmale:
—> Gesamt von Merkmal1/Gesamt*Gesamt von Merkmalsausprägung
Bedingte Wahrscheinlichkeit:
—> (Anzahl Merkmalsausprägung/Gesamt)/(Gesamt von Merkmalsausprägung/Gesamt)
Satz von Bayes
Binominalverteilung
f(x)=(Binom.vert(Anzahl Ereignis X;Versuche;Wahrscheinlichkeit;0)
—> Für eine genaue Anzahl von x, z.B x=5 kummuliert 0
F(x)=(Binom.vert(Anzahl Ereignis X;Versuche;Wahrscheinlichkeit;1)
—> Für mehrere Ereignise von x, x<=5 kummuliert 1 NUR FÜR KLEINER/GLEICH
Wenn x>Zahl, Gegenereignis bilden:
—> bsp. binom von P(x>7) == 1-P(x<=7) kummuliert 1
Wenn x in einem Bereich:
—> Alles bis zur größten Zahl des Intervalls minus die kleinste Zahl des Intervalls: P(2<=x<5) —> P(X<=4)-P(x<=1)
Poissonverteilung
f(x)=poisson.vert(Anzahl Ereignis x;Lambda;0)
F(x)=poisson.vert(Anzahl Ereignis x;Lambda;1)
—>Nur kummuliert 1 wenn Anzahl Ereignis x nicht genau eine Zahl
Lambda ist gegebener Wert
Exponentialverteilung
P(X) = Angegebener Zeitraum/Bezug
—> Bsp. Bezug =10; Lambda=5, innerhalb von 2,5min: P(x<=2,5/10)
=Exponent.vert(0,25;5;1)
Erwartungswert E(x): 1/Lambda —> Durchschnittliche Bezugszeit die es braucht bis Ereignis x eintrifft
Varianz: V(x): 1/Lambda²
Normalverteilung
Mü = Mittelwert bzw. durchschnitt
Sigma = Standardabweichung
=norm.vert(x;Mü;Sigma;kummuliert 1 oder 0)
X Wert finden, mithilfe von Wahrscheinlichkeit
=norm.inv(Wahrscheinlichkeit,Mü;Sigma)
—> Überschrittene Wahrscheinlichkeit: Gegenwahrsch. zum rechnen benutzen
—> unterschrittene Wahrscheinlichkeit: Mit dieser Wahrsch. rechnen
Bei Mü=0 und Sigma = 1, verwende =norm.s.vert und norm.s.inv
Bei Symmetrie: Wahrscheinlichkeit, Mü und Sigma sind gegeben
—> x2: Norm.inv(Wahrscheinlichkeit+1/2 von Wahrscheinlichkeit die fehlt für 100%;Mü;Sigma)
—> x1: Norm.inv(1/2 von Wahrscheinlichkeit die fehlt für 100%;Mü;Sigma)
Bsp.
Symmetrisches intervall mit wahrsch. 0,95,Mü=3;Sigma=2:
—>x2: =norm.inv(0,975;3;2)
—>x1: =norm.inv(0,025;3;2)
Konfidenzintervall
=Norm.S.Inv(1-a/2)
Alpha = Kehrwert zu Wert von Konfidenzintervall, bsp. Konfi = 0,95, alpha = 0,05
x_quer = Mittelwert von Daten
n = Anzahl an Daten
Sigma = wird als bekannt angenommen oder wenn nicht, dann =stab.w.s(Daten)
sigma x_quer: Sigma/Wurzel(N)
Quantilswert(z): =norm.s.inv(1-(alpha/2))
—> Berechne KI-Untergrenze: X_quer-Quantilswert*Sigma xquer
—> Berechne KI-Obergrenze: X_quer+Quantilswert*Sigma xquer
—> Berechne Absolute Länge KI: Obergrenze-Untergrenze
—> Relative Länge: Sigma xquer/x_quer
Bei Stichproben Berechnung:
—> Länge ist gegeben, N soll berechnet werden
Formel: =POTENZ((2*sigma*quantilswert)/2);2 —> Stichprobe als Ergebnis
Stichprobentests
Szenario aufgreifen:
—> Welches merkmal soll überprüft werden?
—> Welcher Parameter? Z.B durchschnittswert=Mittelwert
—>Stichprobentest approximativer Erwartungswert wenn Anzahl an Daten >= 30
Testform Hypothese aufstellen:
—> als erstes immer H0: Mü = Mü0=
—> Was soll überprüft werden? z.B im Durchschnitt soll ein Wert von 6 erreicht werden, dann prüft man ob dies nicht eingehalten wird also ob mü < 6 wird
—> H1: Mü < Mü0
—>H0 anpassen auf H1, hier im bsp. muss man das gegenereignis aufstellen also >
—> H0: Mü > Mü0
Variabeln berechnen:
x_quer: =mittelwert(Merkmal das überprüft werden soll)
Mü0: ist im Text gegeben, der zu prüfende Wert
Sigma: Standardabweichung, wenn nicht gegeben schätzen: =Stabw.s(Merkmal zu überprüfen)
n: Menge an Daten
Sigma x_quer: =Sigma/Wurzel(n)
Prüfgrösse berechnen:
—>(xquer-Mü0)/sigma x_quer
SIG: =(1-NORM.S.VERT(abs(Prüfgrösse);1)*2
Wenn alpha gegeben: alpha > SIG —> H0 ablehnen heisst, das der prüfende Wert abweicht
Zuletzt geändertvor einem Jahr