Wichtiges
Beispiel Skript Seite 28 Anschauen !
2.1 Häufigkeitsverteilungen
Häufigkeitsverteilung:
Tabellarische oder Grafische Darstellung der geordneten Merkmalausprägungen - ihnen zugeordneten absoluten und relativen Häufigkeiten
Zeit wie häufig bestimme Merkmalauspr. In den Daten vorkommt
Relative Häufigkeit gibt den Anteil von allen Beobachtungswerten an
Tabellarische und grafische Darstellung hängen Merkmalsart und der Skalierung ab
Häufigkeitstabelle:
Tabelle Beispiel Skript Seite 29
Merkmalausrprägung ist x
Index j spricht für die versch. Werte
Beispiel j = 1 - Entwicklung
X1 = Entwicklung
Absolute Häufigkeit: h
einer bestimmten Merkmalausrpägung : h (xj)
Kann nur durch zählen bestimmt werden
Beispiel 7 Beschäftigte arbeiten in der Entwicklung h (x1) = 7
Relative Häufigkeit - f
gibt Anteil der absoluten Häufigkeit an der Gesamtzahl der Beobachtungswerte an
Formel auf Karteikarte!
- n gibt die Anzahl aller Beobachtungswerte an
- n = 25 Beispiel app Inc. im Skript Seite 29
Anwendung der Formel sagt:
Dividire absolute Häufigkeit der Ausprägung durch die Anzahl aller Beobachtungen
Es handelt sich um einen Anteil das Ergebnis,
Der wert kann durch Multiplikation mit 100% als Prozentzahl ausgedrückt werden
Also 0,28 mal 100% = 28 %
Beispiel 28% aller Personen sind in der Entwicklung beschäftigt
Wichtig:
absolute und relative Häufigkeiten liefern prinzipiell identische Infos
Mit der relativen H. Kann man Verteilungen besser Vergleichen
Grafische Darstellung:
wie im Beispiel App inc
Merkmal = Abteilung (besitzt abzählbare Merkmalausrpägung)
Können in keine natürliche Reihenfolge gebracht werden
Ist also Qualitatives, diskretes Merkmal , kann auf keiner Nominalskala gemessen werden
Geläufigste Darstellungen
Säulendiagramm:
Anordnung der Merkmalausprläung ist willkürlich , gibt keine natürliche Ordnung
Säulendiagramm wird auch Stabdiagramm genannt
Man kann auch Balkendiagramm nehmen
Kreisdiagramm:
Meist bei Nominalskallierten Merkmalen (Kreis hat keinen Anfang bzw Endwert)
Komparative Merkmale:
zb Ausbildung , Noten
Merkmalausprägung: x1 = Mittl. Reife , x2 = Abitur, x3 = Bachelor , x4 = Master
Ausprägungen haben eine natürliche Ordnung, sind abzählbar, folglich komparatives , diskretes Merkmal
Wird auf Ordinalskala gemessen
Beim Beispiel soll stat. Erfasst werden wieviele Beschäftigte einen bestimmten Abschluss haben
Für dieses Merkmal - Häufigkeitstabelle udn ein Säulendiagramm (alles im Skript abgebildet) Seite 32, 33…
Beispiel aus dem Skript:
laut Säulendiagramm - 9 Beschäftigte Abschluss (Merkmalausprägung) Bachelor (absolute Häufigkeit) bzw 36% aller Beschäftigten haben einen Bachelor
Aufgrund dieser Ordnung ist es möglich :
Kumulative absolute bzw relative Häufigkeiten zu berechnen , bei denen die Einzelhäufigkeiten jeweils addiert werden
Kumulierte absolute Häufigkeit = H : Entspricht der Summe der absoluten Häufigkeiten von Merkmalausrpägungen
Kumulierte relative Häufigkeit = F : Entspricht der Summer der relativen Häufigkeiten von Merkmalausprägungen
Aus dem Beispiel im Skript Seite 33
kumulative absolute H. Der Merkmalauspr. Mittl. Reife und Abitur ist die Summe der absoluten H. Beider Ausrpägungen also
3 + 6= 9
Formale Schreibweise H (x2) = h (x1) + h (x2) = 3+6=9
9 Mitarbeiter haben einen Abschluss der Mittl. Reife und Abi
Analog kann zur Ermittlung der kumulierten relativen H. Der Ausprägungen M.R. Und Abi vorgeben zb.
F (x2) = f (x1) + f (x2) = 0,12 + 0,24 = 0, 36
Also 36 % haben M.R oder Abi
Formel dazu auf Karteikarte !
Wichtig
wird über alle Merkmalauspr. Kumuliert, entspricht die Kumulierte absolute H. Stets der Anzahl der Beobachtungen n und die kumulierte relative H. Ist gleich 1
Beispiel H (x4) = 3+ 6+9+7= 25 (gesamtwert)
X4 = Abschlüsse, 3 Mittl. R. , 6 Abi, 9 Bachelor, 7 Master
Beispiel F (x4) = 0,12+0,24+0,24+0,36+0,28= 1 (das muss so sein)
Denn 100% der Beschäftigten (25) haben einen der Abschlüsse
Quantitative Merkmale und Intervallskala:
Beispiel Skript App Inc.:
Merkmal Eintrittsjahr - abzählbare Merkmalauspr. Also diskret allerdings hier quantitatives Merkmal
Dadurch Häufigkeitstabelle und Säulendiagramm - Skript Seite 35
Quantitative Merkmale und Verhältnisskala:
Merkmal Bruttogehalt : natürliche Reihenfolge - natürlicher Nullpunkt
Liegt ein quantitatives Merkmal vor
Wird auf Verhältnisskala gemessen
Problem ist: Anzahl Ausprägungen ist sehr hoch , würde schnell unübersichtlich
Besser Daten klassieren (größe Anzahl von Merkmalauspr. Wird zu überschaubar vielen Klassen zusammengefasst
Wichtig : Klassen dürfen nicht überlappen, zw. Den Klassen keine Zwischenräume
Beispiel Klassen Karteikarte! S. 36
Klassen Mitte und Klassenbreite
Klassen Mitte *:
entspricht dem Wert, der in der Mitte der Klasse liegt
* bedeutet es ist die mittte der klasse
Klassenbreite w:
ist die Differenzierung zwischen oberer und unterer Klassengrenze
Außerdem gibt a untere Klassengrenze und b obere Klassengrenze an
Index j kennzeichnet jeweilige Klasse zb j = 1
Beispiel Skript Seite 37
Klasse = K
Tief gestellte Zahl zeigt Klassennummer Skript Seite 36!
Zusatz Bemerkungen
absolute H. Gibt bei klassierten Daten Anzahl der Beobachtungen an die in bestimmte Klasse fallen
Zb 5 Bruttogehälter die in Klasse 3 fallen , 5 Mitarbeiter verdienen zwischen 5000 und 6999,99
Relative H. Zeigen wie viel Prozent der Beobachtungswerte in eine bestimmte Klasse fallen
Zb 20% aller Bruttogehälter in Klasse 3
Kumulierte absolute und relative H. Summieren die Einzelwerte auf
zb der Wert 11 zeigt anl dass insg. 11 Bruttogehälter entweder in Klasse 1 oder 2 oder 3 Fallen
Der wert 0,44 zeigt an, dass 44% aller Bruttogehälter entweder 1,2,3 Klasse zugehören
Es gibt überabzählbare Möglichkeiten für die Verteilung der Beobachtungswerte innerhalb der Klasse
es ist in der Statistik üblich Annahmen über Verteilung der Beobachtungswerte innerhalb der Klassen zu treffen
Zwei annahmen sind am geläufigsten
Einpunkt und Rechteckverteilung:
Einpunktverteilung - sind per Annahme alle Beobachtungswerte mit der Klassenmitte identisch
Rechteckverteilung- sind per Annahme alle Beobachtungswerte gleichmäßig über die dKlassenbreite verteilt
Einpunktverteilung
alle Beobachtungswerte stimmen mit der Klassen Mitte überein
Wir erhalten eine per Annahme erzeugte Merkmalausprägung xj stern oben (Karteikarte)
Zb x1 stern : 1500 kommt 3 mal vor (absolute Häufigkeit)
X2 stern : 4000 gleiches
X3 stern: 6000 gleiches wie bei x1
Wir tun so als wären die Klassenmitten unsere Beobachtungswerte (diagram u Beispiel im Skript )Seite 39
Rechteckverteilung
hat mehr Bezug zu den realen Daten
Wird ausgegangen dass sich die Beobachtungswerte gleichmäßig über die gesamte Klassenbreite verteilen
Werden durch Rechtecke grafisch dargestellt
Breiten der Rechtecke identisch mit Breiten der Klassen
Höhe kann ermittelt werden, dass die relative Häufigkeit durch die Klassenbreite dividiert wird
Zb 1. Rechteck f1/w1 = 0,00004
2 f2/w2 = 0,00006
Werte geben an wie dicht die Beobachtungswerte innerhalb der Klassen liegen
Je höher der Wert desto dichter liegen die Klassen aneinander
Flächeninhalt zeigt die relative Häufigkeit
Wichtig : zwischen den Rechtecken also zwischen den Klassen darf es keine Abstände geben
Klassen sollen alle möglichen Ausprägungen behinhalten
Klassierte Daten
emprirische Verteilungsfunktion (grafische Darstellung) im Skript Seite 40
Präsentiert die kumulierte Häufigkeit
Zeigt an wie hoch der Anteil oder Beobachtungswerte ist der kleiner od. Kleiner/gleich eines wertes ist siehe Skript
Wann sollen Daten klassiert werden ?
sobald es sehr viele unterschiedliche Merkmalausprägungen gibt
Vorallem bei stetigen Merkmalen der fall (zb Gewicht)
Ist überabzählbar viele Ausrpägungen
Beispiel im Skript ist stetiges Merkmal - werden ebenfalls klassiert
2.2 Lagemaße
Lagemaße
beschreiben die zentral Lage einer Verteilung
Mit Hilfe der Häufigkeitsverteilungen ist es möglich Daten überstichtlich darzustellen - Vorallem bei sehr vielen Daten
Gängige Praxis der statistischen Analyse
Nachteil alle Daten müssen berücksichtigt werden
Hilfe schafft das Konzept der statistischen Maßzahlen (Od. Kennzahlen) - Versuch die Daten mit einem bestimmten wert , der stat. Maßzahl zu beschreiben
Wir unterscheiden Lagemaß (Daten sollen durch einen mittleren wert charakterisiert werden
Oder Streuungsmaße (Unterschiedlichkeit der Daten steht im Vordergrund )
Typische Lagemaße
Mittelwert: (arithmetische Mittel) - entspricht dem Durchschnitt der Beobachtungswerte
Median: (zentral Wert)
Modus: (modal Wert)
Welche Lagemaße zur Anwendung kommen hängt davon ab um welche Merkmals Art es sich handelt und auf welcher Skala das Merkmal gemessen wird
Lagemaße (zentrale Lage einer Verteilung)
Streuungsmaße (Streuung einer Verteilung wird anhand des Streuungsmaße beschreiben
Mittelwert
Beispiel 10 Studierende werden nach alter (= Merkmal) gefragt
Ergebnisse (Beobachtungswerte) sind:
25,25,30,23,41,36,33,33,25,31
Der Mittelwert der Daten gibt aufschluß über durchschnittliches Alter
Berechnung : alle Beobachtungswerte addieren und dann Anzahl der Beobachtungen dividieren
25+25+30+23+41+36+33+33+25+31 : 10 = 302 :10= 30,2 Jahre alt
Formel auf Karteikarte
Index i wird verwendet um alle Beobachtungswerte kennzeichnen zu könne
Beispiel xi = 25, xi = 25 xi = 30…
Summe Zeichen ist auf Karteikarte ( beschreit das alle Beobachtungswerte (i gleich 1 geteilt durch n ) addiert werden
Formel auf Karteikarte Seite 42
Summe aller Beob. W entspricht 302 und für die Anzahl gilt n = 10
Mittelwert kann auch alternativ berechnet werden
Beispiel: Hilfreich ist die absoluten Häufigkeiten der Merkmalausrpägungen anzugeben :
X1 = 23 - h (x1) = 1
X2 = 25 - h (x2) = 3
X3 = 30 - h (x3) =1 usw. im Skript Seite 43
X1,2,3 … geben Merkmalausprägung an und nicht Beobachtungswert
Absolute Häufigkeit h wird zur Anzahl der Beobachtungswerte (in diesem fall 10) addiert
Rechnung im Skript , Formel im Skript Seite 43
Merkmal Alter stellt quantitatives Merkmal dar
Wird auf Verhältnis Skala gemessen
Für solche Merkmale ist Mittelwert geeignetes Lagemaß
Dieses Merkmal hat keinen Nullpunkt, deswegen Intervallskaliert handelt sich um einen Durchschnitt
Zahl gibt mittleren wert des Beobachtungswerts an
für qualitative od komparative Merkmale kann der Mittelwert nicht berechnet werden
Gibt allerdings “Ausreißer”
Beispiel Skript Seite 44l
Bei Interpretation von Mittelwerten muss überprüft werden ob Ausreißer den durchschnitt verzerren
Berechnung Mittelwert von klassierten Daten
Besonderheit , usprüngliche werte sind nicht mehr vorhanden oder erkennbar
Weder Beobachtungswerte aufsummieren noch absolute Häufigkeit der Merkmalauspr. Berechnen
Um trotzdem Mittelwert zu berechnen : Annahme der Rechteck- Verteilung
Anstelle Merkmal xj die Klassenmitte xj stern oben Formel im skript (Karteikarte anlegen) Seite 44
Modus:
kommt am häufigsten in den erhobenen Daten vor
Wird als häufigster wert bezeichnet durch x unten mod symbolisiert
Eignet sich zur Beschreibung von qualitativen Daten die auf Nominalskala gemessen werden
Beispiel app inc. welches Merkmal kommt man häufigsten vor
Antw. Die Ausrpägung Entwicklung ist mit einer absoluten Häufigkeit von 7 der häufigste wert
X mod= Entwicklung
Modus lässt sich auch für komparative und quantitative Merkmale bestimmen
Merkmal Ausbildung x mod=Ausbildung
Merkmal Eintrittsjahr x mod = 2010
großer Vorteil des Modus - ist gegenüber Außreisern unempfindlich
Median
statistische Maßzahl, gibt den Beobachtungswert an
Liegt genau in der Mitte (wird auch Zentral wert genannt )
X med = ist das Symbol
Um den Median zu berechnen müssen die Beobachtungswerte geordnet werden
Auf oder absteigend
Median ist nicht geeignet für qualitative Merkmale
Sinnvoll für komparative und quantitative
Bei komp. m. Gilt die Einschränkung , dass einen ungerade Anzahl an Beob. W. Vorliegen muss
Beispiel Skript 10 studierende
Beob. W. Sortieren nach Alter - aufsteigend nach ihrer Größe
Hierbei gerade Anzahl n = 10
Mitte ist dadurch kein beobachteter wert
Sondern wert zwischen dem fünften Bw (30) und dem sechsten Bw. (31)
Median entspricht x med= 30,5
Würden 11 Studenten gefragt wäre eine genau Mitte vorhanden …31 wäre direkt in der Mitte
Also Median x med= 31
Bei ungerader Anzahl ist die Mitte ablesbar
Median ist dann unempfindlich gegernüber Ausreißern denn das alter der Befragten hätte keine Auswirkung
2.3 Streuungsmaße
Beispiel im Skript Seite 46
wichtigste Streuungsmaße sind die
Varianz
Standard Abweichung
Mittlere absolute Abweichung
Alle drei ausschlißlich für quantitative Merkmale geeignet
Zur Darstellung der Streuung von komparativen Merkmalen eignet sich Spannweite
Kann auch bei quantitativen Merkmalen berechnet werden
Für Streuung von qualitativen M. Werden andere MaßGrößen ger genommen wird aber nicht näher drauf eingegangen
Varianz und Standardabweichung
Varianz ist Streuungsmaß
Drückt Streuung der Daten m den Mittelwert aus
Je höher der Wert, desto höher die Streuung einer Verteilung (sofern der Mittelwert konstant bleibt)
Berechnet wird Varianz indem man Differenzen zwischen Beob. W. Und Mittelw. Bildet, Ergebnisse quadriert, dann aufsummiert, am Ende durch die Anzahl der Beobachtungen dividiert
Beispiel im Skript Seite 47
Die 50 aus dem Skript stellt die gesuchte Varianz dar symbolisiert durch s hoch 2
Wichtig :
3 Ergänzungen im Skript mit Beispiel
2te Beispiel kann durch Umrechnung entkräftet werden
Durch ziehen der Wurzel wird die Quadrierte Zahl wieder zu ihrer ursprünglichen Einheit zurückgeführt
Beispiel Befragung 1: Wurzel50 = 7,07s (das beobachtete Alter weicht um 7,07 Jahre vom Mittelwert 30 Jahre ab
Beispiel Befragung 2: Wurzel0,40= 0,63 (0,63 Jahre vom Mittelwert 30 Jahre)
- Streuung in Befragung 1 ist wesentlich höher l
Der sogewonnene Wert ist als Standardabweichung gekennzeichnet mit s
Varianz und Standardabweichung Berechnung mit folgender Formel auf Karteikarte
Varianz kann auch auf basis der absoluten und relativen Häufigkeit ermittelt werden
Formel für absolute Häufigkeit in Skript (Karteikarte)
Xj nun die Merkmalausprägung (nicht der Beobachtungswert)
- m die anzahl der Merkmalausrpägungen in den Daten angibt
Beispiel Arbeitstabelle Skript Seite 51
neben Varianz und Standardabweichung noch drittes Maß
Charakterisiert Streuung der Daten um den Mittelwert
Mittlere absolute Abweichung MAD
Wird durch folgende Formel charakterisiert Skript Seite 52
Anstatt Differenzen der Beobachtungswerte vom Mittelwert zu quadrieren, wird der absolutbetrag der Differenz verwendet
Negative werte werden durch den absolutbetrag zu positiven Werten
Beispiel Skript Seite 53
Spannweite
Differenz zwischen dem höchsten und dem niedrigsten Beobachtungswert nenn man Spannweite
Spannweite ist ein Streuungsmaß
Buchstabe R (range)
Gibt Differenz zwischen dem maximalen und minimalen Beobachtungswert an
Beispiel im Skript : Niedrigste wert ist 23 höchste ist 41l
Spannweite ist R= 41-23=18
Ist allerdings empfindlich für Ausreißer
Spannweite kann auch für komparative Merkmale angegeben werden
Übungen im Skript Seite 54 und 55
Zuletzt geändertvor 2 Jahren