Beim Rechnen mit Prozenten unterscheiden wir zwischen Prozentsatz, Prozentwert und Grundwert (Zegarelli 2015, S. 144-145). Der Prozentsatz gibt an, welchen Anteil ein Wert an einem anderen Wert hat. Wenn wir beispielsweise insgesamt 50 Euro Guthaben auf dem Konto haben und 20 Euro abheben wollen, dann sind diese 20 Euro 20/ 50 ∗100 % = 0,4 * 100 % = 40 Prozent unseres Guthabens. Der Prozentwert ist der Wert, der von einem anderen Wert vorliegt. Falls wir von unseren 50 Euro auf dem Konto 40 Prozent abheben wollen, dann sind dies 40 % 100 % ∗ 50 = 0,4 ∗ 50 = 20 Euro. Der Grundwert ist der Wert, von dem ein anderer Wert vorliegt. Wenn wir mit 20 Euro 40 Prozent unseres Guthabens abheben, dann hatten wir ursprünglich 100 % 40 % ∗ 20 = 2,5 ∗ 20 = 50 Euro auf dem Konto. Wir sehen, dass Prozentsatz, Prozentwert und Grundwert miteinander zusammenhängen.
Prozentsatz = Prozentwert/ Grundwert ∗ 100 %
Prozentwert = Prozentsatz/ 100 % ∗ Grundwert
Grundwert = 100 % Prozentsatz ∗ Prozentwert
Bei Steigungen bzw. Zunahme: Grundwert + Prozentsatz ∗ Grundwert
Bei Gefällen bzw. Abnahme: Grundwert − Prozentsatz ∗ Grundwert
Grundwert bestimmen bei Zunahme:
(Grundwert*100%)/ Prozentsatz Zunahme (z. B. 115%)
Prozentwert bei Abnahme bestimmen:
(Prozentsatz/100%) * Grundwert
Fallbeispiel Wahlen: Betrachten wir zunächst die Wahlbeteiligung. 10.000 Personen (Grundwert) waren wahlberechtigt. An der Wahl beteiligt haben sich insgesamt 8.000 Bürgerinnen und Bürger (Prozentwert). Wir können jetzt problemlos den Prozentsatz der Wahlbeteiligung berechnen: 8.000 /10.000 * 100 % = 0,8 *100 % = 80 %
Nun schauen wir uns das Wahlergebnis der Union Zamoniens (UZ) an. Von den 8.000 abgegebenen Stimmen (Grundwert) entfielen 1.800 auf die UZ (Prozentwert). Das entspricht 22,5 Prozent. 1.800/ 8.000 100 % = 0,225 ∗100 % = 22,5 % Auf die FPZ (Freiheitliche Partei Zamonien) entfielen 1.200 der 8.000 abgegebenen Stimmen (15 Prozent).
1.200/ 8.000 *100 % = 0,15 ∗ 100 % = 15 %
Zwischen der UZ und der FPZ liegen |22,5 − 15| = |7,5| = 7,5 Prozentpunkte. Anders formuliert: Die UZ hat 22,5/ 15 ∗ 100 % = 1.800/ 1.200 ∗ 100 % = 1,5 ∗ 100 % = 150 Prozent des Stimmenanteils der FPZ (bzw. 1.800−1.200/ 1.200 ∗ 100 % = 600/ 1.200 ∗ 100 % = 0,5 ∗ 100 % = 50 Prozent mehr Stimmen als die FPZ).
Fall: In der quantitativen Sozialforschung werden Forschungsfragen und Hypothesen anhand von Untersuchungseinheiten überprüft. Bei diesen Untersuchungseinheiten – oft einfach nur Fälle genannt – kann es sich beispielsweise um Personen, Länder oder Zeitungsartikel handeln. Wenn wir uns beispielsweise für die persönliche Zufriedenheit am Arbeitsplatz interessieren, dann sind unsere Untersuchungseinheiten Personen. Wenn wir uns mit auffälligen Überschriften in Boulevard-Zeitschriften beschäftigen, dann sind unsere Untersuchungsobjekte Zeitungsartikel und deren Überschriften. Wenn wir die Auswirkungen einer Finanzkrise auf die Haushaltspolitik der EU-Staaten untersuchen, dann sind unsere Untersuchungseinheiten die Mitgliedsländer der Europäischen Union. Bei Benninghaus (2007, S. 17) findet sich folgende Definition: „Die Untersuchungseinheit, ganz allgemein auch Beobachtung oder Fall (engl. case) genannt, ist als Merkmalsträger das Bezugsobjekt der Forschung.“ Ein Fall ist also Einheit, die den Bezugspunkt einer sozialwissenschaftlichen Untersuchung darstellt. Die Art der Fälle hängt vom jeweiligen Forschungsinteresse (und der jeweiligen Untersuchungsmethode) ab. Fälle werden auch Merkmalsträger genannt, da sie die Merkmale „besitzen“, die uns interessieren.
Merkmal:Bei Merkmalen handelt es sich um Eigenschaften, die Untersuchungseinheiten (bzw. Fälle) aufweisen (Benninghaus 2007, S. 17; Gehring und Weins 2009, S. 15; Weischer 2015a, S. 258). Bei Personen sind das beispielsweise Informationen zu Alter und Geschlecht. Bei Zeitungsartikeln sind es die Anzahl an Buchstaben und die Größe der Überschrift. Bei Ländern ist es die Höhe der Staatsverschuldung. Unser Forschungsinteresse bestimmt die Merkmale, die wir in unsere Untersuchungen einbeziehen.
Ausprägung: Ausprägungen sind die möglichen Kategorien von Merkmalen (Gehring und Weins 2009, S. 15; Weischer 2015b, S. 258). Beim Merkmal „Geschlecht“ einer Person sind die möglichen Ausprägungen beispielsweise „Mann“ und „Frau“. Beim Merkmal „Überschriftgröße“ eines Zeitungsartikels sind die möglichen Ausprägungen die unterschiedlichen Schriftgrößen und beim Merkmal „Staatsverschuldung“ eines Landes sind die möglichen Ausprägungen die jeweilige Höhe. Es geht also um die Ausprägung, die ein Merkmal annimmt (bzw. annehmen kann). Dies führt uns zur Unterscheidung zwischen Variable und Konstante. Bei Tausendpfund (2018, S. 11) finden wir folgende Definitionen: „Eine Variable ist ein sozialwissenschaftliches Merkmal mit mindestens zwei Ausprägungen. Ein Merkmal mit nur einer Ausprägung wird Konstante bezeichnet.“
Variable: Eine Variable ist also ein Merkmal, das mindestens zwei Ausprägungen besitzt (Gehring und Weins 2009, S. 15). Im Bereich der (deskriptiven) Statistik werden die Begriffe „Merkmal“ und „Variable“ häufig synonym verwendet (Weischer 2015a, S. 258).9 Die Variable „Geschlecht“ hat beispielsweise die Ausprägungen „Mann“ und „Frau“. Variablen sind in der quantitativen Sozialforschung sehr bedeutsam, weswegen wir uns noch eine weitere Definition von Diaz-Bone (2018, S. 17) anschauen: „Die in Datensätzen enthaltenen Daten repräsentieren Variablen, welche Resultat der Operationalisierung (der Messbarmachung) sind. Unter einer Variable versteht man eine messbar gemachte Dimension (Merkmal), die verschiedene Ausprägungen (Werte) annehmen kann.“
Wert: In der quantitativen Sozialforschung arbeiten wird in der Regel mit umfangreichen Datensätzen. Das können beispielsweise Umfragedaten von tausenden Personen oder inhaltsanalytische Untersuchungen von zahlreichen Texten und Dokumenten sein. Deswegen ordnen wir den unterschiedlichen Ausprägungen einer Variable jeweils eine Zahl zu, um diese Variable quantitativ untersuchen zu können.10 Dieser Vorgang – das Messen – bringt uns zum letzten Begriff, dem Wert (engl. value). Die Zahlen, die den Ausprägungen zugeordnet werden, sind die Werte einer Variable (Gehring und Weins 2009, S. 15). Ein Beispiel: Die Variable „Geschlecht“ besitzt zwei Ausprägungen, nämlich „Mann“ und „Frau“. Wir ordnen der Ausprägung „Mann“ den Wert 1 und der Ausprägung „Frau“ den Wert 2 zu. In Tabelle 27 finden wir eine Übersicht zu den zentralen Begriffen und zwei Beispielen. Bei einer Person (Fall) können wir hinsichtlich des Geschlechts (Variable) zwischen Männern und Frauen unterscheiden (Ausprägungen), wobei wir Männern den Wert 1 und Frauen den Wert 2 zuordnen. Bei einem Zeitungsartikel (Fall) können wir hinsichtlich der Überschriftgröße (Variable) zwischen klein, mittel und groß unterscheiden (Ausprägungen), wobei wir klein den Wert 1, mittel den Wert 2 und groß den Wert 3 zuordnen.
Urliste
Bei einer Urliste handelt es sich um eine tabellarische Übersicht der einzelnen Fälle und ihrer Merkmalsausprägungen (Benninghaus 2007, S. 30; Gehring und Weins 2009, S. 120). In unserem Beispiel sind die Fälle die 20 Personen. Das Merkmal ist das Interesse an Zeitungen der 20 Personen. Die Merkmalsausprägungen sind die unterschiedlichen Zeitungsinteressen – kein, schwach, mittel und stark. In Tabelle 28 finden wir eine Übersicht für jede Person und ihre Affinität für Zeitungen. Person 17 hat beispielsweise ein schwaches Interesse an Zeitungen und Person 5 hat hingegen ein starkes Zeitungsinteresse
Die Anzahl der Personen ist gleichzeitig die Anzahl der Fälle (n). Jede Person ist somit auch ein Fall (i). Die unterschiedlichen Ausprägungen unserer Variable „Interesse an Zeitungen“ (X) sind kein, schwach, mittel und stark. Zusätzlich ordnen wir jeder Person entsprechend ihres Zeitungsinteresses einen Wert (xi) zu. Personen mit keinem Interesse erhalten den Wert 1, Personen mit schwachem Interesse erhalten den Wert 2, Personen mit mittlerem Interesse erhalten den Wert 3 und Personen mit starkem Interesse erhalten den Wert 4.
Die Variable kürzen wir mit einem 𝐗 ab. Die Anzahl der Fälle kürzen wir mit einem 𝐧 ab. Die einzelnen Fälle kürzen wir mit einem 𝐢 ab. Die Werte der Ausprägungen pro Fall kürzen wir mit einem 𝐱𝐢 ab.
Primäre Tafel
In einer primären Tafel ordnen wir die Fälle entsprechend ihrer Merkmalsausprägungen an . Wir können so die einzelnen Personen nach ihrem Interesse an Zeitungen (bzw. ihren Werten) sortieren, um uns eine (geordnete)
Übersicht zu verschaffen. Auf diese Weise sind wir in der Lage, ganz einfach abzulesen, welchen
Wert eine Person an einer bestimmten Position hat (x(i)).
Die geordneten Werte der Ausprägungen nach Position kürzen wir mit einem 𝐱𝐱(𝐢𝐢) ab. An Position 3 befindet sich eine Person mit schwachem Interesse an Zeitungen (x(3) = 2). An Position 9 befindet sich eine Person mit mittlerem Interesse an Zeitungen (x(9) = 3). An Position 17 befindet sich eine Person mit starkem Interesse an Zeitungen (x(17) = 4).
Sinn und Zweck einer primären Tafel ist es, dass wir ablesen können, an welcher Position welche Ausprägung aufritt. Für unser Beispiel bedeutet das: Welcher Wert (bzw. welche Ausprägung) des Interesses an Zeitungen tritt an welcher Position auf? Auch hier gilt: Wenn die Anzahl der Fälle insgesamt zu groß wird (z.B. mit 2000 Fällen), dann ist eine primäre Tafel nicht sinnvoll. Dafür gibt es Häufigkeitstabellen.
Die dritte Person (i = 3) hat ein mittleres Interesse an Zeitungen und weist folglich den Wert 3 auf (x3 = 3). Die achte Person (i = 8) hat kein Interesse an Zeitungen und weist folglich den Wert 1 auf (x8 = 1). Die zehnte Person (i = 10) hat ein starkes Interesse an Zeitungen und weist folglich den Wert 4 auf (x10 = 4).
Sinn und Zweck einer Urliste ist es, dass wir ablesen können, welcher Fall welche Ausprägung aufweist. Für unser Beispiel bedeutet das: Welche Person hat welches Interesse an Zeitungen? Wenn die Anzahl der Fälle insgesamt zu groß wird, dann ist eine Urliste allerdings nicht sinnvoll. Eine Urliste mit beispielsweise 2000 Fällen ist zu umfangreich, um sie in einer Tabelle darstellen zu können. Dafür sind Häufigkeitstabellen deutlich besser geeignet.
Bei einer Häufigkeitstabelle handelt es sich um eine tabellarische Übersicht der Ausprägungen einer Variable und ihre jeweiligen Häufigkeiten. In unserem Beispiel sind die Merkmalsausprägungen die unterschiedlichen Zeitungsinteressen und die Häufigkeiten sind die Anzahl der Personen, die sie jeweils aufweisen. Tabelle 31 bietet eine einfache Häufigkeitstabelle für unser Beispiel. Zwei Personen haben kein Interesse, sechs Personen haben ein schwaches Interesse, acht Personen haben ein mittleres Interesse und vier Personen haben ein starkes Interesse.
Bei Häufigkeitstabellen unterscheidet man in der Regel unterschiedliche Arten der Häufigkeit: Absolute Häufigkeit (fj) Relative Häufigkeit (pj) Relative Häufigkeit in Prozent (pj%) Kumulierte relative Häufigkeit in Prozent (pj(kum)%)
Die absoluten Häufigkeiten (fj) geben die Anzahl der Fälle wieder, die die einzelnen Merkmalsausprägungen aufweisen. In unserem Beispiel ist das die Anzahl der Personen pro Kategorie des Zeitungsinteresses. Zur Erinnerung: Wir hatten jeder Ausprägung einen Wert zugeordnet: Personen mit keinem Interesse erhalten den Wert 1, Personen mit schwachem Interesse erhalten den Wert 2, Personen mit mittlerem Interesse erhalten den Wert 3 und Personen mit starkem Interesse erhalten den Wert 4.
Die Werte der einzelnen Ausprägungen (bzw. Kategorien) kürzen wir mit einem 𝐣 ab. Die absolute Häufigkeit pro Ausprägung (bzw. Kategorie) kürzen wir mit einem 𝐟𝐣 ab.
-Die Ausprägung „kein“ (j = 1) weisen zwei Personen auf (f1 = 2).
-Die Ausprägung „schwach“ (j = 2) weisen sechs Personen auf (f2 = 6).
-Die Ausprägung „mittel“ (j = 3) weisen acht Personen auf (f3 = 8).
-Die Ausprägung „stark“ (j = 4) weisen vier Personen auf (f4 = 4)
Die relativen Häufigkeiten (pj) geben die Anteile der absoluten Häufigkeiten der einzelnen Merkmalsausprägungen an der Anzahl der Fälle insgesamt wieder. In unserem Beispiel ist das der Anteil der Personen in einer Kategorie des Zeitungsinteresses gemessen an allen Personen. Dazu dividieren wir die absoluten Häufigkeiten jeweils durch die Anzahl an Fällen insgesamt: pj = fj/ n
Die relative Häufigkeit pro Ausprägung (bzw. Kategorie) kürzen wir mit einem 𝐩𝐣 ab.
-Die Ausprägung „kein“ (j = 1) weisen zwei von 20 Personen auf: p1 = f1 n = 2 20 = 0,1
-Die Ausprägung „schwach“ (j = 2) weisen sechs von 20 Personen auf: p2 = f2 n = 6 20 = 0,3
-Die Ausprägung „mittel“ (j = 3) weisen acht von 20 Personen auf: p3 = f3 n = 8 20 = 0,4
-Die Ausprägung „stark“ (j = 4) weisen vier von 20 Personen auf: p4 = f4 n = 4 20 = 0,2
Die relativen Häufigkeiten in Prozent (pj%) geben die prozentualen Anteile der absoluten Häufigkeiten der einzelnen Merkmalsausprägungen an der Anzahl der Fälle insgesamt wieder. In unserem Beispiel ist das der prozentuale Anteil der Personen in einer Kategorie des Zeitungsinteresses gemessen an allen Personen. Dazu dividieren wir die absoluten Häufigkeiten jeweils durch die Anzahl an Fällen insgesamt und multiplizieren anschließend mit 100 Prozent – oder wir multiplizieren einfach die relativen Häufigkeiten jeweils mit 100 Prozent: pj% = fj/ n * 100 % = pj ∗100 %
Die relative Häufigkeit in Prozent pro Ausprägung (bzw. Kategorie) kürzen wir mit einem 𝐩𝐣% ab.
-Die Ausprägung „kein“ (j = 1) weisen 10 Prozent von 20 Personen auf: p1% = f1 n ∗ 100 % = 2 20 ∗ 100 % = 0,1 ∗ 100 % = 10 %
-Die Ausprägung „schwach“ (j = 2) weisen 30 Prozent von 20 Personen auf: p2% = f2 n ∗ 100 % = 6 20 ∗ 100 % = 0,3 ∗ 100 % = 30 %.
-Die Ausprägung „mittel“ (j = 3) weisen 40 Prozent von 20 Personen auf: p3% = f3 n ∗ 100 % = 8 20 ∗ 100 % = 0,4 ∗ 100 % = 40 %.
-Die Ausprägung „stark“ (j = 4) weisen 20 Prozent von 20 Personen auf: p4% = f4 n ∗ 100 % = 4 20 ∗ 100 % = 0,2 ∗ 100 % = 20 %
Die kumulierten relativen Häufigkeiten in Prozent (pj(kum)%) geben aufsummierte prozentuale Anteile wieder. In unserem Beispiel sind dies kombinierte prozentuale Anteile von Personen mit unterschiedlichen Zeitungsinteressen. Dazu addieren wir die relativen Häufigkeiten in Prozent der Reihe nach auf. Wenn wir beispielsweise herausfinden möchten, wie viel Prozent höchstens ein schwaches Interesse an Zeitungen haben, dann addieren wir die prozentualen Anteile der Ausprägungen „kein“ und „schwach“.
Die kumulierte relative Häufigkeit in Prozent kürzen wir mit einem 𝐩𝐣(𝐤um)% ab.
-Höchstens „kein“ bei Interesse an Zeitungen (j = 1) weisen 10 Prozent auf: p1(kum)% = p1% = 10 %.
-Höchstens „schwach“ bei Interesse an Zeitungen (j = 2) weisen 40 Prozent auf: p2(kum)% = p1% + p2% = 10 % + 30 % = 40 % -Höchstens „mittel“ bei Interesse an Zeitungen (j = 3) weisen 80 Prozent auf: p3(kum)% = p1% + p2% + p3% = 10 % + 30 % + 40 % = 80 %
-Höchstens „stark“ bei Interesse an Zeitungen (j = 4) weisen 100 Prozent auf: p4(kum)% = p1% + p2% + p3% + p4% = 10 % + 30 % + 40 % + 20 % = 100 %
Sinn und Zweck einer Häufigkeitstabelle ist es, dass wir ablesen können, welche Merkmalsausprägung wie oft vorkommt. Für unser Beispiel bedeutet das: Wie viele Personen haben welches Interesse an Zeitungen? Wie viel Prozent aller Personen haben welches Zeitungsinteresse? Häufigkeitstabellen eignen sich insbesondere für große Fallzahlen. Bei kleinen Fallzahlen sind aber eher Urlisten und/oder primäre Tafeln zu empfehlen. Wenn beispielsweise drei von vier Personen kein Interesse an Zeitungen hätten, dann würde dies 75 Prozent ausmachen. Die Aussagekraft eines solchen Prozentsatzes erscheint jedoch zweifelhaft
Zum Schluss dieses Abschnitts wollen wir uns noch mit fehlenden Werten beschäftigen. Stellen wir uns vor, dass für zwei der 20 Personen keine Informationen zum Interesse an Zeitungen vorliegen. Wenn beispielsweise im Rahmen einer (fiktiven) Befragung nach Zeitungsinteresse gefragt wurde, dann haben diese zwei Personen keine der möglichen Kategorien – kein, schwach, mittel oder stark – angegeben. Vielleicht wussten die zwei Personen nicht, was sie angegeben sollten, oder sie waren sich nicht sicher, ob es um Tageszeitungen oder Wochenzeitschriften geht. Eventuell wollten sie auch keine Antwort angeben, weil ihnen die Frage zu privat war. Wie sollen wir nun mit ihren (fehlenden) Antworten umgehen? Solche Angaben werden als fehlende Werte bezeichnet (engl. missing values). Bei Umfragedaten finden sich beispielsweise oft Kategorien wie „weiß nicht“ oder „keine Angabe“ (Diaz-Bone 2018, S. 27-28). Diese können wir tabellarisch ausweisen, solange wir darauf achten, dass sie anhand ihrer Werte schnell und eindeutig zu erkennen sind und in der Datenanalyse nicht einbezogen werden. Deswegen arbeiten wir bei der (univariaten) Datenanalyse in der Regel auch nur mit den Fällen (n), die gültige Werte aufweisen.
Die Anzahl der Fälle mit gültigen Werten kürzen wir mit einem 𝐧 ab.
Wir wollen uns den Umgang mit fehlenden Werten mithilfe unseres Beispiels des Zeitungsinteresses veranschaulichen. Tabelle 36 zeigt eine Urliste, in der die Personen 6 und 18 keine Angaben gemacht haben. Sie erhalten deswegen den (fehlenden) Wert 999. Wir haben also insgesamt 18 Fälle mit gültigen Werten und zwei Fälle mit fehlenden Werten.
In der entsprechenden primären Tafel ordnen wir den Personen 6 und 18 keine Positionen zu, da sie fehlende Werte aufweisen und von der weiteren Analyse ausgeschlossen werden. Tabelle 37 zeigt die entsprechende primäre Tafel.
Bei Häufigkeitstabellen ist die Anzahl der Fälle mit gültigen Werten enorm wichtig, da sie die Referenzgröße bei den Berechnungen der relativen Häufigkeiten und der relativen Häufigkeiten in Prozent sind. Sie sind die Prozentuierungsbasis (Gehring und Weins 2009, S. 102-104). Dementsprechend verändern sich auch diese Häufigkeitsarten, wenn sich die Anzahl der Fälle insgesamt verändert
Wenn wir eine Variable genauer untersuchen und mit einzelnen statistischen Maßen beschreiben wollen, dann ist es für uns entscheidend, welches Skalenniveau diese Variable besitzt. Das Skalenniveau teilt uns mit, welche statistischen Kennzahlen (z.B. Lagemaße) wir berechnen dürfen. Bei Diaz-Bone (2018, S. 18) findet sich folgende Definition: „Ein Skalenniveau gibt an, welche Vergleichsaussagen und welche rechnerischen Operationen die Ausprägungen von Variablen sinnvoll zulassen.“ Das bedeutet, dass wir zuerst das Skalenniveau einer Variable kennen müssen bevor wir diese näher untersuchen. In den Sozialwissenschaften werden in der Regel vier Skalenniveaus unterschieden: Nominalskala, Ordinalskala, Intervallskala und Ratioskala
Nominalskala:
Eine nominalskalierte Variable hat unterschiedliche Ausprägungen, welche aber nicht in eine Reihenfolge gebracht werden können. Bekannte Beispiele für nominalskalierte Merkmale sind das Geschlecht sowie die Religionszugehörigkeit. Beim Geschlecht gibt es zwei unterschiedliche Ausprägungen: männlich und weiblich.11 Das bedeutet, dass wir zwischen Mann und Frau unterscheiden können. Die beiden Ausprägungen lassen sich allerdings nicht in eine Reihenfolge bringen. Frauen sind nicht „höher“ als Männer und Männer sind auch nicht „höher“ als Frauen. Ähnlich verhält es sich bei der Religionszugehörigkeit. Wir können zwar zwischen Christentum, Judentum, Islam und Buddhismus unterscheiden, aber diese Religionen lassen sich in keine Reihenfolge bringen. Die Vergabe von Werten hat bei nominalskalierten Merkmalen nur praktischen Charakter (Gehring und Weins 2009, S, 44). Wenn wir beim Geschlecht Frauen den Wert 2 und Männern den Wert 1 zuordnen, dann heißt das eben nicht, dass Frauen doppelt so gut sind wie Männer. Es geht lediglich um die Unterscheidbarkeit der Merkmalsausprägungen. Wir könnten Männern auch den Wert 243 und Frauen den Wert 128 zuordnen.
Ordinalskala:
Eine ordinalskalierte Variable hat unterschiedliche Ausprägungen, die zudem auch in eine Reihenfolge gebracht werden können. Wir wissen allerdings nichts über die Abstände zwischen den einzelnen Merkmalsausprägungen. Ein bekanntes Beispiel für ein ordinalskaliertes Merkmal ist die individuelle Schulbildung. Wir können zwischen unterschiedlichen Schulabschlüssen unterscheiden: Hauptschulabschluss, Mittlere Reife und Abitur. Wir können die unterschiedlichen Schulabschlüsse auch in eine Reihenfolge bringen: Abitur ist „höher“ als Mittlere Reife und Mittlere Reife ist „höher“ als Hauptschulabschluss. Oder anders herum: Hauptschulabschluss ist „niedriger“ als Mittlere Reife und Mittlere Reife ist „niedriger“ als Abitur. Wir wissen aber nichts über die Abstände zwischen den einzelnen Kategorien. Deswegen hat die Vergabe von Werten bei ordinalskalierten Merkmalen auch eher praktischen Charakter, solange wir die Reihenfolge beachten (Gehring und Weins 2009, S. 44). Wir können Personen mit Hauptschulabschluss den Wert 1, Personen mit Mittlerer Reife den Wert 2 und Personen mit Abitur den Wert 3 zuordnen. Genauso gut können wir aber auch die Werte 13, 68 und 487 vergeben. Wichtig ist, dass wir erkennen, ob zwei Personen unterschiedliche Schulabschlüsse haben und, wenn ja, welche Person einen höheren bzw. niedrigeren Abschluss hat.
Intervallskala:
Eine intervallskalierte Variable (Benninghaus 2007, S. 24-26; Gehring und Weins 2009, S. 44-45; Bühner 2015b, S. 260) hat unterschiedliche Ausprägungen, die in eine Reihenfolge gebracht werden können, und die Abstände zwischen benachbarten Ausprägungen sind zudem (konstant) gleich groß. Es existiert allerdings kein natürlicher Nullpunkt. Ein bekanntes Beispiel für ein intervallskaliertes Merkmal ist die Temperatur in Grad Celsius. Die unterschiedlichen Gradzahlen sind in einer Reihenfolge und die Abstände zwischen benachbarten Gradzahlen sind auch (konstant) gleich groß. 16 Grad sind ein Grad mehr als 15 Grad und ein Grad weniger als 17 Grad. Der Nullpunkt ist aber nicht natürlich, sondern künstlich gesetzt. Die Marke von 0 Grad gibt den Übergang von Eis zu Wasser an. Bei intervallskalierten Merkmalen ist die Vergabe von Werten (bzw. sind die vorhandenen Werte) enorm wichtig, da die Abstände zwischen benachbarten Ausprägungen (konstant) gleich groß sind. Es gibt allerdings keinen (natürlichen) Nullpunkt
Ratioskala:
Eine ratioskalierte Variable (Benninghaus 2007, S. 24-26; Gehring und Weins 2009, S. 45; Bühner 2015b, S. 260) hat unterschiedliche Ausprägungen, die in eine Reihenfolge gebracht werden können, sowie Abstände zwischen benachbarten Ausprägungen, die (konstant) gleich groß sind, und einen natürlichen Nullpunkt. Ein bekanntes Beispiel für ein ratioskaliertes Merkmal ist das individuelle Einkommen. Ein monatliches Einkommen von 1500 Euro ist um einen Euro höher als 1499 Euro und einen Euro niedriger als 1501 Euro. Der Nullpunkt ist 0 Euro, wenn eine Person beispielsweise kein Einkommen hat. Auch bei ratioskalierten Merkmalen ist die Vergabe von Werten (bzw. sind die vorhandenen Werte) enorm wichtig, da die Abstände zwischen benachbarten Ausprägungen (konstant) gleich groß sind und es zudem einen (natürlichen) Nullpunkt gibt
Wir unterscheiden bei Skalenniveaus also zwischen Nominal-, Ordinal-, Intervall- und Ratioskalen anhand folgender Fragen: Gibt es unterschiedliche Ausprägungen einer Variable? Lassen sich diese Ausprägungen in eine Reihenfolge bringen? Sind die Abstände zwischen benachbarten Ausprägungen (konstant) gleich groß?
Skalenniveau
Nominalskala
Ordinalskala
Intervallskala
Ratioskala
Mehrere Ausprägungen
ja
Reihenfolge
nein
Gleiche Abstände
Natürlicher Nullpunkt
Beispiel
Geschlecht
Schulbildung
Temperatur °C
Einkommen
Der Modus ist der Wert, der in einer Verteilung am häufigsten vorkommt
Der Median ist der Wert, der eine der Größe nach geordnete Verteilung in zwei Hälften teilt
Das arithmetische Mittel ist der Wert, den alle Fälle einer Verteilung im Durchschnitt aufweisen
Wenn wir beispielsweise wissen möchten, wie viel Leistungssportler in Zamonien im Durchschnitt verdienen, dann ist das arithmetische Mittel eine geeignete Maßzahl. Wenn wir untersuchen möchten, ob mehr Männer oder mehr Frauen im zamonischen Parlament sitzen, dann bietet sich der Modus an. Wenn wir uns für das mittlere Schulbildungsniveau der Menschen in Zamonien interessieren, dann hilft uns der Median weiter. Diese drei Maßzahlen sind Instrumente, die wir nutzen können, um die Verteilung einer Variable kompakt zu beschreiben.
Wann dürfen wir denn nun Modus, Median und/oder arithmetisches Mittel berechnen? Die Antwort auf diese Frage haben wir bereits im vorherigen Abschnitt angeschnitten. Es hängt vom Skalenniveau der Variable ab, die wir untersuchen. Bei Tausendpfund (2018, S. 119) findet sich hierzu folgende Erklärung: „In der Regel ist der Informationsgehalt einer Messung umso höher, je höher die Skala bzw. das Skalenniveau ist. Das Messniveau einer Ordinalskala ist höher als das Messniveau einer Nominalskala und das Messniveau einer Ratioskala ist höher als das Messniveau einer Intervallskala (allgemein: Ratioskala > Intervallskala > Ordinalskala > Nominalskala). Je höher die Skala, desto mehr (statistische) Auswertungsverfahren sind möglich. Die Kenntnisse der Skalenniveaus ist wichtig, um bei der Datenanalyse nur die zulässigen Auswertungsverfahren anzuwenden.“
ab Skalenniveau
ab Nominalskala
ab Ordinalskala
ab Intervallskala
Modus
Median
Arithmetisches Mittel
Der Modus – auch Modalwert genannt – ist der Wert, der in einer Verteilung am häufigsten vorkommt (Weins 2010, S. 68; Diaz-Bone 2015c, S. 278). Der Modus muss nicht berechnet werden, sondern kann in einer Häufigkeitstabelle (und auch in einer Urliste) ganz leicht abgelesen werden.
Der Modus kann bei jedem Merkmal berechnet werden, da er (mindestens) ein nominales Skalenniveau voraussetzt (Gehring und Weins 2009, S. 123). Ein klassisches Beispiel für ein nominalskaliertes Merkmal ist das Geschlecht. Wir können zwar zwischen den Ausprägungen „männlich“ und „weiblich“ unterscheiden, aber diese lassen sich nicht in einer Reihenfolge bringen. Den Modus kürzen wir mit einem 𝐱̇ ab.
Bei kleinen Fallzahlen kann der Modus in einer Urliste anhand der (absoluten) Häufigkeiten der einzelnen Merkmalsausprägungen quasi abgelesen werden. In Tabelle 41 ist eine Urliste für zehn (fiktive) Personen und deren Geschlecht dargestellt. Das Geschlecht hat dabei für jede Person entweder die Ausprägung „männlich“ oder „weiblich“. Männer erhalten den Wert 1 und Frauen erhalten den Wert 2.
Die Personen 2, 3, 5 und 8 sind männlich und die Personen 1, 4, 6, 7, 9 und 10 sind weiblich. Es gibt also vier Männer und sechs Frauen. Das bedeutet, dass der Modus dieser Verteilung der Wert 2 ist, da es mehr Frauen als Männer gibt und wir Frauen den Wert 2 zugeordnet haben. 𝐱𝐱̇ = 𝟐𝟐 In einer Häufigkeitstabelle mit einer großen Anzahl an Fällen lässt sich der Modus ganz leicht ablesen. Tabelle 42 zeigt eine Häufigkeitstabelle mit Informationen zu dem Geschlecht von 1000 (fiktiven) Personen. Wiederum erhalten Männer den Wert 1 und Frauen den Wert 2
665 Personen sind männlich und 335 Personen sind weiblich. Das bedeutet, dass der Modus dieser Verteilung der Wert 1 ist, da es mehr Männer als Frauen gibt und wir Männern den Wert 1 zugeordnet haben.
Der Median – auch Zentralwert genannt – ist der Wert, der eine (geordnete) Verteilung in zwei (gleich große) Hälften teilt (Weins 2010, S. 66-68; Diaz-Bone 2015a, S. 256). 50 Prozent der Fälle befinden sich über dem Median und 50 Prozent liegen darunter. Er steht quasi im Zentrum einer geordneten Verteilung. Das Wort „geordnet“ ist hier wichtig, da wir die Fälle ihrer Größe nach sortieren müssen, um ihn einfach ablesen zu können. Dabei müssen wir auch beachten, ob die Anzahl der Fälle gerade oder ungerade ist.
Zur Berechnung des Medians brauchen wir ein Merkmal, das (mindestens) ordinalskaliert ist. Wir veranschaulichen uns den Median anhand der persönlichen Einschätzung der aktuellen Wirtschaftslage. Dabei unterscheiden wir zwischen den Ausprägungen „schlecht“, „mittel“ und „gut“. Wir können die Ausprägungen zwar in eine Reihenfolge bringen, aber wir wissen nichts über die Abstände zwischen „schlecht“ und „mittel“ sowie „mittel“ und „gut“ – insbesondere nicht, ob sie gleich groß sind. Den Median kürzen wir mit einem x ab.
Kleine Fallzahl (ungerade): Bei einer kleineren ungeraden Anzahl an Fällen können wir auf folgende Formel zurückgreifen: x = x (n + 1/ 2)
In Tabelle 43 finden wir Informationen von 10 (fiktiven) Personen bezüglich ihrer Einschätzungen der aktuellen Wirtschaftslage in einer Urliste. Die Personen, die die Wirtschaftslage als schlecht einschätzen, erhalten den Wert 1, Personen, die sie als mittel bezeichnen, den Wert 2 und Personen, die die aktuelle Wirtschaftslage gut finden, den Wert 3
in der geordneten Reihenfolge finden die ersten zwei Personen die aktuelle Wirtschaftslage schlecht, die folgenden zwei Personen bezeichnen sie als mittel und die letzten fünf Personen findet sie gut. Nun können wir mit unserer Formel den Median einfach berechnen: x = x( 9 + 1/ 2 ) = x(5) = 3
Den Wert, den die Person an fünfter Position aufweist, ist unser gesuchter Median. Der Median dieser Verteilung (mit ungerader Fallzahl) ist somit 3, da die Person, die sich an fünfter Position befindet, die aktuelle Wirtschaftslage als gut einschätzt und wir der Ausprägung „gut“ den Wert 3 zugeordnet haben. Der Median teilt die (geordnete) Verteilung in zwei (gleich große) Hälften. Auf der einen Seite befinden sich die Personen 6, 8, 1 und 5 mit den Werten 1, 1, 2 und 2 sowie auf der anderen Seite die Personen 3, 4, 7, und 9 mit den Werten 3, 3, 3, und 3.
x = 3
Kleine Fallzahl (gerade): Bei einer kleineren geraden Anzahl an Fällen können wir auf folgende Formel zurückgreifen: x = 1/ 2 ∗ (x( n /2) + x( n/ 2 + 1))
In Tabelle 45 finden wir Informationen von 8 (fiktiven) Personen bezüglich ihrer Einschätzungen der aktuellen Wirtschaftslage. Auch hier erhalten Personen, die die Wirtschaftslage als schlecht einschätzen, den Wert 1, Personen, die sie als mittel bezeichnen, den Wert 2 und Personen, die die aktuelle Wirtschaftslage gut finden, den Wert 3.
Die vierte Person findet die aktuelle Wirtschaftslage mittel, wohingegen sowohl die sechste als auch die siebte Person sie momentan als schlecht betrachten. Wir ordnen nun wiederum die Personen aufsteigend ihrer entsprechenden Werte nach. Die Personen 1, 2, 6, aktuelle Wirtschaftslage schlecht, die Personen 4 und 5 bezeichnen sie als mittel und nur Person 3 findet sie gut.
In der geordneten Reihenfolge finden die ersten fünf Personen die aktuelle Wirtschaftslage schlecht, die folgenden zwei Personen bezeichnen sie als mittel und die letzte Person findet sie gut. Nun können wir mit unserer Formel den Median einfach berechnen: x = 1/ 2 ∗ (x ( 8/ 2) + x( 8/ 2 + 1) = 1/ 2 ∗ (x(4) + x(5)) = 1/ 2 ∗ (1 + 1) = 1/ 2 ∗ 2 = 1
Den Wert, den die beiden Personen an vierter und fünfter Stelle im Schnitt aufweisen, ist unser gesuchter Median. Der Median dieser Verteilung (mit gerader Fallzahl) ist somit 1, da beide Personen die aktuelle Wirtschaftslage als schlecht einschätzen und wir der Ausprägung „schlecht“ den Wert 1 zugeordnet haben. Der Median teilt die (geordnete) Verteilung in zwei (gleich große) Hälften. Auf der einen Seite befinden sich die Personen 1, 2, 6 und 7 mit den Werten 1, 1, 1 und 1 sowie auf der anderen Seite die Personen 8, 4, 5, und 3 mit den Werten 1, 2, 2, und 3.
x=1
Große Fallzahl:
Bei größeren Fallzahlen können wir den Median anhand einer Häufigkeitstabelle einfach ablesen. Wir müssen uns nur folgende Frage stellen: Innerhalb welcher Merkmalsausprägung (bzw. Kategorie) überspringt die kumulierte relative Häufigkeit in Prozent die Marke von 50 Prozent? Der Median ist ja dadurch definiert, dass er die Verteilung in zwei (gleich große) Hälften teilt. Das bedeutet, dass 50 Prozent unter dem Median und 50 Prozent über dem Median liegen. Die kumulierte relative Häufigkeit in Prozent ist nichts anderes als die schrittweise Aufsummierung der prozentualen Anteile. Deswegen ist der Wert der Merkmalsausprägung (bzw. Kategorie), die die Marke von 50 Prozent überspringt, auch der Median. Tabelle 47 zeigt Informationen von 1000 (fiktiven) Personen bezüglich ihrer Einschätzungen der aktuellen Wirtschaftslage
Wir sehen, dass die Marke von 50 Prozent innerhalb der Kategorie „gut“ übersprungen wird. Der Median ist somit der Wert 3.
𝐱 = 3
Das arithmetische Mittel – oft auch einfach Mittelwert genannt – gibt den Durchschnittswert einer Verteilung an. Mit einer einfachen Formel können wir also berechnen, welchen Wert die Fälle einer Häufigkeitsverteilung durchschnittlich aufweisen
Das arithmetische Mittel setzt ein Merkmal voraus, das (mindestens) intervallskaliert ist (Gehring und Weins 2009, S. 126). Zur Veranschaulichung bietet sich beispielsweise die Anzahl der eigenen Kinder an. Die unterschiedlichen Ausprägungen – kein Kind, ein Kind, zwei Kinder, drei Kinder, usw. – können in eine Reihenfolge gebracht werden und zudem sind die Abstände zwischen ihnen (konstant) gleich groß. Das arithmetische Mittel kürzen wir mit einem 𝐱 ab.
Kleine Fallzahl: Bei kleinen Fallzahlen (bzw. ungruppierten Daten) lässt sich das arithmetische Mittel mit folgender Formel berechnen: x = 1/ n ∗Summe xi von n= 1/ n ∗ (x1 + x2 + x3 + ⋯ + xn)
Das arithmetische Mittel ist also die Summe der einzelnen Merkmalsausprägungen geteilt durch die Anzahl der Fälle insgesamt. Wir veranschaulichen uns die Anwendung dieser Formel an einem Beispiel. In Tabelle 48 finden sich Angaben von 10 (fiktiven) Personen zur Anzahl ihrer Kinder.
Die erste Person hat zwei Kinder, die vierte Person hat vier Kinder und die neunte Person hat kein Kind. Zur Berechnung des arithmetischen Mittels berechnen wir zuerst die Summe der einzelnen Merkmalsausprägungen. Anschließend teilen wir diese Summe durch die Anzahl der Personen insgesamt und erhalten so unser Ergebnis:
x = 1/ 10 ∗ Summe xi aus 10 = 1/ 10 ∗ 16 = 1,6
In der Summe haben die zehn Personen 16 Kinder. Pro Person macht das im Durchschnitt 1,6 Kinder. 𝐱 = 𝟏, 6
Große Fallzahl: Bei großen Fallzahlen (bzw. gruppierten Daten) lässt sich das arithmetische Mittel mit folgender Formel berechnen: x = 1/ n* Summe aus (j ∗ fj) = 1/ n ∗ (1 ∗ f1 + 2 ∗ f2 + 3 ∗ f3 + ⋯ + j ∗ fj)
Zuerst multiplizieren wir die einzelnen Merkmalsausprägungen mit ihren jeweiligen absoluten Häufigkeiten. Als Nächstes summieren wir diese Produkte auf und erhalten nach der Division durch die Anzahl der Fälle insgesamt das arithmetische Mittel. Auch die Anwendung dieser Formel veranschaulichen wir uns an einem Beispiel. In Tabelle 49 finden wir Informationen zur Anzahl der Kinder von 1000 (fiktiven) Personen.
125 Personen haben kein Kind, 310 Personen haben ein Kind, 350 Personen haben zwei Kinder, 140 Personen haben drei Kinder und 75 Personen haben vier Kinder. Wir multiplizieren zuerst die Merkmalsausprägungen mit ihren jeweiligen absoluten Häufigkeiten und erhalten die Produkte 0, 310, 700, 420 und 300. Anschließend summieren wir diese Produkte auf und teilen durch die Anzahl der Personen insgesamt.
x = 1/ 1000 ∗ Summe aus (j ∗ fj) =1 /1000 ∗ (0 + 310 + 700 + 420 + 300) = 1/ 1000 ∗ 1730 = 1,73
in der Summe haben die 1000 Personen 1730 Kinder. Pro Person macht das im Durchschnitt 1,73 Kinder. 𝐱 = 𝟏, 73
Ausgehend von einer Häufigkeitstabelle können wir die (relativen) Häufigkeiten der Ausprägungen eines Merkmals grafisch illustrieren. Dazu haben wir mehrere Möglichkeiten: Säulendiagramm, Balkendiagramm,Histogramm,Kreisdiagramm, Boxplot
Säulendiagramm:
Bei einem Säulendiagramm werden die Häufigkeiten der unterschiedlichen Ausprägungen einer Variable durch vertikale (bzw. stehende) Rechtecke (bzw. Säulen) illustriert (Gehring und Weins 2009, S. 110). Die Höhe der Säulen entspricht den (relativen) Häufigkeiten der einzelnen Merkmalsausprägungen. Säulendiagramme eignen sich zur Darstellung von nominal- und ordinalskalierten Merkmalen (Gehring und Weins 2009, S. 111). Bei nominalskalierten Merkmalen dürfen wir die Säulen in beliebiger Reihenfolge anordnen. Bei ordinalskalierten Merkmalen ordnen wir die Säulen entsprechend der Reihenfolge der Ausprägungen an. Tabelle 50 zeigt die Angaben von 100 (fiktiven) Personen bezüglich ihrer Einschätzungen der aktuellen Wirtschaftslage.
23 Prozent schätzen die aktuelle Wirtschaftslage als schlecht ein, 42 Prozent als mittel und 35 Prozent als gut. Abbildung 18 veranschaulicht die Angaben der 100 (fiktiven) Personen in einem Säulendiagramm. Die höchste Säule weist die Ausprägung „mittel“ auf, da diese auch (prozentual) am häufigsten vorkommt.
Balkendiagramm
Bei einem Balkendiagramm werden die Häufigkeiten der unterschiedlichen Ausprägungen einer Variable durch horizontale (bzw. liegende) Rechtecke (bzw. Balken) illustriert (Gehring und Weins 2009, S. 110). Die Länge der Balken entspricht den (relativen) Häufigkeiten der einzelnen Merkmalsausprägungen. Balkendiagramme eignen sich – ebenso wie Säulendiagramme – zur Darstellung von nominal- und ordinalskalierten Merkmalen (Gehring und Weins 2009, S. 111). Bei nominalskalierten Merkmalen dürfen wir die Balken in beliebiger Reihenfolge anordnen. Bei ordinalskalierten Merkmalen ordnen wir die Balken entsprechend der Reihenfolge der Ausprägungen an. Tabelle 51 zeigt die Angaben von 100 (fiktiven) Personen bezüglich ihrer Einschätzungen der aktuellen Wirtschaftslage.
19 Prozent schätzen die aktuelle Wirtschaftslage als schlecht ein, 37 Prozent als mittel und 42 Prozent als gut. Abbildung 19 veranschaulicht die Angaben der 100 (fiktiven) Personen in einem Balkendiagramm. Den längsten Balken weist die Ausprägung „gut“ auf, da diese auch (prozentual) am häufigsten vorkommt.
Histogramm
Ein Histogramm spiegelt die Häufigkeiten von klassierten Daten wider (Gehring und Weins 2009, S. 113-114; Degen 2010, S. 98-103; Diaz-Bone 2018, S. 40-43). In Tabelle 52 finden wir die Angaben von 100 (fiktiven) Personen in Zamonien zum monatlichen Einkommen in Zamonien-Dollar (ZA$). Dabei wird zwischen zehn unterschiedlichen Einkommensklassen unterschieden: 250 ZA$ bis unter 750 ZA$, 750 ZA$ bis unter 1250 ZA$, 1250 ZA$ bis unter 1750 ZA$, 1750 ZA$ bis unter 2250 ZA$, 2250 ZA$ bis unter 2750 ZA$, 2750 ZA$ bis unter 3250 ZA$, 3250 ZA$ bis unter 3750 ZA$, 3750 ZA$ bis unter 4250 ZA$, 4250 ZA$ bis unter 4750 ZA$ und 4750 ZA$ bis 5250 ZA$.
Die (relativen) Häufigkeiten der einzelnen Einkommensklassen geben jeweils an, wie viele Personen in die entsprechende Klasse „fallen“. So haben beispielsweise 8 Prozent haben ein Einkommen zwischen 250 ZA$ bis unter 750 ZA$ und 12 Prozent ein Einkommen zwischen 4250 ZA$ bis unter 4750 ZA$. Histogramme eignen sich insbesondere für intervall- und ratioskalierte Merkmale (z.B. Alters- oder Einkommensklassen), die sehr viele Ausprägungen annehmen können (Gehring und Weins 2009, S. 113). Der auffälligste Unterschied zu Säulen- bzw. Balkendiagrammen ist dabei, dass die Säulen bzw. Balken unmittelbar aneinander angrenzen. Die Flächen der einzelnen Säulen bzw. Balken sind proportional zu den entsprechenden (relativen) Häufigkeiten der einzelnen Klassen. Abbildung 20 veranschaulicht die Angaben der 100 Personen zum monatlichen Einkommen in ZA$ in einem Histogramm.
Kreisdiagramm
Bei einem Kreisdiagramm werden die Häufigkeiten der unterschiedlichen Ausprägungen einer Variable via Kreissektoren widergespiegelt (Gehring und Weins 2009, S. 112). Die flächenmäßige Größe der einzelnen Kreissektoren ist proportional zu den (relativen) Häufigkeiten der entsprechenden Ausprägungen. Kreisdiagramme eignen sich zur Illustration von nominalskalierten Merkmalen. In Tabelle 53 finden wir die Angaben von 100 (fiktiven) Personen zur Wahlabsicht bei der kommenden Parlamentswahl in Zamonien
42 Prozent wollen die FPZ (Freiheitliche Partei Zamonien) wählen, 25 Prozent die UZ (Union Zamoniens), 20 Prozent die ZAP (Zamonische Arbeiterpartei) und 13 Prozent die ÖPZ (Ökologische Partei Zamonien).
Die (flächenmäßige) Größe jedes Kreissektors entspricht der (relativen) Häufigkeit der entsprechenden Merkmalsausprägung. Der Kreissektor für die FPZ ist am größten (42 Prozent des Kreisinhalts), da die Ausprägung „FPZ“ auch den höchsten Prozentsatz (42 Prozent) hat. Den kleinsten Kreissektor weist hingegen die ÖPZ auf (13 Prozent des Kreisinhalts), da die Ausprägung „ÖPZ“ den niedrigsten Prozentsatz (13 Prozent) besitzt.
Die Verwendung von Kreisdiagrammen ist problematisch, da sich bei ähnlichen (relativen) Häufigkeiten der einzelnen Merkmalsausprägungen die Größenverhältnisse der entsprechenden Kreissektoren nicht auf Anhieb erkennen lassen. Diaz-Bone (2018, S. 44) hält beispielsweise das Kreisdiagramm für „eine ungeeignete Datenanalysegrafik, da es visuell die Unterscheidung von Häufigkeiten oder Anteilen dann erschwert, wenn diese ähnlich groß sind“. Wir wollen uns diese Problematik wiederum an einem Beispiel zur Wahlabsicht von 100 (fiktiven) Personen in Zamonien veranschaulichen.
Die (relativen) Häufigkeiten für die einzelnen Merkmalsausprägungen sind ähnlich hoch: 22 Prozent wollen die FPZ wählen, 25 Prozent die UZ, 28 Prozent die ZAP und 25 Prozent die ÖPZ. Abbildung 22 illustriert die Angaben der 100 Personen zur Wahlabsicht in einem Kreisdiagramm (ohne Angaben zur relativen Häufigkeit in Prozent).
Auf den ersten Blick ist nur schwer erkennbar, welcher Kreissektor der Größte ist. Wir wissen zwar (aus der entsprechenden Häufigkeitstabelle), dass die Ausprägung „ZAP“ mit 28 Prozent den höchsten Prozentsatz aufweist, aber im vorliegenden Kreisdiagramm springt uns das nicht sofort ins Auge. Deswegen ist es ratsam, ein Säulen- oder Balkendiagramm zu verwenden, da wir die Größenverhältnisse der (relativen) Häufigkeiten auf Anhieb erkennen können (Diaz-Bone 2018, S. 44). Abbildung 23 zeigt die Angaben der 100 Personen zur Wahlabsicht in einem Säulendiagramm (ohne Angaben zur relativen Häufigkeit in Prozent)
Boxplot
Ein Boxplot (auch Box-and-Whiskers-Plot genannt) eignet sich, um die Verteilung eines intervall- oder ratioskalierten Merkmals grafisch darzustellen (Degen 2010, 95-98; Diaz-Bone 2018, S. 62- 64). Wir schauen uns jetzt die einzelnen Bestandteile eines Boxplots an. Ausgangspunkt sind hierfür die Angaben von 100 (fiktiven) Personen zur Anzahl ihrer Passwörter. In Tabelle 55 finden wir eine entsprechende Übersicht.
Im Zentrum eines Boxplots steht der Median (siehe Abbildung 24). In unserem Beispiel liegt der Median bei 3 (Passwörtern), da bei den kumulierten relativen Häufigkeiten in Prozent die 50- Prozent-Marke innerhalb der Kategorie 3 übersprungen wird. Die Box hat unten als Grenze das untere Quartil (2). Dies zeigt an, dass 25 Prozent der Fälle im Bereich zwischen dem unteren Quartil und dem Median liegen. Die obere Grenze der Box ist das obere Quartil (4), das – analog zum unteren Quartil – anzeigt, dass 25 Prozent der Fälle im Bereich zwischen dem Median und dem oberen Quartil liegen. Im Ergebnis befinden sich 50 Prozent der Fälle in der Box. Die beiden T-Formen werden Whisker genannt und „umfassen“ Werte außerhalb der Box, die maximal das 1,5-fache des Interquartilsabstands von der Box entfernt sind. Der Interquartilsabstand ist der Bereich vom unteren Quartil (2) bis zum oberen Quartil (4), also 4 – 2 = 2. Das 1,5-fache des Interquartilsabstands ist somit 3. Der untere Whisker umfasst alle Werte, die kleiner als 2 sind, da der kleinste vorkommende Wert 1 nicht mehr als das 1,5-fache des Interquartilsabstands vom unteren Quartil entfernt ist bzw. sein kann. Der obere Whisker umfasst alle Werte bis 7, da diese maximal das 1,5-fache des Interquartilsabstands vom oberen Quartil entfernt sind. Werte, die mehr als das 1,5-fache (bzw. das 3-fache) des Interquartilsabstands von der Box entfernt sind werden als Ausreißer (bzw. Extremwerte) bezeichnet und mit einem Kreis (bzw. einem Stern) markiert
Last changed4 months ago