Warum ist Kategorisierung bei der grafischen Darstellung von kontinuierlichen Daten notwendig?
Weil bei kontinuierlichen Variablen (z. B. Reaktionszeiten) kaum identische Werte vorkommen. Um eine Häufigkeitsverteilung sinnvoll darzustellen, müssen die Werte gruppiert werden – z. B. in Intervallen im Histogramm.
Warum ist Kategorisierung bei der statistischen Analyse meistens nicht sinnvoll?
Weil bei der Kategorisierung Informationen verloren gehen. Feinere Unterschiede zwischen Werten werden geglättet und können nicht mehr analysiert werden. Für inferenzstatistische Analysen ist daher die Rohform sinnvoller.
Was besagt die Sturges-Regel zur Bestimmung der optimalen Klassenzahl m?
Dabei ist n die Stichprobengröße. Die Regel dient zur Wahl einer angemessenen Anzahl von Klassen für Histogramme.
Wie viele Kategorien sollte man bei einer Stichprobe von n = 120 verwenden (nach Sturges)?
Warum kann zu grobe oder zu feine Kategorisierung beim Problem der Kategorisierung) problematisch sein?
Zu grobe Klassen verschleiern wichtige Unterschiede → Informationsverlust.
Zu feine Klassen erzeugen visuelles Rauschen – zu viele Details, keine klare Struktur. → Wie bei einer Karte: zu wenig Zoom = keine Orientierung, zu viel Zoom = Detailflut.
Die Reaktionszeiten reichen von 0.927 s bis 27.88 s. Wie groß ist die Variationsbreite, und wie bestimmt man die Intervallbreite bei 8 Klassen?
Range: 27,88 - 0,927 = 26,95 s
Intervallbreite: 26,95s/8 \approx 3,37s
Praktisch sinnvoll: Aufrunden auf z. B. 4 s → 7 Klassen
Wozu dient ein Histogramm in der Statistik?
Es stellt die Häufigkeitsverteilung von metrischen (kontinuierlichen) Daten grafisch dar. Die x-Achse zeigt Intervalle (Klassen), die y-Achse deren Häufigkeiten.
Wie unterscheiden sich Balkendiagramm und Histogramm?
Balkendiagramm: für nominale/ordinale Daten, Balken getrennt
Histogramm: für metrische Daten, Balken stoßen aneinander, da Intervalle ein Kontinuum darstellen.
Was ist ein Polygon in der deskriptiven Statistik?
Eine Linie, die die Mittelpunkte der Histogrammbalken verbindet. Es zeigt den Verlauf der Verteilung als Kurve.
Wie berechnet man die Klassenmitte für ein Polygon?
Warum ist die Wahl der Achsenskalierung im Histogramm kritisch?
Eine ungeeignete Skalierung kann die Verteilungsform verzerren (z. B. Überbetonung von Ausreißern oder Unterdrückung von Modalität).
→ Wie bei einer Landkarte: falscher Maßstab = falscher Eindruck von Entfernungen.
🔍 Technische Erklärung
X-Achse (horizontal):
→ zeigt die Datenintervalle (Klassen) oder Ausprägungen.
Wenn du hier die Intervallbreite zu klein wählst, sieht die Verteilung zerklüftet oder unruhig aus – wie bei einem Seismographen.
Wenn du sie zu groß wählst, verschwinden Details – z. B. Mehrgipfligkeit (Modalität).
Y-Achse (vertikal):
→ zeigt die Häufigkeit (absolute oder relative).
Wenn du die y-Achse zu lang machst, sehen alle Balken klein und bedeutungslos aus.
Wenn du sie künstlich stauchst, erscheinen kleine Unterschiede übertrieben groß.
Welche typischen Verteilungsformen kann ein Histogramm zeigen?
Symmetrisch (z. B. Körpergröße)
Rechtsschief (linkssteil) – viele kleine Werte, wenige große
Linksschief (rechtssteil) – viele große Werte, wenige kleine
Unimodal – ein Gipfel
Bimodal – zwei Gipfel (z. B. zwei Gruppen)
Multimodal – mehrere Gipfel
Was sagt die Lage von Modus, Median und Mittelwert über die Schiefe der Verteilung aus?
Symmetrisch: Modus ≈ Median ≈ Mittelwert
Rechtsschief: Modus < Median < Mittelwert
Linksschief: Mittelwert < Median < Modus
🃏Beispielkarte:
Frage: Eine Verteilung hat:
Modus = 5, Median = 5, Mittelwert = 5. Was ist die Verteilungsform?
Symmetrisch (alle drei Maße stimmen überein).
Was zeigt ein Stängel-Blatt-Diagramm?
Es stellt die Häufigkeit metrischer Daten dar, wobei jeder Messwert in zwei Teile zerlegt wird:
Der Stängel links zeigt die führende Ziffer (z. B. Zehnerstelle),
das Blatt rechts zeigt die Endziffer (z. B. Einerstelle oder Nachkommastelle).
Was sind typische Vorteile des Stängel-Blatt-Diagramms gegenüber dem Histogramm?
Die konkreten Werte bleiben sichtbar.
Keine Daten gehen verloren durch Gruppierung.
Es erlaubt schnelles Überprüfen von Verteilung, Zentrum und Streuung.
Wie wird der Wert 64 in einem Stängel-Blatt-Diagramm dargestellt?
Stängel: 6 | Blatt: 4 → 6 | 4
Folgendes Stem-and-Leaf-Diagramm ist gegeben:
2 | 578
3 | 1235689
4 | 0137
Was sind die dargestellten Werte?
25, 27, 28, 31, 32, 33, 35, 36, 38, 39, 40, 41, 43, 47
Warum eignet sich das Stängel-Blatt-Diagramm nicht für große Datensätze?
Weil bei großen Datenmengen zu viele Blätter entstehen – das Diagramm wird unübersichtlich und verliert seinen Vorteil gegenüber dem Histogramm.
Warum gehört das Stängel-Blatt-Diagramm zur „explorativen Datenanalyse“?
Weil es ohne Vorverarbeitung (wie Kategorisierung) eine schnelle, visuelle Struktur in Rohdaten sichtbar macht – also besonders nützlich für den ersten Blick auf neue Daten.
Wie geht man bei Dezimalzahlen im Stängel-Blatt-Diagramm vor?
Man wählt eine geeignete Skalierung:
z. B. Wert 2.7 → Stängel: 2 | Blatt: 7
Oder: 27.4 → 27 | 4
→ Die Einheiten sind abhängig von der gewählten Präzision.
Was stellt ein Boxplot dar?
eine Box (Q1 bis Q3 → Interquartilsabstand),
einen Median-Strich in der Box,
zwei Whisker, die bis zu den letzten „normalen“ Werten reichen,
und ggf. Punkte für Ausreißer.
Was ist der Interquartilsabstand (IQR) und wie wird er berechnet?
(IQR} = Q3 - Q1
Er beschreibt die mittleren 50 % der Verteilung – also die Spannweite der zentralen Datenmasse.
Wie werden Ausreißer im Boxplot identifiziert?
Daten: 56, 57, 65, 66, 67, 69, 72, 75, 89, 92
Berechne Q1, Median, Q3 und IQR.
Q1 = drittkleinster Wert = 65
Median = (67 + 69)/2 = 68
Q3 = achtkleinster Wert = 75
IQR = 75 − 65 = 10
Beispiel-Datensatz (n = 10):
Daten (sortiert):
56, 57, 65, 66, 67, 69, 72, 75, 89, 92
🔹
Schritt 1: Finde den Median (Q2)
n = 10 → gerade Zahl → Median liegt zwischen den mittleren Werten (5. und 6.):
\text{Median (Q2)} = \frac{67 + 69}{2} = 68
Schritt 2: Finde Q1 (unteres Quartil)
→ Betrachte nur die untere Hälfte der Daten (unterhalb von Q2):
56, 57, 65, 66, 67
Q1 = Median dieser Hälfte = mittlerer Wert → 65
Schritt 3: Finde Q3 (oberes Quartil)
→ Betrachte nur die obere Hälfte der Daten (oberhalb von Q2):
69, 72, 75, 89, 92
Q3 = Median dieser Hälfte → 75
Wie groß ist die untere und obere Ausreißergrenze im Beispiel:
Antwort:
Untere Grenze: 65 - 1,5 * 10 = 50
Obere Grenze: 75 + 1,5 * 10 = 90
→ Werte < 50 oder > 90 sind Ausreißer
→ 92 wäre Ausreißer, 89 nicht.
Warum ist der Boxplot besonders robust gegenüber Ausreißern?
Weil er auf Quartilen basiert, nicht auf Mittelwerten. Quartile sind nicht empfindlich gegenüber extremen Werten und zeigen eine stabile Verteilung.
Was kann man über die Schiefe einer Verteilung im Boxplot erkennen?
Wenn der Median nicht mittig in der Box liegt → Schiefe.
Wenn ein Whisker viel länger ist → lange „Schleppe“ → Schiefe.
Rechts langer Whisker → rechtsschief (linkssteil)
Links langer Whisker → linksschief (rechtssteil)
Wofür eignet sich ein Balkendiagramm?
Für die grafische Darstellung von nominalen oder ordinalen Variablen.
→ x-Achse = Kategorien,
→ y-Achse = Häufigkeiten (absolut oder relativ)
Was ist ein entscheidender visueller Unterschied zwischen Histogramm und Balkendiagramm?
Histogramm: Balken berühren sich, da es kontinuierliche Daten sind.
Balkendiagramm: Balken sind getrennt, da die Kategorien diskret und unabhängig sind.
Wie wird ein Kreisdiagramm (Pie Chart) konstruiert?
Warum können Kreisdiagramme leicht irreführen?
Weil Menschen Flächen (Winkel) schlechter vergleichen können als Längen. Besonders bei ähnlichen Prozentanteilen wird es visuell ungenau – z. B. kann 21 % vs. 23 % kaum erkannt werden.
Wann sollte man Kreisdiagramme nicht verwenden?
Wenn es viele Kategorien gibt
Wenn die Unterschiede klein sind
Wenn die Daten geordnet oder gruppiert sind (z. B. Ordinalskala) → Besser: Balkendiagramm verwenden
Was zeigt ein Streudiagramm?
Die gleichzeitige Verteilung von zwei mindestens intervallskalierten Variablen. Jeder Punkt im Diagramm entspricht einem Datenpaar (x, y).
Was kann man im Streudiagramm erkennen?
Form des Zusammenhangs (linear, exponentiell, etc.)
Stärke des Zusammenhangs (dicht oder verstreut)
Richtung (positiv, negativ, kein Zusammenhang)
Ausreißer
Was bedeutet ein positiver Zusammenhang im Streudiagramm?
Wenn größere Werte in x tendenziell mit größeren Werten in y einhergehen → die Punkte steigen „von links unten nach rechts oben“.
Beispiel: Lernzeit und Prüfungsergebnis.
Was bedeutet ein negativer Zusammenhang im Streudiagramm?
Wenn größere x-Werte mit kleineren y-Werten einhergehen → die Punkte verlaufen „von links oben nach rechts unten“.
Beispiel: Alter und Reaktionsgeschwindigkeit.
Wie wird ein Zusammenhang im Streudiagramm oft visualisiert?
Durch eine Regressionsgerade, also die Gerade, die den linearen Zusammenhang der Punkte am besten beschreibt (Line of Best Fit).
Warum ist ein Streudiagramm besser als eine einfache Korrelationszahl?
Weil es visuell zeigt:
Ausreißer (die den Korrelationswert stark beeinflussen können),
Nichtlinearitäten (z. B. u-förmige Zusammenhänge),
Gruppenstrukturen, die in der Korrelation verloren gehen.
Du untersuchst die Beziehung zwischen Schlafdauer (x) und Tagesmüdigkeit (y). Das Streudiagramm zeigt eine abfallende Punktwolke. Was bedeutet das?
Es gibt einen negativen Zusammenhang: Je mehr Schlaf, desto weniger Müdigkeit.
Warum ist das Erstellen von Grafiken nicht rein technisch, sondern auch „Kunst“?
Weil grafische Entscheidungen (Skalierung, Farbwahl, Layout) die Interpretation der Daten stark beeinflussen. Gute Grafiken unterstützen Verstehen, schlechte führen in die Irre.
Wie stellt man Daten besonders schlecht dar (laut Wainer)? (12)
Wähle eine verzerrte Skalierung, sodass kleine Unterschiede riesig wirken
Verwende 3D-Diagramme, um alle Achsen unlesbar zu machen
Verzichte auf Achsenbeschriftungen, damit niemand weiß, was dargestellt wird
Nutze bunte Farben und Muster, um vom Inhalt abzulenken
Zeige nur absolute Werte, nicht relative – besonders bei sehr unterschiedlich großen Gruppen
Verstecke Ausreißer, damit die Grafik „sauber“ aussieht
Kombiniere verschiedene Diagrammtypen, z. B. Kreis + Balken + Linien in einem
Erfinde neue Diagrammarten, auch wenn sie keiner versteht
Lass keine Skalen beginnen bei 0, um Dramatik zu erzeugen
Füge unnötige Deko ein (Clipart, Schatten, 3D-Effekte)
Stelle zu viele Informationen auf einmal dar, damit man nichts erkennt
Wähle unpassende Diagrammtypen, z. B. Kreisdiagramm für zeitliche Trends
Was ist ein typischer manipulativer Trick bei Achsenskalierung?
Wenn man die y-Achse nicht bei 0 starten lässt, sondern bei z. B. 95, um einen kleinen Unterschied extrem groß aussehen zu lassen.
→ Das verzerrt die visuelle Wahrnehmung.
Warum sind 3D-Diagramme häufig problematisch?
Weil sie die Lesbarkeit und Vergleichbarkeit erschweren – Tiefenperspektive verzerrt Flächen, Höhen sind nicht eindeutig ablesbar, Balken überdecken sich.
Warum sollte man keine zu komplexen Diagramme machen?
Weil Menschen nur eine begrenzte kognitive Kapazität zur gleichzeitigen Informationsaufnahme haben.
→ Eine Grafik sollte eine Kernaussage deutlich machen, nicht mehrere gleichzeitig verwischen.
Last changed19 days ago