Statistik und Daten

by Friedrich J.

Was ist Datenkompetenz?

Die Fähigkeit, Daten zu finden, zu verstehen, zu interpretieren und kritisch zu bewerten. — Grundlage für evidenzbasierte Entscheidungen; relevant in Politik, Wirtschaft, Informatik, Sozialwissenschaften.

Welche drei häufigen Fehler im Umgang mit Daten gibt es?

1) Fehlleitende Grafiken (abgeschnittene Achsen, unpassende Skalen), 2) Verzerrte Stichprobe (Selection Bias), 3) Unklare Kausalität (Korrelation mit Kausalität verwechselt). — Kritisches Hinterfragen der Datenquelle und Darstellung ist entscheidend.

Was ist der Unterschied zwischen Korrelation und Kausalität?

Korrelation: zwei Variablen zeigen einen statistischen Zusammenhang. Kausalität: zwischen ihnen besteht ein echter Ursache-Wirkungs-Zusammenhang. — Knackpunkt: Korrelation ≠ Kausalität (Scheinkorrelation, z.B. „Störche bringen Babys").

Was ist der Unterschied zwischen quantitativen und qualitativen Daten?

Quantitativ: numerische Werte (diskret = ganze Zahlen, z.B. Anzahl Kinder; kontinuierlich = beliebige Werte, z.B. Körpergröße). Qualitativ: Kategorien (nominal = ohne Rangordnung, z.B. Farbe; ordinal = mit Rangordnung, z.B. Schulnoten). — Erste Frage: Zahl oder Kategorie?

Welche vier Skalenniveaus (Messniveaus) gibt es?

Kategorisch: 1) Nominal (Kategorien ohne Rangordnung, z.B. Geschlecht), 2) Ordinal (mit Rangordnung, z.B. Noten). Metrisch: 3) Intervall (gleiche Abstände, KEIN absoluter Nullpunkt, z.B. °C), 4) Verhältnis (gleiche Abstände MIT absolutem Nullpunkt, z.B. Alter, Gewicht). — Reihenfolge der „Mächtigkeit": Nominal < Ordinal < Intervall < Verhältnis.

Was unterscheidet Intervall- von Verhältnisskala?

Beide haben gleichmäßige Abstände, aber nur die Verhältnisskala hat einen absoluten Nullpunkt. — Folge: bei Verhältnisskala sind Verhältnisse sinnvoll (80 kg = doppelt so schwer wie 40 kg), bei Intervallskala nicht (20°C ist nicht „doppelt so warm" wie 10°C).

Aufgabe: Welches Skalenniveau hat „Temperatur in °C", „Gewicht in kg", „Schulnote", „Wohnort"?

Temperatur °C → Intervallskala (kein absoluter Nullpunkt). Gewicht kg → Verhältnisskala. Schulnote → Ordinalskala. Wohnort → Nominalskala. — Knackpunkt: °C ist Intervall, kg/Alter sind Verhältnis.

Was sind die drei Lagemaße und was bedeuten sie?

Mittelwert (arithmetisches Mittel): Summe/Anzahl. Median: mittlerer Wert der sortierten Daten. Modus: häufigster Wert. — Lagemaße beschreiben das „Zentrum" der Daten.

Wann verwendet man Mittelwert, Median bzw. Modus?

Mittelwert: symmetrische Verteilung ohne Ausreißer, Intervall-/Verhältnisniveau. Median: schiefe Verteilung oder Ausreißer vorhanden, ab Ordinalskala. Modus: häufigste Kategorie, bereits ab Nominalskala nutzbar. — Faustregel: bei Ausreißern Median statt Mittelwert.

Warum ist der Median robuster als der Mittelwert?

Weil er nur von der Position (Rang) abhängt, nicht von den konkreten Werten – extreme Ausreißer verschieben ihn kaum. — Beispiel: ein Gehalt von 1.000.000 € zieht den Mittelwert stark hoch, den Median fast nicht.

Welche Streuungsmaße gibt es (konzeptionell)?

Spannweite (max − min, stark ausreißerabhängig), Interquartilsabstand IQR (Q3 − Q1, robust), Varianz (mittlere quadratische Abweichung vom Mittelwert), Standardabweichung (Wurzel der Varianz, in Originaleinheit). — Sie beschreiben, wie weit die Daten streuen.

Was bedeutet die Standardabweichung anschaulich?

Wie weit die Daten typischerweise um den Mittelwert streuen. Große Std → breit verteilt, kleine Std → eng beim Mittelwert. — Bei Normalverteilung: ca. 68 % der Werte innerhalb ±1 Std, ca. 95 % innerhalb ±2 Std.

Welche Arten von Verzerrungen (Bias) gibt es?

Selection Bias (nicht-repräsentative Stichprobe), Non-Response Bias (bestimmte Gruppen antworten nicht), Survivor Bias (nur „Überlebende" betrachtet), Beobachtungsbias (Verhaltensänderung durch Beobachtung), Bias durch ausgelassene Variablen, Ausreißerverzerrung. — Bias gefährdet die Aussagekraft einer Studie.

Was ist der Unterschied zwischen geschichteter Stichprobe und Quotenstichprobe?

Geschichtete Stichprobe: Bevölkerung in Schichten teilen, innerhalb der Schichten ZUFÄLLIG ziehen → besser für statistische Analysen. Quotenstichprobe: Quoten festlegen, Auswahl aber NICHT-zufällig (Interviewer wählt) → schneller, aber potenziell verzerrt. — Kern: zufällig vs. nicht-zufällig.

Was unterscheidet abhängigkeits- von nicht-abhängigkeitsorientierten Daten?

Nicht-abhängigkeitsorientiert: keine Beziehungen zwischen den Datenpunkten (z.B. multidimensionale, Text-, Binärdaten). Abhängigkeitsorientiert: explizite oder implizite Beziehungen (z.B. Zeitreihen, Sequenzen, räumlich-zeitliche Daten, Graph-/Netzwerkdaten). — Beispiel implizit: aufeinanderfolgende Sensormessungen.

Join Course

Preview

Author

Friedrich J.

Information

Last changed
a month ago

Report course