Was sind strukturierte Daten?
Was sind unstrukturierte Daten?
Was sagen die Lageparameter einzelner Spalten aus?
Erfassung der zentralen Tendenz
Wie liegen die Daten?
Was sagen die Streuungsparameter einzelner Spalten aus?
Wie ist die Streuung?
Sind die Daten verzerrt?
Gibt es Ausreißer?
Welche Aussagen kann man über mehrere Spalten treffen?
Sind die Daten korreliert?
Zusammenhangsparameter
Welche Arten von Daten (Skalenniveaus) gibt es?
Nominalskala
Ordinalskala
Kardinalskala
Was ist eine Nominalskala?
Kategorische Variablen
Skalenniveau mit niedrigstem Informationsgehalt
Daten können nicht in logische Reihenfolge gebracht werden
Sonderfall: dichotom/binär
Beispiele: Geschlecht, Nationalität, etc.
Was sind dichotome Variablen?
Es gibt nur zwei Ausprägungen
per Default: True / False
Was ist eine Ordinalskala?
Ordinale Daten
informativer als Nominalskala
Bilden einer Rangfolge möglich
Vergleiche möglich: größer, kleiner, etc.
Abstände NICHT quantifizierbar
Beispiele: Bewertungssystem mit Sternen, Noten, etc.
Wie könnte ein Beispiel aussehen, in dem eine reduktion metrischer Daten zu ordinalen Daten werden?
Was ist eine Kardinalskala?
metrische Daten
Werte sind messbar
logische Reihenfolge
Abstände lassen sich quantifizieren (Differenz möglich)
Unterscheidung zwischen Absolut- und Intervallskala
Bei Absolutskala exisitert ein absoluter Nullpunkt
Beispiel: Größe in cm, Preis in Euro.
Welche Skala und Art der Daten wird für eine Klassifikation in zwei Klassen benötigt?
dichotome/binäre Daten
Welche Skala und Art der Daten wird für eine Klassifikation in mehr als zwei Klassen benötigt?
kategorische Daten
Welche Skala und Art der Daten wird für eine Klassifikation zum Ordnen der Daten benötigt?
ordinale Daten
Welche Skala und Art der Daten wird für eine Klassifikation zum Messen OHNE absoluten Nullopunkt benötigt?
Intervallskala
Welche Skala und Art der Daten wird für eine Klassifikation zum Messen MIT absoluten Nullopunkt benötigt?
Absolutskala
Die Variable Farbe hat die Ausprägungen ‘rot’, ‘grün’, ‘blau’. Um welche Art von Skala und Variable handelt es sich?
kategorische Variable
Bei der Temperatur in Celsius handelt es sich um eine metrische
Variable, da sich die Abstände quantifizieren lassen. Gilt hier die
Intervall- oder die Absolutskala?
Intervallskala, da kein absoluter Nullpunt (auf 0) exisitert
Was ist der Unterschied zwischen singulären und gruppierten Daten?
singuläre Daten
unterscheiden sich von allen anderen
Häufigkeit = 1
gruppierte Daten
Wiederholungen sind möglich
z.B. bei Klassen
Häufigkeit > 1
Welche Arten von Lageparametern gibt es?
Mittelwert
Median
Modus
Welche Lageparameter wird bei der Kardinalskala verwendet?
Welche Lageparameter wird bei der Ordinalskala verwendet?
Welcher Lageparameter wird bei der Nominalskala verwendet?
Was ist der Modus/Modalwert?
Am häufigsten auftretender Wert
Nicht umbedingt eindeutig
Bei allen Skalenniveaus berechenbar
Was ist der Median?
Mittleres Element bei sortierten Daten
Bei gerader Anzahl an Daten: Die beiden mittleren nehmen und Durchschnitt berechnen
Was sind Quantile?
Aufteilung der Daten in Bereiche (Daten müssen sortiert sein)
Spezialfälle:
Median = 50% Quantil
Q1 = 25% Quartil
Q2 = Median
Q3 = 75% Quartil
Perzentile (1% Schritte)
Was muss bei der Berechnung des Mittelwertes beachtet werden?
Sehr empfindlich gegenüber Ausreißern
Welche Aussagen können über die Schiefe getroffen werden?
Art und Stärke der Asymmetrie einer Wahrscheinlichkeitsverteilung
gibt an, in wie weit sich eine Verteilungsfunktion zur Seite neigt
Beschreibe eine symmetrische Schiefe (inkl. Median/Modus/Mittelwert).
Beschreibe eine links-schiefe Verteilung (inkl. Median/Modus/Mittelwert).
Beschreibe eine rechts-schiefe Verteilung (inkl. Median/Modus/Mittelwert).
Welche Arten von Streuungsparametern gibt es?
Varianz (Moment 2. Ordnung)
Standardabweichung
Schiefe (Moment 3. Ordnung)
Kennzahl für die Asymmetrie einer Verteilung
• ν < 0: linksschief
• ν > 0: rechtsschief
• ν = 0: symmetrisch
Kurtosis (Moment 4. Ordnung)
Wie lautet die Formel für einen Moment k-ter Ordnung?
Was besagt die Varianz?
Moment 2. Ordnung
Mittelwert der Summe der quadrierten Abweichungen der Messwerte vom Mittelwert
Maß für die Streuung der Daten um den Mittelwert
Wie lautet die Formel zur Berechnung der Varianz?
(Die Standardabweichung ist die Wurzel davon)
Wie berechnet sich der IQR (Interquartilsabstand) und was besagt dieser?
IQR = Q3 - Q1
Spannweite der mittleren 50% der Daten
Wie berechnet sich der Lower und Upper Fence bei einem Boxplot und woran erkennt man Ausreißer?
Lower Fence: Q1 - (1,5 * IQR)
Upper Fence: Q3 + (1,5 * IQR)
Werte kleiner als der LF oder größer als der UF sind Außreißer
Beispiel für einen Boxplot. Welche Aussage kann mittels des Medians getroffen werden?
Median gibt aussage über die Schiefe an.
Wie können Zusammenhangsmaße zwischen zwei Merkmalen erkannt werden?
1. Schritt: Scatterplot
Berechnung der Korrelation zwischen den Daten
Wie kann man die Korrelation zwischen Daten bei metrischen Daten berechnen?
Korrelationskoeffizient
Wie kann man die Korrelation zwischen Daten bei ordinalen Daten berechnen?
Rangkorrelationskoeffiziet
Wie kann man die Korrelation zwischen Daten bei kategorischen Daten berechnen?
X^2 - Test
Wie lautet die Formel für den Pearson’s Korrelationskoeffizienten?
Sx und Sy jeweils Standardabweichung
Ergebnis gegen 0 = keine lineare Korrelation
Ergebnis gegen 1 = positive Korrelation
Ergebnis gegen -1 = negative Korrelation
Welche Voraussetzungen gibt es für Pearson’s Korrelationskoeffizienten?
metrisch skalierte Daten
keine Ausreißer
linearer Zusammenhang
bivariate Normalverteilung
Was ist der Unterschied zwischen Kausalität und Korrelation?
Kausalität: Es gibt einen direkten Zusammenhang zwischen zwei Variablen
Beispiel: Windstärke und erzeugte Elektrizität von Windrädern
Korrelation: Es gibt nicht zwangsweise einen “logischen” Zusammenhang wie bei Kausalität
Last changeda year ago