Was sind Dimensionen?
Beispieldatensatz:
Betrachten wir den Personen-Datensatz, so stellen wir fest, dass jede Person durch 7 Eigenschaften bzw. Attribute beschrieben wird. Diese Anzahl von Attributen stellt eben die Anzahl von Dimensionen dar. Wir haben es in diesem Datensatz also mit einem 7- dimensionalen Datensatz zu tun.
Die Dimensionen beschreiben: ID, Name, Vorname, Geschlecht, Größe, Gewicht und Geburtsdatum.
Ob die ID zu den Dimensionen gezählt wird, ist nicht einheitlich.
Was sind Vektoren?
Jedes Element eines gesamten Datensatzes kann einen Wert je Dimension haben. Diese Elemente werden Vektor verstanden. So lässt sich das erste Element des Personendatensatzes als Vektor notieren:
Dieser stehende Vektor x1 ist im Pandas Data Frame liegend; entspricht also einer Zeile. Die Anzahl der Komponenten dieses Vektors bestätigt die o.g. Dimensionalität des Datensatzes
Was sind Featureverktoren?
Die Vektoren werden als Featurevektoren bezeichnet. Die einzelnen Komponenten entsprechend als Feature.
Ein Datensatz besteht also aus vielen Featurevektoren, die in jeder Komponente Datenwerte in der selben Dimension (="Eigenschaft") speichern. Der Personen-Datensatz enthält 6 Featurevektoren.
Welche Datentypen im Bereich Data-Analytics existieren?
Im Bereich Data-Analytics werden andere Datentypen unterschieden, als sie in vielen Programmiersprachen vorzufinden sind:
qualitativ
nominal
ordinal
binär
quantitativ
diskret
kontinuierlich
Erläutere die Qualitativen Werte
Diese entsprechen dem aus Programmiersprachen bekannten Datentyp String. Es sind Zeichenketten, die Eigenschaften der Realweltphänomene qualitativ beschreiben.
Können wie z.B. in der Dimension Name beliebige Zeichenketten vorkommen, so werden diese als nominal bezeichnet.
Gibt es eine abzählbar endliche Menge möglicher Zeichenketten wie in der Dimension Geschlecht, so werden diese als ordinal bezeichnet. Farben, Wochentage oder Monatsnamen sind ebenfalls ordinal.
Gibt es nur zwei mögliche Zeichenketten wie z.B. "bestanden" oder "nicht bestanden", so werden die Daten als binär bezeichnet.
Erläutere die Quanitativen Werte
Nummerische Werte werden als quantitativ bezeichnet. Sie beschreiben die Eigenschaften der Realweltphänomene mengenmäßig.
Gibt es unendlich viele mögliche Werte in einer Dimension, so werden diese als kontinuierlich bezeichnet. Dies gilt insbesondere für Zahlenwerte, die reell sind.
Ist die Menge möglicher Zahlenwerte abzählbar endlich und gibt es mehere Featurevektoren mit gleichem Wert in dieser Dimension, so werden die Datan als diskret bezeichnet. Diese müssen jedoch nicht ganzzahlig sein.
Was ist eine Datennormierung?
Welche Probleme treten dabei auf?
Wenn Daten unterschiedlicher Skalierung in einen Algorithmus oder eine Analyse einfließen sollen, dann kann dies zu Problemen führen. Beispielsweise können im obigen Datensatz Gewicht und Größe nicht einfach miteinander verglichen werden.
Also rein physikalisch dürfen diese beiden Dimensionen nicht verglichen werden, da sie unterschiedliche Einheiten haben.
Probleme dabei:
Varianz
-> Die unterschiedliche Größe der nummerischen Werte macht hier Probleme. Dies fällt beim Vergleich der Standardabweichung der Daten unmittelbar auf. Variieren die Werte der Göße um 0,05 so variieren die Werte des Gewichts um 8325.
Maßstab
—> Es fällt auf, dass sich aufgrund der unterschiedlichen Skalierung der beiden Dimensionen Größe und Gewicht eine Dominanz der nummerisch größeren Werte der Größe einstellt. Eine Änderung der Größe um den Wert 5 hätte im Diagramm unten viel größere (grafische) Auswirkungen als eine Änderung des Gewichts um den Wert 5.
(Originalwerte) (Jeder Punkt= eine Person)
Nenne mögliche Arten von Normierungen
Um diese Daten doch vergleichbar zu machen und sinnvoll im gleichen Verfahren zu nutzen, bedient man sich:
Normalisierung
Standardisierung
Einheitsvektoren
Erläutere die Normalisierung
Bei der Normalisierung wird der Wertebereich auf das Intervall [0,1] begrenzt. Hierzu wird von jedem Wert das Minimum aller Werte subtrahiert und diese Differenz durch Differenz von Maximum und Minimum dividiert:
Aufgrund der Division von Differenzen sind die Werte nun einheitenlos
—> skaliert kleinsten auf 0 und größten auf 1
Erläutere die Standardisierung
Zur Standardisierung werden der Mittelwert μ aller Daten sowie die Standardabweichung verwendet:
Die Standardabweichung ist ein Maß für die Streuung der Werte eines Merkmals um dessen arithmetisches Mittel. Vereinfacht gesagt, ist die Standardabweichung die durchschnittliche Entfernung aller Werte vom Durchschnitt.
Interpretation
Es ist leicht ersichtlich, dass die Werte bei der Standardisierung nicht auf das Intervall [0, 1] skalieren und ihre Einheiten nicht behalten. Die Werte sind nach der Standardisierung standardnormalverteilt mit μ = 0 und σ = 1.
Erläutere den EInheitsvektor
Hier werden alle Werte eines Attributs als Vektor verstanden, der in einen Einheitsvektor überführt wird. Der Einheitsvektor zeigt in die gleiche Richtung, wie der ursprüngliche Vektor, seine Länge ist jedoch ∥e→∥ = ∥e∥ = 1.
Zur Überführung eines Vektors in einen Einheitsvektor werden alle Elemente des Vektors durch die Länge des Vektors geteilt.
Hier wurde in Python der Potenz-Operator ** verwendet und es wurden mehrere Operationen miteinander verkettet.
—> personen[d]**2 quadriert alle Werte der entsprechenden Spalte
—> (personen[d]**2).sum() summiert die quadrierten Werte
—> (personen[d]**2).sum()**0.5 zieht die Wurzel aus der Summe der quadrierten Werte:
Nenne Distanzmaße zur Abstandsberechnung
Zur Abstandsberechnung werden unterschiedliche Distanzmaße verwendet. Gebräuchlich sind insbesondere
der Euklidische Abstand
die Manhattandistanz
die Kosinusähnlichkeit
Die Berechnung dieser Distanzmaße ist im 2D bekannt. Die Überführung ins Eindimensionale ist tirvial. Doch auch die Überführung ins n-Dimensionale ist unproblematisch
Erläutere den Euklidischen Abstand
Die euklidische Distanz ist im 2D identisch mit der geraden Strecke zwischen zwei Punkten und lässt sich mithilfe des Satzes des Pythagoras berechnen. Diese Berechnung lässt sich entsprechend auf höhere Dimensionen anwenden:
Bsp.
Erläutere die Manhattendistanz
Die Manhattandistanz addiert den Betrag der Koordinatendifferenzen der einzelnen Achsen. Es werden also den entsprechenden achsparallelen Strecken addiert.
Erläutere die Kosinusähnlichkeit
Die Kosinusähnlichkeit ist definiert durch den Kosinus des Winkels , den zwei Vektoren a und b einschließen.
Sind die Vektoren identisch, so ist ihre Kosinusähnlichkeit 1. Zeigen die beiden Vektoren in entgegengesetzte Richtungen, so ist die Kosinusähnlichkeit −1 und der Abstand der Vektoren maximal.
Das Skalarprodukt a ⋅ b ist definiert als der Kosinus des eingeschlossenen Winkels cos(θ).
Aufgrund der Division durch ∥a∥∥b∥ werden die Vektoren a und b in Einheitsvektoren transformiert, sodass die Kosinusähnlichkeit unabhängig von der Länge der Vektoren ist
Last changeda year ago