Welchem Ziel dient überwachtes und unüberwachtes Lernen?
Unüberwachtes Lernen
Clustering / Gruppierung
Dimensionsreduktion
Überwachtes Lernen
Klassifikation
Regression
Muss ein zu lernendes Attribut vorliegen beim unüberwachtem Lernen?
Nein, dies ist nur beim überwachtem Lernen der Fall
In diesem Fall muss der Datensatz das entsprechende Attribut bereits tragen um zukünfige Vorhersagen bei einem neuen Datensatz über eben dieses Attribut zu treffen
Wie ist ein Cluster definiert?
Ein Cluster beschreibt eine Gruppe von Objekten, welche untereinander ähnlicher sind, als Objekte außerhalb der Gruppe
Wie können Ähnlichkeiten zwischen Objekten berechnet werden?
Beispielsweise mit Distanzfunktionen wie der euklidischen Distanz
Was ist eine Intracluster-Homogenität?
Die Elemente eines Clusters sollen möglichst ähnlich sein
Was ist eine Intercluster-Homogenität?
Die Unterschiede zwischen Elementen verschiedener Cluster sollen möglichst verschieden sein
Welche Schritte sollten vor einem Clustering ausgeführt werden in Sachen Datenaufbereitung?
Ausreißer sollten entfernt werden
hoch korrelierende Variablen sollten ausgeschlossen werden
konstante Ausprägungen sollten entfernt werden
Was ist disjunktes Clustern?
Eine Instanz wird mehreren Clustern zugeordnet
Was ist der Unterschied zwischen Hard- und Softclustering?
Hard (deterministisch)
Eine Instanz wird genau einem Cluster zugeordnet
Soft (probabilistisch)
Eine Instanz wird einem Cluster mit einer gewissen Wahrscheinlichkeit zugeordnet
Was sind die zwei verschiedenen Arten von Clustern, welche durch Algorithmen erzeugt werden können und worin unterscheiden sich diese?
Iterativ
Algorithmus mit Anfangsmenge von Clustern, welche iterativ verbessert werden
Hierarchisch / Flach
Generierung von Hierarchien mit unterschiedlicher Granularität (generalisierte Hierarchiestufen)
Bei flachen Clustern gibt es nur ein Granularitätslevel
Was ist der Unterschied zwischen
Partitional Clustering
Hierarchical Clustering
Dichtebasiertes Clustering
Partitional Clustering (z.B. K-means)
Einteilung in nicht-überlappende Cluster
Satz von “nested” Clustern organisiert als hierarchischer Baum
DBSCAN
Welche Eigenschaften hat Partitionierendes Clustern und wie funktioniert es? Gibt es Nachteile bei diesem Verfahren?
Anzahl an Clustern wird im Vorfeld festgelegt
Die einzelnen Objekte werden solange zwischen den Clustern umgeordnet, bis ein Optimum erreicht ist
Nachteil: Startposition ist vorgegeben (für ersten Teilnehmer)
Einfluss auf Endkonfiguration
Welche Eigenschaften hat Hierarchisches Clustern und wie funktioniert es? Welche Unterteilungen gibt es hierbei?
Unterschiedung zwischen agglomerativ und divisiv
Divisiv (Top-Down)
Algorithmus startet Clusteranalyse mit der gröbsten Partition
Alle Objekte in einem Cluster -> dieser wird in immer kleinere Cluster aufgeteilt
Agglomerativ (Bottom-Up)
Prozess in umgekehrter Reihenfolge
Start bei kleinster Partition -> jedes Objekt ist ein Cluster
Objekte mit der geringsten Distanz werden solange verbunden bis Großcluster entstehen
Was sind die Eigenschaften und das Ziel des K-means Algorithmus?
Algorithmus nimmt an, dass Anzahl an Clustern bereits bekannt ist
Kann logischerweise zu Problemen führen
Ziel: Minimierung der Summe der quadrierten Abweichungen von Cluster-Mittelpunkten
Optimierungsfunktion:
Aus welchen 4 Schritten besteht der iterative K-means Algorithmus?
Initialisierung: Zufällige Initialisierung von k Clustermittelpunkten
Zurodnung: Zuteilung Datenpunkte zu Clustermittelpunkten mit Abstandsmaß
Update der Clustermittelpunkte: Berechnung arithmetisches Mittel der zugehörigen Clusterpunkte
Wiederhole Schritt 2 und 3 solange, bis keine Veränderung mehr auftritt
Ist K-means deterministisch?
Nein, da es abhängig von den zufällig initialisierten Startpunkten ist
Was ist der Unterschied zwischen K-means und K-means++?
Bei K-means++ werden die Startpositionen der Cluster “besser” gewählt
Erster Mittelpunkt wird zufällig gewählt und anschließend sämtliche Entfernungen zu allen Datenpunkten berechnet
Objekte die sich nun am weitesten von den Clustermittelpunkten entfernt befinden haben eine höhere Wahrscheinlichkeit als neuer Clustermittelpunkt ausgewählt zu werden
Sobald alle k Clustermittelpunkte gefunden wurden wird der normale K-means Algorithmus ausgeführt
Wie wird der Parameter k im k-Means Algorithmus am besten gewählt? Welche zwei verschiedenen Bewertungsmöglichkeiten gibt es?
Berechne für k = 2, …, n-1 jeweils ein Clustering
Wähle aus der Menge der Ergebnisse jeweils das beste aus
Beispielsweise mit Silhouette Coefficient
höchster SC bestimmt k
Interne vs. Externe Evaluation
interne = z.B. Silhouette Coefficient
externe = Rand index
Wie funktioniert der Silhouette Coefficient für die Bewertung des Clusterings von k-Means?
a(i)
durchschnittliche Distanz zwischen Objekt i und allen anderen Objekten im gleichen Cluster
b(i)
durchschnittliche Distanz zwischen Objekt i und allen anderen Objekten der anderen Cluster
Durchschnittlicher Shilouetten Wert SC zwischen allen Objekten wird wie folgt interpretiert:
SC > 0.7 -> starke Struktur
SC > 0.5 -> brauchbare Struktur
Wie funktioniert der Rand index zur externen Evaluation eines Clustering?
a: Anzahl Objektpaare, die sich im gleichen Cluster befinden und das gleiche Klassenlabel besitzen
b: Anzahl Objektpaare, die sich in unterschiedlichen Clustern befinden und unterschiedliche Klassenlabel besitzen
n: Anzahl Objekte
RI = 1 = perfektes Matching
Welche Eigenschaften hat K-Means?
Flaches Clustering Verfahren
Für große Datenmengen geeignet
Nicht geeignet für nominale Daten
Findet nur ein lokales Minimum, kein globales
Cluster hängen stark von der initialen Wahl der Clusterzentren ab
Anzahl der Cluster sollte nicht zu groß gewählt werden (Gefahr der Überanpassung)
Was sind Vor- und Nachteile des K-Means Algorithmus?
Vorteile
Relativ einfach
Effiziente Laufzeit -> O(nkl) mit n = Anzahl Datenpunkte, k = Anzahl Clustermittelpunkte, l = Anzahl Iterationen
Nachteile
Clusteranzahl muss vorher festgelegt werden
Alle Datenpunkte werden einem Cluster zugeordnet
Sensitiv zu Ausreißern
Sensitiv zur Startkonfiguration
Was ist der K-Medoid Algorithmus und welchen Vorteil bringt er im Vergleich zum K-Means?
Nimmt Datenpunkte als Zentrum
Erlaubt die Verwendung von nominalen Daten
Wie funktioniert hierarchisches Clustering und wie wird dieses dargestellt?
Darstellung mittels Dendrogramm
Höhe spiegelt Distanz wieder
Basierend auf Linkage-Methoden werden Ähnlichkeiten berechnet und gruppiert
Single linkage
Complete linkage
Average linkage
verbindet pro Schritt zwei Objekte zu einem Cluster
Was sind Vor- und Nachteile von hierarchischem Clustering?
kann leicht verstanden werden und wird relativ häufig eingesetzt
Anzahl der Cluster muss nicht vorher gewählt werden
Auswahl eines geeigneten Distanzmaßes
Daten dürfen keine fehlenden Attributwerte haben
Clusterzuordnungen können nicht rückgängig gemacht werden
Welchen Vorteil bringt dichtebasiertes Clustering im Vergleich zu den anderen Verfahren?
Hierarchische oder partionelle Clusteringverfahren haben Probleme ovale oder “S”-förmige Cluster zu erkennen
funktionieren nur gut für kompakte und gut getrennte Cluster
Welche 3 Arten von Punkten existieren beim dichtebasierten Clustering (DBSCAN)?
Core points
Objekte mit dichter Nachbarschaft
Anzahl Nachbarpunkte >= MinPts Variable
Border Points
Objekte die in der Eps-Nachbarschaft eines Core points liegen, selbst aber nicht dicht sind
Noise
Objekt das weder dicht, noch dichte-erreichbar ist
Erkläre folgende Begriffe des DBSCAN Algorithmus
Direkt dichte-erreichbar
dichte-erreichbar
dichte-verbunden
Objekt p ist direkt dichte-erreichbar von q, wenn p in der Eps-Nachbarschaft von q liegt und q Kernobjekt ist
Objekt p ist dichte-erreichbar von q, wenn es eine Kette von direkt erreichbaren Punkte von p zu q gibt
Zwei Objekte p und q sind dichte-verbunden, wenn sie beide von einem dritten Objekt dichte-erreichbar sind
Was sind die 4 Schritte des DBSCAN Algorithmus?
Finde alle Kernpunkte
Verbinde Kernpunkte, deren Abstand höchstens Eps beträgt mit einer Kante
Eine Menge verbundener Kernpunkte bilden ein seperates Cluster
Jeder nicht-Kernpunkt wird
einem Cluster zugewiesen, falls er sich in der Eps-Nachbarschaft befindet
Als Noise markiert, falls er sich nicht in der Eps-Nachbarschaft befindet
Was beschreiben die Parameter MinPts und Epsilon beim DBSCAN Algorithmus?
MinPts
Minimale Anzahl Punkte in der Nachbarschaft um zu bestimmen, ob ein Punkt ein Kernpunkt ist
Epsilon
Maxmialer Abstandswert um zu bestimmen, ob sich ein Punkt in der Nachbarschaft befindet
Zuletzt geändertvor einem Jahr