Was versteht man unter Klassifizierung?
Zuordnung von Beobachtungen zu einer Klasse
Welche Voraussetzungen müssen für die Verwendung einer Klassifizierungsmethide vorhanden sein?
Klassen müssen definiert sein
Trainings- und Testdaten müssen alle Klassen enthalten
Mit welchem ML Modell können Klassifizierungen durchgeführt werden?
Entscheidungsbaum
Welche Antworten können die Fragen haben?
Wahr + Falsch
Welches Ziel soll durch die Aufteilung der Knoten erreicht werden?
Es sollen am Ende “pure Leafes” entstehen, welche 100% einer Klasse enthalten.
Welche Gefahr besteht, wenn zu viele Knoten im Entscheidungsbaum vorhanden sind?
Es besteht die Gefahr von Overfitting
Welche Frage beantwortet das Gini Unreinheitsmaß?
Beim Gini Unreinheitsmaß wird die Frage gestellt “Wie hoch ist die Wahrscheinlichkeit, dass 2 zufällig gezogene Objekte unterschiedliche Klassifizierungen haben”
Welchen Wertebereich kann das Gini Unreinheitsmaß annehmen und wie werden diese interpretiert?
Minimum: 0 => Alle Objekte identisch
Maximum 0,5 => Es besteht eine 50/50 Aufteilung
Wie wird der CART Algorithmus auch genannt?
binäre rekursive Partitionierung
Wie ist der Ablauf beim CART Algorithmus?
Aufteilung der Beobachtung anhand der 1. Variable in 2 Knoten
Links: Wahr
Rechts: Falsch
Bestimmung des Gini Unreinheitsmaß
Auswahl der Aufteilung mit dem geringsten Unreinheitsmaß
Wiederhulung der Schritte 1 - 3
Anordnung der Variablen (Reihenfolge) um geringste Unreinheit zu erhalten.
….
Was sist die ROC Kurve?
Die ROC Kurve ist eine Güteanalyse für eine Klassifikation.
Wie wird die Güteanalyse interpretiert?
Die Fläche Unterhalb der blauen Linie entspricht der Güte. Ab einer Fläche von 0.9 kann diese als gut bewertet werden.
Die Linie sollte also oben links erfolgen.
Worin Unterscheidet sich Instance Based Learning von anderen Klassifikationsmethoden?
Hierbei wird kein Modell erstellt, sondern lediglich die Trainingsdaten gespeichert.
Wie funktioniert der K-nearest Neighbor Algorithmus?
Der K-Nearest Neighbour Algorithmuss Ordnet eine neue Beobachtung anhand der nächsten k Nachbarn einer Klasse zu. Hierzu wird die Dienstanz zu allen Trainingsdaten berechnet und die kürzeten ausgewählt.
Zuletzt geändertvor 2 Jahren