Was ist das Ziel der Klassifikation?
Ziel der Klassifiktation ist die Zuordnung von Featurevektoren zu gegebenen Klasse.
In Abhängigkeit der Anzahl der Klassen wird dies als
binäre oder auch dichotome bzw.
multinominale oder auch polytome
Zuordnung.
Was sind Modelle oder Klassifikatoren?
Die Verfahren und Konzepte, die eine Zuordnung von Featurevektoren zu einer Menge von Klassen erlauben werden allgemein auch als Modelle oder Klassifikatoren bezeichnet.
Zwar ist die Anwendung der Klassifikatoren, also die Klassifikation, das eigentliche Ziel, im Vordergrund stehen jedoch häufig die Verfahren, die diese Modelle automatisiert erstellen.
Worin liegt der Unterschied der Klassifkation zum Clustering?
Anders als beim Clustering stehen die Klassen vorab fest und werden nicht erst durch die Klassifikation erzeugt.
Beispiele
Gesichtserkennung
—>Gesicht - Kein Gesicht
Steuererklärung
—>Betrugsverdacht - Kein Betrugsverdacht
Kreditantrag
Kreditwürdig - Nicht kreditwürdig
Schildererkennung
—>Geschwindigkeitsbegrenzung, Überholverbot, Einfahrt Verboten ...
Wozu dient das maschinelle Lernen?
Im Fokus des maschinellen Lernens steht das Lernen von z.B. Klassifikatoren aus Trainingsdaten.
Was ist das überwachte Lernen?
Ein Teilbereich des maschinellen Lernens ist das sogenannte überwachte Lernen.
Im Gegensatz zum unüberwachten Lernen liegen zielführende Lernmuster in Form von bekannten und bereits zugeordneten Trainingsdaten vor. Zu den überwachten Lernmethoden zählt die Klassifikation, für die dem neuronalen Netz vorklassifizierte Trainingsdaten zur Verfügung gestellt werden
Erläutere den Ablauf der Klassifikation
Lernen eines Modells / Klassifikators aus Trainingsdaten (einmalig)
Validierung des Modells anhand der Trainingsdaten
Verwenden des gelernten Modells, um neue, unbekannte Daten zu klassifizieren
Was sind Trainingsdaten?
Trainingsdaten sind Featurevektoren mit gegebener Klassifikation (Label).
Das Erstellen und Aufbereiten von Trainingsdaten ist aufwändig, da dies häufig durch Expertinnen und Experten geschehen muss.
Zudem müssen die Trainingsdaten das Realweltphänomen möglichst gut mit vielen Aspekten abbilden. Sie drüfen dabei jedoch auch nicht zu präzise sein.
Was sind die Testdaten?
Da Trainingsdaten teuer sind, wird der Trainingsdatensatz zum Lernen und Testen aufgeteilt.
Ein kleiner Teil des Datensatzes wird als Testdatensatz separiert und nicht zum Lernen des Modells verwendet.
Der Anteil an Testdaten ist abhängig von der Anwendung. Im Folgenden werden exemplarisch 10% der Trainingsdaten verwendet.
Wie verläuft die Validierung?
Bei der Validierung wird schließlich das Label der Testdaten als Wahrheit betrachtet und mit dem Ergebnis der Klassifikation vergleichen.
Aus der Korrektheit der Klassifikation kann schließlie die Güte des Modells bestimmt werden.
(wird mehrmals durchlaufen mit zufälliger Aufteilung von Trainings- und Testdaten, dann wird bestes Modell gewählt)
Wie bewertet man die Qualität eines Klassifikators?
Zur Beurteilung des Erfolgs des Lernen eines Klassifikators wird ein Maß für die Güte der Generalisierungsfähigkeit des Modells benötigt, mit dem man in der Lage ist, die Korrektklassifizierungsrate messbar zu machen. Die nachfolgend dargestellten Gütemaße bilden somit die relevante Basis zur Bewertung der Qualität eines Klassifikators.
Zur Erläuterung der Gütemaße einer Klassifikation hinsichtlich einer bestimmten Prüfung müssen folgende Werte bzw. Parameter eingeführt werden
True Positive (TP)
False Positive (FP)
True Negative (TN)
False Negative (FN)
Diese Werte ergeben sich aus dem Vergleich von erwarteter Klassifikation (Wahrheit, Label) und der tatsächlichen Klassifikation durch das Modell (Prädiktion).
Es wird dargestellt, ob die Prädiktion korrekt ( true ) oder falsch ( false ) ist und ob die betrachtet Klasse prädiziert wurde ( positive ) oder nicht ( negativ ).
Beispiel für Klasse A:
Das dargestellte Rechteck repräsentiert die Wirklichkeit, d.h.
die linke (grüne) Fläche beinhaltet alle Datenobjekte, die in Klasse A enthalten sind und
die rechte (blaue) Fläche enthält alle Datenobjekte, die nicht in Klasse A enthalten sind.
Der rote Kreis repräsentiert die Datenobjekte, die der Klassifikator der Klasse A zugeordnet hat, aufgeteilt in
korrekt zugeordnete (TP, linker Teilkreis) und
nicht korrekt zugeordnete (FP, rechter Teilkreis) Datenobjekte.
Was ist die Konfusionsmatrix?
Die Validierung wird für jeden Featurevektor des Testdatensatezs durchgeführt.
Jeweils wird das Label mit der Prädiktion verglichen. Dieser Vergleich liefert eben TP, FP, FN und TN.
Die mengenmäßige Einteilung wird in der Konfusionmatrix dargestellt
Wie interpretiert man die Konfusionsmatrix?
Abgeleitet aus der Wahrheitstabelle lässt sich das Schema der Spaltenwirklichkeit und Zeilenprädiktion beliebig auf mehrere Klassen erweitern.
Erläutere die Spaltenwirklichkeit
Auf Basis der erstellten Wahrheitsmatrix der Mehrfachklassifikation lassen sich die dargestellten Gütekriterien der Binärklassifikationen nun auch für die Mehrfachklassifikationen berechnen. Da die Tabellenspalten die Wirklichkeit der jeweiligen Klassenzugehörigkeit wiederspiegeln, lässt sich - durch Bildung der Spaltensummen - ablesen, dass insgesamt
202 + 1 + 0 = 203
Datenobjekte der Klasse A,
10 + 102 + 1 = 113
der Klasse B und
0 + 1 + 15 = 16
der Klasse C zugehörig sind.
Erläutere die Zeilenprädiktion
Der positive Test auf Zugehörigkeit der Klasse A ( Klasse A wurde prädiziert) lässt sich indes durch Bildung der Zeilensummen erfassen und war bei
202 + 10 + 0 = 212
Datenobjekten positiv. Klasse B wurde bei
1 + 102 + 1 = 104
Datenobjekten und Klasse C bei
Datenobjekten prädiziert.
Welche Gütewerte gibt es?
Aus der Anzahl der dargestellte Fälle der Testergebnisse in der Wahrheitstabelle lassen sich die relevanten Gütewerte berechnen:
Sensitivität,
Genauigkeit und
F-Maß
Erläutere den Gütewert der Sensitivtät
Die Sensitivität (engl. Recall) beschreibt den Anteil der Klasse A zugeordneten Datenobjekt in Bezug zu allen Datenobjekten der Klasse A. Hiermit wird die Frage beantwortet, wie viele Objekte der Klasse A vom Test gefunden wurden bzw. wie sensitiv der Test ist.
Erläutere den Gütewert der Genauigkeit
Die Genauigkeit (engl. Precision) beschreibt das Verhältnis der korrekt klassifizierten Objekte der Klasse A zu allen Datenobjekten, die Klasse A zugeordnet wurden. Hiermit wird der Anteil der korrekt klassifizierten Objekte berechnet.
Erläutere den Gütewert des F-Maß
Das F-Maß der Klassifikation ist der harmonische Mittelwert von Sensitivität und Genauigkeit.
Die beschriebenen Maße werden für die Bewertung binärer Klassifikatoren verwendet, d.h. das Testergebnis ist ja, nein bzw. ist der Klasse A zugehörig oder nicht. Bei der Bewertung von Mehrfachklassifikationen, d.h. der Zugehörigkeitsprüfung mehrerer Klassen wie z.B. in der Abbildung zu sehen, hat sich die tabellarische Form der sogenannten Konfusions- oder Fehlermatrix etabliert.
Was ist die Korrektklassifizierungsrate?
Die Korrektklassifizierungsrate der Klassifikation ist das Verhältnis der korrekt zugeordneten Klassen zu allen Klassen und entspricht dem Gütemaß der "Accuracy" z.B. in Tensorflow.
Berechne die Sensitivität und Genauigkeit für die Klasse A
Die relevanten Parameter (TP, FP, TN und FN) zur Bestimmung der Gütemaße lassen sich nun durch Berechnung der Differenzen beider Summen bilden. Zur exemplarischen Bewertung der Klassifikationsgüte für Klasse A berechnen sich die Parameter zu.
Die Sensitivität und die Genauigkeit der Klassifizierung der Klasse A liegt somit bei:
Die beschriebenen drei Gütemaße der Klassifikation stellen eine Auswahl dar und werden um eine Vielzahl an Bewertungskriterien ergänzt. Alleine Runkler listet 15 Bewertungskriterien auf Basis der vier Parameter TP, FP,TN,FN auf.
Last changed2 years ago