Was sind die Lernziele in diesem Kapitel?
Nach welchen 3 Arten werden maschinelle Lernverfahren eingeteilt und welche Unterearten gibt es dort?
Folgende Fragen zu Unsupervised learnin:
Was ist es?
Was ist der Input?
Was wird gesucht?
Was versteht man unter Clustering und welche Formen gibt es?
Was ist die Dimesionsreduzierung?
Unsupervised Learning = erkennen und modellieren von Zusammenhängen in gegebenen Daten ohne Zielvariable (ungelabelt)
Input: ungelabelte Daten (Inputwerte mit unbekannten Zielwerten) Merkmale x
Gesucht: Muster in den Daten, um daten in Cluster zu teilen oder in komprimierter Form darzustellen
Clustering = Datenpunkte so gruppieren, dass Punkte innerhalb eines Clusters einander ähnlich und Punkte verschiedener Cluster einander unähnlich sind
Arten:
· Zentrumsbasiert: Datenpunkte werden dem m nächsten liegenden Clusterzentrum zugeordnet und bilden ein Cluster —> k-Means
· Dichtebasiert: Bereiche mit wenigen Datenpunkte (geringer Datendichte) sind die Grenzen zwischen den Clustern —> DBSCAN
· Hierarchisch: Datenpunkte werden mithilfe des Abstands schrittweise zu immer größer (oder auch kleiner) werdenden Clustern zusammengefasst) Agglomeratives Clustering
Dimensionsreduktion = Daten in einen niedrigdimensionalen Raum mit allen signifikanten Merkmalen transformieren
—> Abhängigkeiten zwischen den Merkmalen nutzen und Approximieren der Inputdaten, um sie in komprimierter Form darzustellen
Möglichkeit: Principal Component Analysis PCA: korrelierte Merkmale werden durch Linearkombination miteinander kombiniert, wodurch neue Merkmale entstehen
Erkläre das Supervised learing und was gegeben und gesucht ist.
Supervised Learning = basierend auf gegebenen Daten mit Zielwerten (gelabelt) Modell erstellen, das den Zielwert von neuen Inputwerden vorhersagt
· Gegeben: gelabelter Datensatz (Inputwerte mit bekannten Zielwerten), neue ungelabelte Inputdaten
· Gesucht: Modell, das die korrekten numerischen oder kategorialen Labels für neue Inputdaten vorhersagt
Unter was versteht man Regression bei Supervised learning? Welche 4 Formen gibt es?
Regression = Berechnung der Zielvariable y durch lineare Kombination der Inputvariablen x
· Einfache Regression: Zusammenhang zwischen einer Input- und einer Zielvariable
· Multiple Regression: Zusammenhang zwischen mehreren Inputvariablen und eienr Zielvariable
· Lineare Regression: linearer Strukturzusammenhang zwischen Input- und Zielvariablen
· Polynomiale Regression: nicht-linearer Strukturzusammenhang zwischen Input- und Zielvariablen
Unter was versteht man Klassifikation bei Supervised learning? Welche 3 Formen gibt es?
Klassifikation = Modell zur Vorhersage von Klassenbezeichnungen (kategoriale Variable y)
auf Grundlage der Inputvariablen xi
· Binäre Klassifikation: Datenpunkte werden nur in zwei verschiedene Klassen eingeordnet
Multiclass-Klassifikation:Datenpunkte werden in mehr als zwei Klassen eingeordnet
· Multilabel-Klassifikation: Datenpunkte können zu mehreren Klassen zugeordnet werden
Info:
Aus einer Regression kann durch Nutzung eines Schwellenwertes eine Klassifikation erzeugt werden
Was versteht man unter Generalisierung?
Generalisierung = wie gut kann sich Modell an neue Daten anpassen und korrekte Vorhersagen treffen, nachdem es mit einem Trainingsdatensatz trainiert wurde
Underfitting = Fehlen von Parametern, wodurch das Modell die Struktur der Daten nicht angemessen erfassen kann
Overfitting = Spezifizierung eines Modells an zu viele Parameter (Überbewertung von Rauschen in Trainingsdaten)
Gebe eine kurze erklärung an was Reinforcement ist und 4 Merkmale.
Reinforcement Learning = Agent modellieren, der selbstständig eine Strategie zur Lösung eines sequentiellen Problems erlernt
Merkmale:
· Geschlossene Regelkreise: Handeln des lernenden Agenten beeinflusst spätere Aktionen
Markov’scher Entscheidungs-prozess: endliche Menge an gültigen Zuständen, Zustandsübergang nur von jetzigem Zustand abhängig —> sequentielle Entscheidungsfindung
· Keine Vorgaben/ direkte Anweisungen: Agent lernt durch Reaktionen/ Bewertung der Umgebung auf seine Aktionen, wie Zustände korrekt auf Aktionen abgebildet werden können
· Trial-and-error-search: Interaktion des Agenten mit Umgebung —> Rausfunden, welches Verhalten Belohnung maximiert (wenn nicht zielführend, dann Bestrafung)
· Interaktion mit Umgebung: Betrachtung des vollständigen Problems
Welche 4 Algorithmen haben wir uns in der Vorlesung näher angeschaut?
Was ist lineare Regression und welche Probleme können bei ihrer Anwendung auftreten?
Lineare Regression modelliert Zusammenhang zwischen abhängigen und unabhängigen Variablen.
Ziele: Bestmögliche Regressionslinie finden, Fehler minimieren.
Probleme: Beschränkt auf lineare Beziehungen, ungeeignet für nichtlineare Muster.
Lösungen: Polynomiale Regression für gekrümmte Verläufe, logistische Regression für Klassifikationsprobleme.
Was ist die Logistische Regression, welche Annahmen werden getroffen, Vorteile und Probleme entstehen daraus? Erkläre auch die Maximum Likelihood Methode
Definition: Klassifikationsalgorithmus für Vorhersage von binären Ergebnissen.
Ziel: Schätzung der Eintrittswahrscheinlichkeit, nutzt S-förmige logistische Funktion mit Maximalwert von 0 oder 1
Maximum-Likelihood-Methode: Schätzen der Modellparameter der logistischen Regressionsgleichung, dass diese für die beobachteten y-Werte entweder hohe oder kleine/tiefe Eintrittswahrscheinlichkeiten voraussagt
Annahmen:
Abhängige Variable binär
Keine Ausreißer
Linearität des Logits: lineare Beziehung zwischen den kontinuierlichen unabhängigen Variablen und der Logit-Transformation der abgängigen Variablen
Vorteile:
Einfacher Algorithmus (leicht implementieren, interpretieren und trainieren)
Gute Genauigkeit
Kürzere Trainingszeit (aufgrund probabilistischer Interpretation)
Weniger anfällig für overfitting (v.a. für kleine Datensätze)
Probleme:
Overfitting (wenn Anzahl der Beobachtungen < Anzahl Merkmale) —> Lösung: Random-Forest, KNN
Nicht alle Probleme lösbar (wenn nichtlinear) —> SVM mittels Kernel
Ausreißer —> Decision Trees
GPT: Maximum-Likelihood-Methode
Ziel: Beste Sigmoid-Kurve finden, die Wahrscheinlichkeit für Klassenzugehörigkeit modelliert.
Methode: Maximiert Wahrscheinlichkeit der beobachteten Daten mit gegebenen Parametern.
Annahmen: Binäre Zielvariable, keine Ausreißer, Linearität zwischen unabhängigen Variablen und Logit der abhängigen Variable.
Erkläre den K-Nearest Neigbor KNN und die Vorgehensweiße. Für welche Werte von k trifft Overfitting oder Underfitting auf?
KNN: Nichtparametrischer, überwachter Lernalgorithmus für Regression und Klassifikation.
Anhand von Entfernungsmetriken, Klassifizierungen oder Vorhersagen wird die Gruppierung eines einzelnen Datenpunkts erstellt
Vorgehensweise:
Wahl der Anzahl der k Nachbarn
Berechnung der Abstände zu den k Nachbarn (mithilfe gewählten Distanzmaßes)
Ordnung der k-Punke nach zunehmender Entfernung
Zuweisung des Datenpunkts zu bestimmter Klasse aufgrund Mehrheitsabstimmung
Kleiner k-Wert: Overfitting
Großer k-Wert: Underfitting
Wie lässt sich der Hyperparameter “k” optimieren?
Kreuzvalidierung:
Vergleich von verschiedenen Werten für k, um k mit geringsten Fehler auszuwählen
Was ist das Ziel der KNN Regression?
KNN Regression: Verwendung eines Mittelwert-/Durchschnittsmethode zur Vorhersage des Werts neuer Daten
Was sind Einschränkungen, Vorteile und Probleme des KNN Algorithmus?
Einschränkungen:
· Bzgl. Algorithmus:
Rechenintensiv: Abstand des neuen Datensatzes wird von allen Datensätzen im Entwicklungsdatensatz berechnet
Großer Speicherbedarf
· Parameter bzgl. der Leistung
Entfernungsfunktion, für Bestimmung der nächsten Nachbarn
o Entscheidungsregel, die für die Klassifizierung der k-nächsten Nachbarn zuständig ist
o Anzahl der Nachbarn, die zur Klassifizierung des neuen Beispiels verwendet werden
· Nicht parametrisch: keine Annahmen bzgl. des Datensatzes —> gut für Untersuchung von Beziehungen und Ausreißer
· Nichtlineare Leistung —> neue Daten können hinzugefügt werden, ohne Modell zu beeinflussen
· Vielseitigkeit: für Klassifikation und Regression
· Auswahl der Distanzmaße: verschiedene Möglichkeiten
· Gleichbehandlung aller Datenpunkte: schlecht bei Rauschen —> Decision Trees
· Langsamer Algorithmus —> log. Regression
· Fluch der Dimensionalität: gut für kleine Anzahl an Eingabevariablen, ansonsten overfitting —> SVM
Was ist die Definition von Entscheidungsbäume und was ist das Ziel?
—> Klassifikationsalgorithmus: anhand algorithmischer Ansätze die Möglichkeiten zur Aufteilung eines Datensatzes basierend auf verschiedenen Bedingungen identifizieren
—> nichtparametrische Methode, für Regression und Klassifikation
Ziel: Modell, das eine Zielvariable vorhersagt, indem es einfache Entscheidungsregeln lernt, die aus den Datenmerkmalen abgeleitet werden
Erkläre den Aufbau mit seinen Komponenten vom Entscheidungsbaum?
Wurzelknoten: Ausgangspunkt des Baums, Unterteilung in zwei oder mehr homogene Sätze
Innerer Knoten: mittlere Instanz, die in weitere Unterknoten aufspaltet
Blattknoten: keine weitere Segregation möglich nachdem
Zweig: Unterabschnitt des Baums
Was machen Entscheidungsbaumalgorithmen und was passiert bei jedem Trennungsschritt? Gib auch ein Beispiel ein Maß.
Entscheidungsbaumalgorithmen = teilen Datensatz in einer baumartigen hierarchischen Struktur in immer kleinere und hinsichtlich einer abhängigen Variable immer homogener werdende Teilgruppen (Knoten) auf
bei jedem Trennungsschritt das Attribut suchen, mit welchem sich Trainingsdaten in dem Schritt bzgl. des Zielattributs am besten klassifizieren lassen
basieren auf rekursiven Prinzip von Oben nach Unten
Beispiele: Entropie/ Information Gain, Entropie/ Split Info, Gini Impurity (Entropie komplex da es log verwendet, Gini schneller)
Welche Annahmen werden bei Entscheidungsbaumalgorithmen gemacht und was ist der Unterschied zur Regression?
· Zu Beginn wird gesamter Trainingssatz als Wurzel betrachtet
· Merkmalswerte sind vorzugsweise kategorisch
· Wenn Werte kontinuierlich sind, werden sie vor dem Erstellen des Modells diskretisiert
· Datensätze werden rekursiv auf Basis von Attributwerten verteilt
Unterschied bei Regression:
· Kontinuierlich bewerte Ausgaben (statt diskret)
· Entropie kann nicht berechnet werden, da kontinuierliche Ausgaben
· Verwendung des mittleren quadratischen Fehlers als Maß der Abweichung
Welche Vor - und Nachteile haben Entscheidungsbaumalgorithmen?
· Nicht parametrisch (keine Annahmen)
· Nichtlineare Leistung: keine Berücksichtigung von mehreren gewichteten Kombinationen gleichzeitig
· Nützlich bei Datenerkundung: schnell zur Identifikation von Beziehungen zw. Variablen
· Weniger Datenvorbereitung erforderlich (kaum Einfluss durch Ausreißer/ fehlende Werte)
Nachteile:
· Overfitting (bei zu großen Datenmengen) —> SVM
· Hohe Abweichung (bei Overfitting, deshalb recht ungenau) —> Log. Regression
· Instabil (hinzufügen eines Datenpunktes kann zur Neugenerierung des ganzen Baums führen)
Was ist das Ziel der Support Vector Machine (SVM)? Welche zwei Arten gibt es? Wovon hängt die Dimensionalität ab?
Modell erstellen, das durch lineare Trennung des Raums in zwei Kategorien eine Menge von Objekten einer bestimmten Klasse zuordnet
für Klassifikation (linear und nicht linear trennbare Daten) und Regression
Lineare SVM: für linear trennbare Daten
Nichtlineare SVM: für nicht-linear getrennte Daten+
Dimension (1D, 2D, 3D) hängt von Anzahl der Merkmale ab
SVM wählt Hyperplane, die auf beiden Seiten den maximalen Abstand (Margin) zu den Punkten hat + berücksichtigt Punkte, die der Hyperplane am nächsten liegen
Erkläre folgende Begriffe:
Support Vectors
Margin
Hyperlane
Support Vectors: alle Punkte, die den Mindestabstand von Hyperplane erreichen
Margin: Abstand der Vektoren von der Hyperplane, der eine Trennung zu den nächstgelegenen Klassenpunkten darstellt —> SVM will Margin maximieren für eine gute Trennung
Hyperplane: teilt ursprünglichen D-dimensionalen Raum in zwei Halbräume
Erkläre was eine gute oder eine schlechte Margin ist anhand einer Zeichnung.
Was ist ads Problem beim Hard Margin und wie wird das gelöst durch die Soft Margin?
Problem Hard Margin: schmaler Rand, dadurch Modell empfindlich ggü. verrauschten Datenpunkten —> Overfitting —> deswegen eher Soft Margin
Trade off: Breite des Randes (Margin) vs. Anzahl der Fehler die von der linearen Entscheidungsgrenze begangen werden
Was ist der Kernel Trick?
Kernel-Trick: Datenpunkte in einem niederdimensionalen Eingaberaum in einen höherdimensionalen Raum umwandeln —> nicht-trennbares wird zu trennbarem Problem
Was sind die Vor - und Nachteile von Support Vector Machine?
· Sehr schnell, da Parameter nur auf wenigen Support Vektoren basieren, nicht ganzer Datensatz
· Nichtlineare Leistung
· Dimensionalität: gut für höher-dimensionale Daten
· Große Generalisierungsfähigkeit
· Noise Filtering: Rausch wird nicht gut gefiltert —> KNN
· Instabil: neues Training bei neu hinzukommenden Eingabedaten —> KNN
· Nicht-linearität: Kenntnis der Größe der benötigten Dimension Voraussetzung, um nicht nicht-linear separierbaren Problem umzugehen —> Decision Trees
Zuletzt geändertvor 9 Monaten