Was besagt Occams Rasiermesser (Occam’s razor)?
Erklären zwei Modelle die Beobachtung gleich gut, ist das Modell zu bevorzugen, das einfacher ist (mit weniger Variablen auskommt, etc.).
Was ist eine Fehlerfunktion?
Die Fehlerfunktion R(h) ewertet eine Hypothese h durch das erwartete Risiko. Ziel dieser Funktion ist es eine Hypothese mit minimalem Risiko zu finden.
Jedoch kann die Funktion nicht bestimmt werden, da P unbekannt ist.
Was ist die emoierische Risikominimierung?
Findet die Hypothese, die auf einer Stichprobe die geringsten Fehler aufweist.
Wie kan man R(h_0) abschätzen?
Zerlege Daten in Trainings- und Testdaten.
Trainingsdaten zum Erstellen der Modelle und Testdaten zum Schätzen des Fehlers R(h_0).
Was ist Bias?
ML: Präferenz in Bezug auf Modelle
Statistik: Systematischer Teil eines Schätzfehlers (“Verzerrung”).
Welche Faktoren führen zu Schätzfehlern?
y^ Prognose durch Modell,
y wahrer Wert.
Faktoren:
Störterm 𝜀 (irreduzibler Fehler)
Verzerrung der Schätzung y^ (Differenz zwischen der erwarteten („mittleren“) Schätzung und y)
Varianz der Schätzung
Was ist Overfitting?
Eine Überanpassung der Hyphothese an die verfügbaren Daten.
Weist hohe Varianz auf.
Was ist Underfitting?
Unteranpassung des Modells an die Daten.
Weist hohen bias auf.
Was ist die Good Balance?
Eine gute Anpassung des Modells an die Daten.
Hat geringen Bias und geringe Varianz.
Wie ist das Vorgehen bei Überwachtem Lernen?
1. Sammle Daten und zugehörige Labels
2. Verwende Maschinelles Lernen um ein Modell zu trainieren
3. Evaluiere das Modell auf neuen (unbekannten) Daten
Wie funktioniert Nearest Neighbor?
Training:
merken aller Datenpunkte
Vorhersage:
errechnen des Datenpunkts aus den Trainingsdaten mit der geringsten Distanz und ausgabe des Wertes dieses Datenpunkts
Ergebnis ist unterschiedlich je nach verwendeter Distanzfunktion
Wie ist die Laufzeit von Nearest Neighbor beim Training und wie beim Vorhersagen?
Training: O(1)
Vorhersage: O(n)
Wie müssen die Daten für Nearest Neighbor vorbereitet werden und warum?
Attribute müssen im gleichen Wertebereich liegen, da sonst ein Attribut stärker in die Distanzfunktion einfließt als andere
Vorbereitung: Normalisierung, z.B. mit:
Min-Max Normalisierung
Z-Transformation
Wie wirken sich zu kleines oder zu großes k bei k-Nearest Neighbor auf das Vorhersagemodell aus?
Klassifikation sehr sensitiv bezüglich der Wahl von k:
k zu klein: Overfitting, wenig stabil, Rauschen
zu groß: wenig präzise, evtl. Underfitting
Wie unterscheidet sich k-Nearest Neighbor zu Nearest Naighbor? Und welche Änderung ist bei Weighted k-Nearest Neighbor vorhanden?
Bertachtung der k nächsten Datenpunkte.
Vorhersagewert wird von der höufigsten Klasse der nächsten Nachbarn genommen (majority vote).
k=1 ist normales Nearest Neighbor.
Wighted k-NN: majority voting mit Gewichtung
Was ist Lazy Learning?
“träges” Lernen
Trainingsdaten werden komplett gespeichert und dienen als Modell (instance-based learner)
Hauptaufwand findet bei der Vorhersage statt
Was ist Eager Learning?
“eifriges” Lernen
Hauptteil der Arbeit während des Trainings
Beispiele: Support Vector Machines, Entscheidungsbäume, CNNs
Wie bestimmt man am besten Hyperparamether oder zu nutzende Modelle?
Teilen in Trainings- und Testdaten
Nachteil: unbekannt, wie Modell auf neuen Daten Performt
Teilen in Trainings-, Validierungs- und Testdaten
bei wenigen Daten: Kreuz-Validierung (cross validation): fester Testdatensatz, im Trainingsdatensatz wird jeder Teil in einem irgendeinem Durchlauf als Validierungsdaten genommen.
Zuletzt geändertvor einem Jahr