Beim überwachten Lernen (anders als beim unüberwachten Lernen) gibt es zu jedem Sample einen gewüschten Ausgabewert (Label).
Korrekt:
Wir minimieren den Empirical Loss, der maßgeblich vom Unterschied zwischen den vorhergesagten Labels und den wahren Labels (ground truth) abhängt.
In der Klassifikation (anders als bei der Regression) nimmt der Ausgabewert kontinuierliche Werte an.
Falsch (es ist genau umgekehrt):
In der Klassifikation haben wir diskrete Labels für die einzelnen Klassen, während die Zielvariable bei der Regression kontinuierlich ist.
Ein 1-Nearest-Neighbour-Classifier hat einen niedrigen Bias (structural risk) und eine hohe Varianz (sample error).
Ein one-nearest-neighbour-classifier kann praktisch jede Struktur der Daten approximieren -> hohe Variance. Der Bias ist niedrig, weil wir uns in keiner Weise auf eine spezifische Struktur einschränken.
Die Vapnik-Chervonenkis (VC-)Dimension ist ein Maß für die Komplexität eines Klassifikators.
Korrekt. Je höher die VC-Dimension, desto flexibler ist der Klassifikator. Er kann also komplexere Muster in den Daten erkennen.
Je höher die VC-Dimension, desto besser ist die Fähigkeit des Klassifikators, zu generalisieren.
Falsch
Die growth function sagt aus, dass wir mit höherer VC-Dimension auch gleichzeitig mehr Daten brauchen, damit empirical und structural risk nicht zu stark voneinander abweichen.
Bei 1001 Datenpunkten hat ein 1001-nearest-neighbour-Classifier einen hohen Bias (structural risk) und eine hohe Variance (sample error).
Falsch.
Der Bias ist zwar hoch, aber die Varianz ist sehr niedrig, da nur zwei Klassifikatoren möglich sind.
Wenn die VC-Dimension bekannt ist, kann die Hoeffding-Ungleichung benutzt werden, um eine obere Schranke für den Test Error eines Klassifikationsmodells zu berechnen.
Korrekt.
Die Hoeffding-Ungleichung trifft zumindest eine Aussage über die Wahrscheinlichkeit, dass der Test Error um einen bestimmten Wert von Training Error (empirical risk) abweicht.
Occam’s razor besagt, dass man das einfachste Modell wählen sollte, welches die Daten gut erklärt.
Korrekt (genau das ist die Aussage)
Empirical Risk Minimization minimiert den Fehler auf dem Testdatensatz.
Falsch: ERM minimiert den Fehler auf dem Trainingsdatensatz
Structural Risk Minimization zielt darauf ab, das empirical risk und das Konfidenzintervall im Gleichgewicht zu halten.
Korrekt
SRM möchte das Risiko bezüglich sowohl dem empirical risk als auch dem Kofidenzintervall zu minimieren. Hierbei soll bei einem gewissen Trainingserror die Maschine gewählt werden, die die niedrigste VC-Dimension und damit das kleinste Konfidenzintervall hat.
Bei der k-Fold Cross-Validation wird der Datensatz zufällig in k gleich große, überlappende Teile aufgespalten.
Falsch: Die Folds müssen disjunkt sein.
Last changeda year ago