Die Smoothness Assumption sagt aus, dass ähnliche Datenpunkte zu ähnlichen Outputs führen.
Die Low Density Separation Assumption sagt, dass die Trennung der Klassen in weniger dichten Regionen erfolgen sollte.
Und die Cluster Assumption sagt, dass Daten, die in einem dichten Raum beieinander liegen, zu ähnlichen Outputs führen.
unüberwachtes lernen verwendet nur ungelabelte daten
überwachtes lernen verwendet nur gelabelte daten
hier werden sowohl gelabelte als auch ungelabelte daten verwendet
trainiere mit gelabelten daten
evlauiere ungelabelte daten
füge daten bei denn hohe sicherheit besteht dem datensatz hinzu
was müssen sie beachten, wenn sie bei cotraining den feature split erzeugen
die subsets müssen aureichend groß sein um eine gute lernmaschine zu erzeugen
die daten müssen ausserdem unabhängig von einander sein
erklären sie den co training meta algorithmus und nennen sie zwei annahmen und vor und nachteile
jedes subset ist ausreichend groß um lernmaschine gut zu trainieren
features können in zwei sets aufgeteilt werden (feature split)
Meta algo
Erkläre: Variation ratio, Smallest margin und Entropy
induktiv möchte eine hypothese lernen
transduktiv möchte nur ungelabelte daten labeln
das hier sind lernszenarios
Query synthesis
selective sampling
pool based sampling
was ist gefahr bei self learning
frühe fehler summieren sich auf und werden größer
generelle analyse ist kompliziert
vorteile von self learning
anwendbar auf alle klassifikationsmethoden, kann effektiv sein, einfach und oft verwendet
welche annahme muss gelten damit aktives lernen besser ist als random sampling
dass manche datenpunkte mehr informationen enhalten als andere
Meta algorithmus co training
feature split
trainiere wei lernmaschinen
lable ungelabelte daten und füge die bei denn du sicher bist dem jeweils anderen trainingsdatensatz hinzu
retrain auf größerem datensatz
Last changed4 months ago