Semi Supervised and Active Learning

by enzo K.

Die Smoothness Assumption sagt aus, dass ähnliche Datenpunkte zu ähnlichen Outputs führen.

Die Low Density Separation Assumption sagt, dass die Trennung der Klassen in weniger dichten Regionen erfolgen sollte.

Und die Cluster Assumption sagt, dass Daten, die in einem dichten Raum beieinander liegen, zu ähnlichen Outputs führen.

unüberwachtes lernen verwendet nur ungelabelte daten

überwachtes lernen verwendet nur gelabelte daten

hier werden sowohl gelabelte als auch ungelabelte daten verwendet

was müssen sie beachten, wenn sie bei cotraining den feature split erzeugen

die subsets müssen aureichend groß sein um eine gute lernmaschine zu erzeugen

die daten müssen ausserdem unabhängig von einander sein

erklären sie den co training meta algorithmus und nennen sie zwei annahmen und vor und nachteile

jedes subset ist ausreichend groß um lernmaschine gut zu trainieren

features können in zwei sets aufgeteilt werden (feature split)

Meta algo

Erkläre: Variation ratio, Smallest margin und Entropy

induktiv möchte eine hypothese lernen

transduktiv möchte nur ungelabelte daten labeln

das hier sind lernszenarios

Query synthesis

selective sampling

pool based sampling

was ist gefahr bei self learning

frühe fehler summieren sich auf und werden größer

generelle analyse ist kompliziert

vorteile von self learning

anwendbar auf alle klassifikationsmethoden, kann effektiv sein, einfach und oft verwendet

welche annahme muss gelten damit aktives lernen besser ist als random sampling

dass manche datenpunkte mehr informationen enhalten als andere

Meta algorithmus co training

feature split
trainiere wei lernmaschinen
lable ungelabelte daten und füge die bei denn du sicher bist dem jeweils anderen trainingsdatensatz hinzu
retrain auf größerem datensatz

Last changed
2 years ago