Was ist Lernen?
gibt keine allg. akzeptierte Definition
zentral: Konstruktion einer Repräsentation
um Aufgaben schneller/ effizienter zu erledigen
Güte der Repräsentation schwer zu beurteilen
nicht gezeigt: Kritikelement
sagt dem Lernelement, wie erfolgreich es ist
auch nicht gezeigt: Problemgenerator
erzeugt Aufgaben, die zu neuen Erfahrungen führen sollen
3 Dimensionen für Klassifikation von ML-Ansätzen
Lernstrategie
was ist vorgegeben
was sind eigene Inferenzen
Repräsention von Wissen
die das System erlernt
Anwendungsbereiche
des Lernsystems
-> keine eindeutige Zuordnung
in einem System von allem mehrere Ausprägungen möglich
Lernstrategie-Hierarchie
(6 Ebenen)
mit jeder Stufe nimmt Aufwand des Lernenden zu und Aufwand des Lehrenden ab
Direkte Eingabe neuen Wissens und Auswendiglernen
Daten und Fakten speichern
z.B. einfache Datenbanksysteme
lernen durch Programmierung
Lernen durch Anweisungen
Lernender muss Wissen aufnehmen und intern verarbeiten
Lernen durch Deduktion
aus Wissen deduktiv Schlüsse ziehen
vorhandenes Wissen effektiver, effizienter organisieren
Lernen durch Analogie
vorh. Wissen an neue Situationen anpassen
Lernen aus Beispielen
Lernender muss Konzepte für Beispiele selbst erstellen
Lernen aus Beobachtungen und durch Entdeckungen
induktives Lernen
keine Steuerung durch den Lehrenden
mehrere Konzepte gleichzeitig lernen
3 Klassifikationen beim Lernen anhand von Beispielen
3 Arten - je nachdem woher die Beispiele kommen
a) Beispiele kommen vom Lehrenden
b) Beispiele kommen vom Lernenden
c) Beispiele aus der Umgebung
2 Arten - je nach Art der Beispiele:
a) nur positive Beispiele
Konzepte werden ggf. zu allgemein
Minimalitätskriterien können helfen
b) positive und negative Beispiele
2 Arten - je nach Präsentation der Beispiele
a) alle Beispiele gleichzeitig
b) Beispiele inkrementell geben
Hypothesen später vielleicht ändern
2 Arten beim induktiven Lernen (aus Beobachtung durch Entdecken)
2 Arten - je nach Interaktion mit Umgebung
a) passive Beobachtungen
b) aktive Experimente
Klassifikation von Wissensarten (6 + andere)
Parameter in algebraischen Ausdrücken
Bsp. Schwellwerte in technischen Systemen
Entscheidungsbäume
Knoten = Attribute
Kanten = Ausprägungen der Attribute
Blätter = Mengen von Objekten einer Unterklasse
Formale Grammatiken
reguläre Ausdrücke
endliche Automaten
Regeln
if C then A
Ausdrücke basierend auf formaler Logik
für Beschreibung von Objekten
und für Bildung zu erlernender Konzepte
Begriffshierarchien
formalisiertes Wissen involviert Begriffe
die Begriffe als Taxonomien lernen/ ordnen
u.a.
Graphen
Netze
Schemata
Computerprogramme
4 Basisoperationen zum erzeugen und verfeinern von Regeln
Erzeugung
Regeln aus Umwelt nehmen oder selbst erstellen
Verallgemeinerung
Bedinungen aus Bedingungsteil der Regel fallen lassen
-> Regel in mehr Situationen anwendbar
Spezialisierung
mehr Bedingungen in Bedingungsteil hinzunehmen
-> Regel passt zu weniger Situationen
Komposition
sequentiell angewandte Regeln zu einer zusammenfassen
nicht mehr notwendige Bedinungen und Folgerungen eliminieren
Allgemeines zu Entscheidungsbäumen (Aufgabe)
einfachste Form induktiven Lernens
sehr erfolgreich in der Praxis
Aufgabe:
Eingabe: Objekt = Attribut/Wert-Paare
Ausgabe: Klasse des Objekts
hier: Klasse "ja/nein" = boolsche Funktion
Blätter sind Wahrheitswert
Knoten sind Attribute
Kanten sind Ausprägungen der Attribute
es müssen nicht immer alle Attribute verwendet werden für Entscheidung
Wie erzeugt man Regeln aus Entscheidungsbäumen?
Pfad von Wurzel zu Blatt ist logische if-then-Regel
und-verknüpft
(aber das ist egal, weil oder aufgespaltet werden müsste)
Wie generiert man Entscheidungsbäume?
aus Trainingsmenge = Menge von Beispielen
trivial:
für jedes Beispiel einen Pfad
keine Generalisierung auf andere Beispiele
sondern overfitting
Ziel:
möglichst kompakten Entscheidungsbaum finden
Occam's Razor: bevorzuge einfachste Hypothese, die konsistent mit allen Beobachtungen ist
-> kleiner kompakter E-Baum, der konsistent mit allen Beispielen ist, ist wahrscheinlich korrekter als großer komplexer
Heuristik:
nimm immer das wichtigste Attribut
= das Attribut, das die aktuelle Beispielmenge am besten differenziert
rekursiv auf die Teilbäume anwenden
Bewertung des Lernerfolgs
mit Testmenge
4 Fälle für Auswahl eines Attributs
ist Top-Down Induction of Decision Trees
Beispielmenge ist leer
nimm Defaultwert oder Mehrheit der Klassifikation im Elternknoten = MajorityVal(E)
alle Beispiele eine Kategorie
die ausgeben
Atributmenge ist leer, Beispielmenge nicht
Fehlermeldung
entweder falsche Beispiele oder fehlende Attribute
positive und negative Beispiele, sowie nicht-leere Attributmenge
wähle bestes Attribut gemäß Wichtigkeit
2 (+1) Verfahren zur Attributsauswahl
ID3
wählt Attribute nach absolutem Informationsgewinn
in bits gemessen
ein Bit ist Informationsgewinn einer ja/nein Antwort
wenn ja 50% wahrscheinlich
Bsp. Münzwurf: 1 bit
H = Informationsgewinn
k verschiedene Antworten
v = Arten von antworten
P(v_i) = Wahrscheinlichkeit von Antwort i
auch Entropie genannt
bedingte mittlere Information
I(E | a bekannt)
wählt Attribut mit max gain(a)
gain(a) = I(E) - I(E | a bekannt)
Nachteil:
bevorzugt Attribute mit vielen Werten
bsp. nimmt Id -> maximaler Informationsgewinn bei med. Diagnose
C4.5
nimmt normierten Informationsgewinn
gain ratio(a) = gain(a) / split info(a)
split info(a) ist Entropie des Attributs
wählt maximales gain ratio
Kombination
nach absolutem Informationsgewinn auswählen
wenn relativer Informationsgewinn über Schwellnwert liegt
Was ist ein Konzept?
beschreibt Teilmenge von Objekten, Ereignissen usw. über größerer Teilmenge
Konzept kann durch charekteristische Funktion beschrieben werden
-> durch boolesche Funktion identifizierbar
Was ist die Lernaufgabe beim Konzeptlernen?
Ziel des Konzeptlernproblems:
bestimme Konzept h \in L_C
heißt auch Hypothese
mit h(e) = c(e)
= Suchvorgang im Raum aller möglichen Hypothesen
man geht von Trainingsmenge aus
mit Menge von Attributen
und Zieltwert (hier wieder bool)
allgemeine Problemstellung
Konzept teilt Obermenge in 2 Klassen
erfüllt
Menge der positiven Beispiele heißt "Extension"
nicht erfüllt
Menge aller negativen Beispiele
völlige Übereinstimmung eines gelernten Konzepts h mit c kann nicht garantiert werden
5 Komponenten des Konzeptlernproblems
Beispielsprache
für Beobachtungen als Eingabe
L_e (language of examples)
Tupel aller Beispiele mit Attributen (ohne Zielwert)
Konzeptsprache
(Generalisierungssprache, Hypothesensprache)
für gelernte Generalisierungen
für Ausgabe
L_c (language for concepts)
Konzeptbeschreibung h \in L_c definiert Abbildung
h: L_E -> {0, 1}
Tupel der Attribute, aber auch mit leere Menge und ? (ebenfalls ohne Zielwert)
Zielkonzept c
das zu erlernen ist
Menge P \subseteq L_E positiver Beispiele
Menge N \subsetzeq L_E negativer Beispiele
Wie ist die Definition der Vollständigkeit und Konsistenz von Konzepten?
(und Korrektheit)
Def. 5.14
B eine Teilmenge von M mit positiven und negativen Beispielen
c ein Konzept
vollständig
wenn b positiv, dann c(b) = 1
alle positiven Elemente in B werden von c abgedeckt
korrekt
wenn b negativ, dann c(b) = 0
kein negatives Beispiel wird von c abgedeckt
konsistent
c ist vollständig und korrekt
2 Bewertungsfunktionen beim Konzeptlernen
Güte der Klassifikation
= Prozentsatz der richtig klassifizierten Elemente der gesamten Grundmenge
Kosten der Fehlklassifikation
= Summe der Kosten aller Fehlklassifikationen über gesamte Grundmenge
Konzeptlernen als Suchproblem
"Spezieller-als" Relation
für partielle Ordnung auf Suchraum
bezieht sich immer auf Elemente der Grundmenge
zwei Konzepte
h_1, h2 \in L_E -> {0, 1}
h_1 ist spezieller als h_2
geschrieben h_1 \le h_2
gdw. \forall e \in L_E (h_1(e) = 1 => h_2(e) = 1)
auch "allgemeiner oder gleich"
Extension von h1 ist Teilmenge der Extension von h2
ist reflexiv, transitiv, antisymmetrisch
h_1 ist echt spezieller als h_2
geschrieben h_1 < h_2
gdw. h_1 \le h_2 und h_2 \not_le h_1
auch "(echt) allgemeiner"
Suchraum = Menge aller Konzepte
3 Vorgehensweisen beim Suchproblem
Kandidaten-Eliminations-Methode
mit allen ausdrückbaren Hypothesen anfangen
mit jedem Beispiel e, nicht passende Hypothesen entfernen
Suchrichtung speziell -> allgemein
nutzt "spezieller-als"-Relation
beginnt mit speziellster Hypothese h
mit jedem positiven Beispiel e, h erweitern, dass es e abdeckt
Suchrichtung allgemein -> speziell
mit allgemeinster Hypothese beginnen
mit jedem negativen Beispiel e, h einschränken, dass es e ausschließt
Was sind Versionenräume?
Def. Versionenraum
B ist die Menge der Beispiele
V_B = { h \in L_c | h ist korrekt und vollständig bzgl. B }
nutzt 2 Suchrichtungen
speziell -> allgemein
und allgemein -> speziell
-> also wie Kandidaten-Eliminationssuche
repräsentiert Hypothesen aber kompakt
nämlich mit Begrenzungsmengen
= die speziellsten und allgemeinsten Hypothesen
gibt alle möglichen konsisten Hypothesen aus
Versionenraum enthält alle Hypthesen zwischen S und G
Was ist das Repräsentationstheorem für Versionenräume?
B eine Menge von Beispielen
S = {h \in L_c | h ist speziellste Generalisierung von B }
G = {h \in L_c | h ist allgemeinste Generalisierung von B }
für V_B gilt:
V_B = { h \in L_c | \exists s \in S \exists g in G ( s \le h \le g) }
gilt für alle Konzeptlernprobleme, weil es sich nur auf Beispielmenge bezieht
Def. speziellste und allgemeinste Generalisierung?
Konzept h ist speziellste Generalisierung der Beispielmenge B
wenn h vollständig und korrekt bzgl. B
es gibt kein konsistentes Konzept h' mit h' < h
Konzept h ist allgemeinste Generalisierung der Beispielmenge B
es gibt kein konsistentes Konzept h' mit h < h'
Wie funktioniert das Versionenraum-Lernverfahren?
inkrementelles Lernverfahren
beginnt mit S = {}
und G = {}
schau Beispiel e an
stimmt e mit h überein -> nichts tun
stimmt e nicht mit h überein -> 2 Fälle
1) e ist falsch negativ
2) e ist falsch positiv
Unterscheidungen:
e ist falsch positiv für s
s ist zu allgemein
kann aber nicht weiter spezifiziert werden
also entfernen
e ist falsch negativ für s
s ist zu speziell
s weiter verallgemeinern, um e abzudecken
e ist falsch positiv für g
g ist zu allgemein
g weiter spezialisieren, um e nicht mehr abzudecken
e ist falsch negativ für g
g ist zu speziell
g kann man nicht weiter verallgemeinern
also g entfernen
2 Beobachtungen:
1) jedes h allgemeiner oder gleich einer Hypthose in S, deckt alle positiven Beispiele ab
2) jedes h spezieller oder gleich Hypothese aus G, deckt kein negatives Beispiel ab
3 Fälle für Terminierung vom Versionenraum-Lernverfahren
VS terminiert immer -> 3 Fälle
S und/ oder G ist leer
Versionenraum ist auch leere Menge
es gibt keine konsistenten Hypothesen für Trainingsbeispiele
S und G sind identische einelementige Mengen
S = G = {h}
h ist das einzige Konzept das bzgl. Trainingsmenge konsistent ist
alle Beispiele bearbeitet S und G unterschiedlich und nicht leer
alle Hypothesen im von S und G bestimmten Versionenraum sind konsistent bzgl. Trainingsmenge
2 Beobachtungen im Zusammenhang mit dem Versionenraumlernverfahren
jedes h allgemeiner oder gleich einer Hypthose in S, deckt alle positiven Beispiele ab
jedes h spezieller oder gleich Hypothese aus G, deckt kein negatives Beispiel ab
Eigenschaften des Versionraum-Lernverfahrens (3)
wenn nur noch ein Element in Versionenraum, ist eindeutiges Zielkonzept gelernt
Voraussetzungen:
1. Trainingsmenge enthält keine Fehler
2. es gibt eine Konzeptbeschreibung, die im Hypothesenraum L_c liegt und Zielkonzept vollständig und korrekt beschreibt
induktive Hypthese
nur Konjunktionen zugelassen
Disjunktionen nicht ausdrückbar
Wie funktioniert Konzeptlernen mit Merkmalsbäumen?
um Attributwerte hierarchisch zu strukturieren
sonst muss man bei Disjunktionen gleich zu ? gehen
Attribute der Beispielsprache sind hierarchisch strukturiert in Bäumen vorgegeben
Attribute sind Blätter der Bäume
S beginnt mit leerer Menge {[leer, leer]}
G beginnt mit Wurzel der Bäume {[Wurzel1, Wurzel2]}
Was ist KDD
+ Ziel (3)
irgendwie synonym zu Data Mining
= knowledge discovery in databases
= Prozess neues, nützliches und interessantes Wissen aus Daten herauszufiltern und in verständlicher Form zu präsentieren
neues Wissen
= unbekannte Erkenntnisse
nützliches und interessantes Wissen
in Betrieben = durch BWL-Parameter (Umsatz, Gewinn) steuern
in Wissenschaft = Gütekriterien wie Spezifität und Generalität
verständliche Form
= Nutzer soll Wert der Information erkennen können
Interaktion mit KDD-Wissensfindungsprozess
finde relevante Zusammenhänge in großen Datenmengen
Relevanz-Begriff umsetzen in nachprüfbaren Kriterien
Assoziationsregeln
.= probabilistische Wenn-dann Beziehungen zwischen verschiedenen Dingen/ Merkmalen
4 Vorteile der KDD
aus Daten Wissen generieren
schneller und besser als nur Experten
Experten können validieren
Menschen können die Datenmengen nicht ohne Unterstützung verarbeiten
bessere Informationen aus Daten
Aufgabe ist reizvoll
8 Schritte des KDD-Prozesses
Hintergrundwissen und Zielsetzung
Datenauswahl
Datenbereinigung
Datenreduktion und -projektion
Modellfunktionalität
Klassifikation
Clustering
Regressionsanalyse
Verfahrensauwswahl
Data Mining
Interpretation
ggf. rekursiv
Data Mining (Muster in Daten finden) ist wichtigster Teil
Was ist Data Mining
+ 3 Komponenten
Ziel = Muster, Strukturen, Abhängigkeiten in Daten finden
wichtiges Gütekriterium: Skalierbarkeit
Komponenten:
Modell
Form der Präsentation der Erkenntnisse
2) Präferenz- und Gütekriterien
a) für Anpassung des Modells
b) für dessen Ziel
z.B. maximum likelihood
3) Suchalgorithmus
2 Typen:
a) Parametersuche
Modell gegeben, beste Parameter gesucht
b) Modellsuche
durchsucht Raum aller betrachteten Modelle
Modelle kommen von statistischer Datenanalyse und maschinellem Lernen
5 Einsatzgebiete des Data Minings (gehört zu Modell)
= Gruppieren ohne vorgegebene Klassen
Modellierung von Abhängigkeiten
zwischen Variablen
quantitative Methoden geben auch Stärke der Abhängigkeiten
Assoziationen
= Zusammenhänge zwischen mehreren Merkmalen
z.B. 80% der Kunden die Chips kaufen, kaufen auch Bier
Sequenzanalyse
Zeitreihen für Trends
Was sind Assoziationsregeln?
+ 6 Begriffe
nicht notwendig kausale Zusammenhänge
typisches Beispiel: Verkaufsdatenanalyse
Begriffe
Items
= Dinge, deren Beziehungen zueinander beschrieben werden sollen
I = endliche Menge Items
X = eine Teilmenge von I, heißt Itemmenge
k-Itemmenge hat k Elemente
Transaktion
t
ist eine Itemmenge
Datenbasis
Menge von Transaktionen
Support und Konfidenz
-> Support und Konfidenz sind bedingte relative Häufigkeiten
Was ist support?
= Anteil Transaktionen mit X an Anzahl aller Transaktionen
support von X -> Y
support( X -> Y ) = support( Vereinigung X, Y)
Was ist Konfidenz?
Konfidenz X -> Y
relativer Anteil der X enthaltenen Transaktionen, die auch Y enthalten
Was ist eine Transaktion und wie ist die klassische Suche?
hat Form X -> Y
X, Y sind disjunkte Itemmengen
Transaktion t erfüllt Assoziationsregel, wenn t alle in X und Y vorkommenden Items enthält
Vereinigung X, Y ist Teilmenge von t
klassische Suche nach Assoziationsregeln:
finde Regeln mit einem minsupp Support und minconf Konfidenz
2 Teilprobleme:
finde große Itemmengen/ bzw. häufige Itemmengen
alle Itemmengen deren Support über minsupp-Schwelle liegt
finde in häufigen Itemmengen Regeln, deren Konfidenz über minconf liegt
für 1 müsste man 2^n Teilmengen untersuchen
n = Anzahl der Items
nicht praktikabel
Was ist der Apriori-Algorithmus
+ Vorgehen
nutzt:
alle Teilmengen einer häufigen Itemmenge sind auch häufig
alle Obermengen einer nicht häufigen Itemmenge sind auch nicht häufig
bei Konfidenz passt das auch
Vorgehen:
zuerst suche häufige 1-elementige Itemmengen
dann bestimme Häufigkeit der Obermengen
k-te Iteration besteht aus 3 Schritten:
aus häuifgen Itemmengen von Iteration k-1 mit AprioriGen häufige Itemmengen bestimmen
für jede Kandidatenmenge c Anzahl Transaktionen mit c bestimmen
in L_k Itemmengen aufnehmen mit support über minsupp
Ergebnis von Apriori ist Vereinigung von Lk
Laufzeit: m Iterationen
m = Anzahl Items in größter häufigen Itemmenge
Mengen werden im Hash-Baum abgelegt, dass Vergleich effizient ist
Besonderheit bei AprioriGen?
nimmt an, dass Items geordnet sind
vereint nur Mengen, die sich im größten Element unterscheiden
alle anderen Elemente müssen gleich sein
schaut, um Teilmengen häufig sind, sonst lässt es die Mengen weg
Was sind (2) Verbesserungen des Apriori-Algorithmus?
ApprioriTid
durchläuft Datenbank nur einmal
braucht aber mehr Speicherplatz
ApprioriHybrid
vereint Vorteile beider Ansätze
Was sind verallgemeinerte Assoziationsregeln?
findet man in Hierarchien von Dingen
z.B. Hosen sind Kleidungsstücke
Was ist die Warenkorbanalyse?
= Beispielanwendung von Apriori-Algorithmus
Modellbildung meist nicht nötig
Regeln können isoliert betrachtet werden
Last changeda year ago