Was ist das Lernziel der Vorlesung?
Was ist das Phänomen des Concept Drifts. Gib die Definition und die Ursachen an.
= Phänomen, bei dem sich die statistischen Eigenschaften einer Zieldomäne im Laufe der Zeit auf willkürliche Weise ändern. Diese Änderungen können durch Änderungen in versteckten Variablen verursacht werden, die nicht direkt gemessen werden können
= Veränderungen in einer Zielumgebung, verursacht durch verborgene Variablen.
Beispiel: Vibration von angrenzenden Förderbändern hat Einfluss auf Bauteilqualität einer Fräsanlage, aber die Vibration wird nicht modelliert
Ursachen:
· I: Feature space drift (virtual drift)
· II: Decision boundary drift (actual drift)
· III: Kombination
Quelle I: Nur Datenmerkmale ändern sich.
Quelle II: Nur Beziehung zwischen Merkmalen und Ziel ändert sich.
Quelle III: Sowohl Merkmale als auch ihre Beziehung zum Ziel ändern sich.
Welche 4 Arten des Übergangs gibt es zwischen den Konzepten?
· Abrupt: neues Konzept folgt abrupt auf ein altes
Beispiel: unkalibrierter Sensor neu eingebaut
· Graduell: zwei Konzepte wechseln sich ab, bis das neue die Überhand gewinnt
Beispiel: Sensor mit Wackelkontakt bis zu kompletten Ausfall
Inkrementell:neue Konzept entwickelt sich graduell aus altem heraus
Beispiel: Verschleiß einer Werkzeugkomponente
· Rekurrent: zwei Konzepte wechseln sich an
Beispiel: Winter – Sommer – Winter
v
Nenne die zwei Arten von Concept Driftserkennung
Erkennung von Concept Drift:
· Performance basiert (Reaktion im Nachgang)
Messen Veränderungen in Modellperformance, Nachtraining erforderlich
Beispiel: FHDDM
· Verteilungsbasiert (Reaktion zur Laufzeit)
Nutzen Distanzmetriken der Input-Features, um Unterschiede zu quantifizieren
Aussage über Drift-Zeitpunkt möglich
Rechenintensiv, Definition historisches und neues Zeitfenster notwendig
oft Kombination beider Ansätze sinnvoll
Durch welche 3 Fragen lässt sich Concept Drift beschreiben?
· Wann tritt Drift auf?
o Warn- und Eingriffsgrenze
o Startzeitpunkt, Änderungsdauer, Endzeitpunkt
o Herausforderungen: Falschalarm (FP), Verzögerungen
· Wie groß ist Drift?
o Ähnlichkeiten zwischen neuen und altem Konzept
o Z.B. Differenz zwischen Vorhersagegenauigkeit
· Wo überlappen sich altes und neues Konzept?
Wie wird die Modellanpasung bei Concept Drift durchgeführt?
· Neutraining: Trigger initiiert neues Training (manuell, periodisch, statistische Kenngröße)
· Ensemble: mehrere Modelle werden gleichzeitig verwendet, einzelne Modelle werden gewichtet; ggf. Integration neuer Modelle
· Modellanpassung: nur Bestandteile des Modells werden neutrainiert
neues Kapitel: Adaptives Lernen von Neuronalen Netzen?
Was stellt das NN nach dem Training dar und was ist das Problem und die Lösung dazu?
NN nach Training —> statische Wissenseinheit —> Neutraining ist aufwendig und führt zu catastrophic forgetting (=Überschreiben der alten Entscheidungsfunktion beim Training auf einen neuen Datensatz)
—> Lösung: Continual Learning: kontinuierliches Akkumulieren von Wissen über verschiedene Aufgaben hinweg, ohne die Notwendigkeit zu kompletten Neutraining
Welche 3 Methoden werden dabei angewand mit den jeweiligen Untermdethoden
Methoden:
· Replay: abspeichern einer Teilmenge von Daten aus vorangegangenen Tasks (Samples) beim Trainieren des Modells auf einen neuen Task wird dieses zusätzlich auf den Samples trainiert
o Rehersal: Trainieren auf einem „konzentrierten“ Sample, gewonnen aus Daten vorangegangener Tasks, um ein Vergessen abzuwenden
Problem: steigender Aufwand beim Trainieren auf anwachsende Zahl von Tasks; neigen zu overfitting
o Pseudo-Rehersal:
§ Künstliche Samples werden generiert durch Einspeisen zufälliger Eingangswerte in das Netz
§ In Kombination mit den zugehörigen Ausgangswerten entstehen „Pseudo-Samples“
§ Derartige Samples können Charakter eines Netzes zu einem bestimmten Zeitpunkt festhalten ohne die Notwendigkeit echter Samples
o Constrained Optimization:
§ Beschränken der Veränderung von Parametern beim Neutrainieren über modifizierte Loss Function. Neutrainieren erfolgt unter Zuhilfenahme alter Datasets
§ Ähnlich zu Regularization
· Regularization
o Erweitern der Loss Function um einen Term, der beim erneuten Training des Netzes die Veränderung von Parametern unterbindet, die für vorangegangene Tasks bedeutend waren
o Modellparametern wird Wichtigkeitsmaß zugewiesen
§ Höhe der Veränderung eines Parameters hängt von Höhe des Wichtigkeitsmaßes ab
§ Geringe Veränderung von wichtigen Parametern beim Trainieren auf nächsten Task
o Ansätze:
§ Memory Aware Synapses MAS: Beim Re-Training d. Netzes auf eine neue Aufgabe bleiben Gewichte, die hohe Auswirkung (Importance) beim vorherigen „Task“ haben unangetastet
§ Klonen: Iteriere beim Re-Training auf die neue Aufgabe durch alle alten Output-Heads und recycle jenen, der bei der neuen Aufgabe den geringsten Fehler (z.B. MSE) erzeugt.
· Parameter Isolation
o Spezifizieren ausgewählter Modellparameter für spezifische Aufgaben
o Vorgehensweisen:
§ Dynamische Architekturen: Anlesen zusätzlicher Neuronen und Schichten für neue Aufgaben oder Mitführen dedizierter Modellkopien
§ Fixed Network: Zuteilen von Teilbereichen des Netzes zu spezifischen Aufgaben
Neues Kapitel: Transfer learning
Wann ist es sinnvoll?
Wann sinnvoll:
· Phasenübergreifend: z.B. von einem Punkt im PLZ zu einem anderen
· Domänenübergreifend: z.B. von einem Prozess/Produkt zu einem anderen
· Umgebungsübergreifend
Zustandsübergreifend: z.B. innerhalb einer Lebenszyklusphase mit sich kontinuierlich ändernden Umgebungsbedingungen
Standortübergreifend: z.B. von Werk 1 zu Werk 2
Welche Betrachtungsgegenstände gibt es im Transferlearning?
· Problemstellung
Labelverfügbarkeit in S/T
Domäneneigenschaften in S/T
· Lösung: Transfer von Instanzen, Features, Parametern
· Daten: Data Augmention, Feature Reduction, Feature Alignment, …
· Modell: Parameter Sharing, Parameter Restriction, Ensemble, ..-
· Use Case
Wie ist die Definiton von Transfer learning?
Definition:
Given a source domain DS and learning task TS, a target domain DT and learning task TT, transfer learning aims to help improve the learning of the target predictive function fT (∙) in DT
using the knowledge in DS and TS, where DS ≠ DT or TS ≠ TT.
· Domäne: beschreibt die vorhandenen Features sowie deren Verteilungsfunktion P(X)
· Task: beschreibt die zu lernendem Label (Lable Space) und der Entscheidungsfunktion
Entwicklung einer Methode, um Daten oder Modelle aus einem Quellsystem für ein Zielsystem effizient, genau und robust zu nutzen.
Gib eine Übersicht der 3 Untergruppen von Transferlearning an
Inductive TL: Wissen eines bestehenden Modells auf neue Probleme anwenden
· Self-taught Learning: gelabelte und zusätzlich ungelabelte Daten: diese enthalten ebenfalls Strukturen/ Muster, die für die Klassifikation relevant sein können das ist aber nicht semi-supervised, da ganz andere Bilder verwendet werden
· Multi Task Learning:
o Hard Parameter Sharing (Deep Learning): Parameter warden für einen mehrere Tasks geteilt Reduktion Overfitting
o Soft Parameter Sharing (Deep Learning): Parameter-Gap (Differenz der Parameter für unterschiedliche Tasks) ist beschränkt durch Bestrafung großer Gaps höhere Flexibilität als bei Hard Parameter Sharing
Transductive TL: spezifische Informationen einer neuen Domäne werden dem bestehenden Modell zugeführt
· Domain Adaption: andere Domäne, gleicher Task
· Sample Selection Bias
Welche 4 Lösungsansätze gibt es?
Neues Thema: Active learning
Was sind die Bestandteile und wie glieder sich der iterative Prozess?
Bestandteile: Lerner, Query, Orakel
Iterativer Prozess:
· Grundlage: trainiertes Modell mit schwacher Performance
· Damit werden Instanzen mit höchsten Informationsgehalt bestimmt
· Label werden angefragt und Traningsdatensatz hinzugefügt
· Modell (Lerner) wird nachtrainiert und wählt die neuen Instanzen zum Labeln aus
—> Durch strukturierte Auswahl der zu labelnden Daten, kann der manuelle Aufwand reduziert werden
Welche Szenarien gibt es im Active learning?
Szenarien:
· Stream-based selective sampling: Modell entscheidet, ob ein Datenpunkt abgefragt werden soll
· Pool-based sampling: Modell erstellt die beste Query aus einem vorhandenen Datenpool
· Membership Query Synthesis: Modell erstellt synthetische Datenpunkte, die abgefragt werden
Neues Kapitel: Dezentrales Maschinelles Lernen
Welche Probleme gibt es beim Austausch von zu vielen Daten?
Probleme bei Austausch von vielen Daten: Übertragung/Speicherung großer Datenmengen, weitere Datenaufbereitung, weiteres Training, Datenschutz
Welceh Arten des dezentralen Lernens gibt es?
Local Learning:
· Kein Austausch der Parameter oder Daten
· Keine Ausschöpfung des vollen Potenzials von KI
Central Learning:
· Parameter und Daten sind zentral
· Hoher Ressourcenaufwand, Datenschutz beschränkt
Federated Learning:
· Daten on Edge, Parameter sind zentral
· Reduktion des Informationsaustausches und benötigter Ressourcen
· Abwicklung über zentrale Instanz
· Trainingsablauf:
1. Auswahl von Endgeräten
2. Laden der Metadaten und des Trainingsprogramms
3. Trainieren mit lokalen Daten
4. Sammeln von Metadaten
5. Update des KI-Modells
Swarm Learning:
· Parameter und Daten on Edge
· Gewährleistung von vollständigem Datenschutz durch Wegfall zentraler Instanz
· Anwendung Blockchain-Technologie
· Ansatz:
o Neuer Knoten meldet sich über Blockchain Smart Contract an, erhält Modell und führt lokales Modelltraining mit lokalen Daten durch bis festgelegte Bedingungen für Synchronisierung erfüllt sind
o Modellparameteraustausch über API und Zusammenführung für aktualisiertes Modell bevor neue Trainingsrunde gestartet wird
Zuletzt geändertvor 9 Monaten