Was ist das Lernziel dieser Vorlesung?
Warum können NN nicht für Bilddaten eingesetzt?
Normale NN nicht für Bilddaten da: zu viele Parameter, schlecht bei Translationen
—> hier keine Merkmalsextraktion per Hand nötig, macht CNN
Erkläre was man unter convolution versteht.
—> Mehrere Kanäle im Input —> Convolutional Filter auch mit mehreren Kanälen; pro Filter eine Feature Map
—> durch Convolutional Base werden Merkmale extrahiert, die dann von einem bspw. neuronalen Netz klassifiziert werden —> extrahierten Merkmale enthalten „die Informationen“ des Bildes, die zu einer guten Klassifikation führen.
Was versteht man unter Padding?
· Problem: ursprüngliche Größe geht durch Randeffekte bei Faltung verloren, führt zu Informationsverlust
· Möglichkeiten: Zero Padding (Auffüllen der Randbereiche mit 0), Reflect Padding (Pixel nach außen spiegeln), Neareast Padding (duplizieren der Randpixel)
· Ausgabegrüße: n_neu = (n-f+2p)/s +1 (mit Kernelgröße f, padding p und stride s)
Was versteht man unter Pooling?
Pooling:
· Zusammenfassung von Bildbereichen (q x q Pixelbereich Q zu einem Pixel, oft 1<q<6)
· Möglichkeiten: max Pooling (max{q∈Q}), mean Pooling, stochastisch (z.B. Auswahl abhängig von Aktivierung)
· Nutzen: Datenreduktion, lokale Translationsinvarianz, Invarianz gegen leichte Veränderung und Verzerrungen
Pooling layer haben keine zu lernenden Parameter (q —> Hyperparameter)
Nenne 3 Anwendungsfälle in der Bilderkennung
Anwendungsfälle in der Bilderkennung:
Objektdetektion: Erkennen mehrere unterschiedlicher Bauteile, z.B. Zählen von Objekten
Semantische Segmentierung: Segmentieren von Objekten unterschiedlicher Klassen, z.B. Greifen von Objekten (bspw. Form ist relevant)
Möglichkeiten: Zuordnung zur Klasse auf Pixelbasis (jedes Pixel eine Bildes wird einzeln klassifiziert), Upsampling Layers, Skip Connections, U-Net Architektur
Instanz Segmentierung: einzelne Instanzen innerhalb der Klassen können unterschieden werden, z.B. gezieltes Entnehmen von einzelnen Objekten
Frage: Wie können Convolutional Neural Networks (CNNs) auf Zeitreihen und Bilder angewendet werden und was ist dabei zu beachten?
Zeitreihen: Analyse sequentieller Daten, wie Börsenkurse.
"Bilder": Verarbeitung von Zeit und Frequenz in Bilddaten, z.B. bei Audiodateien.
Problem bei CNNs: Zeitlicher Horizont durch Anzahl der Input-Neuronen limitiert.
Frage: Wie unterscheiden sich die Architekturen und Anwendungen von Convolutional Neural Networks (CNNs) und Recurrent Neural Networks (RNNs)?
Architektur
Eingang/Ausgang
Ideale Nutzung
Use Case
CNN:
Architektur: Feed-Forward-Netz mit Filtern und Pooling
Eingang/Ausgang: Feste Größen, z.B. Bilder 300x300px
Nutzung: Visuelle, spärliche oder nicht sequentielle Daten
Use Case: Verschleißerkennung, Klassifizierung, Gesichtserkennung
RNN:
Architektur: Rekursiv, Ergebnisse werden zurück ins Netz gespeist
Eingang/Ausgang: Variable Größen, z.B. Zeitreihen bis 20 Minuten
Nutzung: Temporale/Sequenzielle Daten
Use Case: Vorhersage von Entwicklungen wie Kraft, Verschleiß, Eigenspannungen
Frage: Was sind die Arten der Rückkopplung in rekurrenten neuronalen Netzen und welche Funktionen ermöglichen sie?
Direkte Rückkopplung:
Eigener Ausgang als zusätzlicher Eingang.
Seitliche Rückkopplung:
Ausgang als Eingang für Neuron derselben Schicht.
Indirekte Rückkopplung:
Ausgang als Eingang für Neuron früherer Schicht.
Funktionen von Rückkopplungen:
Speicherung von Informationen.
Lernen von sequentiellen Daten.
Welche Varianten von rekurrenten neuronalen Netzen gibt es ?
Varianten:
· n-zu-n: keine fehlenden Ein- oder Ausgänge
Anwendung: Vorhersage Werkzeugverschleiß mittels Verlauf der Prozesskräfte oder akustischen Emissionen
· 1-zu-n: ein Eingang, mehrere Ausgänge
Anwendung: zukünftige Entwicklung von Werkzeugverschleiß vorhersagen anhand Verschleißzustand von einem abgenutzten Werkzeug
· n-zu-1: mehrere Eingänge, ein Ausgang
Anwendung: Vorhersage von Werkzeugzustand (WZ i. O. oder WZ n. i. O.) mittels Verlauf der Prozesskräfte oder akustisches Emission
· n-zu-m: mehrere Eingänge zu mehreren Ausgängen
Zukünftigen Entwicklung von Werkzeugverschleiß vorhersagen anhand bisherigen Entwicklung von Werkzeugverschleiß
n zu n: Werkzeugabnutzung aus Maschinenlärm vorhersagen.
1 zu n: Lebensdauer eines Werkzeugs bestimmen.
n zu 1: Maschinenausfall aus Klangmustern erkennen.
n zu m: Verschleißtrends über Zeit prognostizieren.
Frage: Was versteht man unter "Backpropagation Through Time" (BPTT) bei rekurrenten neuronalen Netzwerken und welche Herausforderungen ergeben sich dabei?
BPTT: Gradientenbasiertes Lernverfahren für RNNs.
Erfordert: Geschlossene Beziehung zwischen Modellparametern und Verlustfunktion.
RNNs: Zyklish, im Gegensatz zu gerichteten Graphen bei CNNs.
Lösung: RNNs zeitlich ausklappen zur Darstellung.
Herausforderung: Verschwindende/explodierende Gradienten bei langen Sequenzen.
Backpropagation: zeitliches Ausklappen der RNNs notwendig
—> Gesamtverlustfunktion L(y,z) ist Summe der Verlustfunktionen zu Zeitpunkten t=1 bis t=T (y: Output, z: Target)
Welche Probleme treten bei der Backpropagation auf und welche Lösungen gibt es dafür?
Probleme: verschwindender Gradient, explosiionsartig wachsender Gradient
Lösungen:
· Gradient Clippling
· Gated Recurrent Units (GRUs)
· Truncated Backpropagation-Through-Time
· Long Short-Term Memory (LSTM)
Frage: Warum wurden Long Short-Term Memory Networks (LSTMs) entwickelt und welche Vorteile bieten sie gegenüber herkömmlichen rekurrenten neuronalen Netzen (RNNs)?
Problem RNNs: Gradienten neigen zum Verschwinden oder Explodieren bei BPTT.
Schwierigkeit: Erlernen langfristiger Abhängigkeiten.
LSTM-Motivation: Überwindung von Fehlerrückflussproblemen, Lernen langfristiger Abhängigkeiten.
Vorteile LSTMs:
Stabile Gradienten über lange Sequenzen.
Fähigkeit, über 1000 Zeitschritte zu lernen und Informationen zu speichern.
Frage: Beschreibe die Struktur und Funktion einer LSTM-Zelle und erläutere die Vor- und Nachteile dieser Netzwerkarchitektur.
Antwort in Stichpunkten:
Struktur einer LSTM-Zelle:
4 Gates (Schichten): Forget, Input, Candidate, Output.
Operationen: Vektor Transfer, punktweiser Operator, Kopieren, Aktivierungsfunktion.
Funktion:
Kontrollierte Informationsflussänderung im Zellzustand.
Vorteile:
Verarbeitung verrauschter Daten, Approximation kontinuierlicher Werte.
Keine Feinabstimmung der Parameter nötig.
Leistungsfähigkeit bei langfristigen Abhängigkeiten —> gute Ergebnisse bei Werkzeugverschleißvorhersage
Nachteile:
Speicherzellenblock braucht Eingangs- und
Ausgangsgatter -> ist bei rekurrenten Ansätzen
nicht notwendig
Potenziell ineffizienter Fehlerfluss im Netzwerk.
Zuletzt geändertvor 9 Monaten