Eine Bäckereikette will für jede Filiale den Verbrauch der einzelnen Backwaren pro Tag vorhersagen, was ist
Task T
Performance Measure P
Experience E
Was soll das System erreichen?
Wann sind die Ergebnisse des Systems zielführend?
Welche Erfahrungswerte hat das System?
Vorhersage von Verkaufszahl pro Filiale, Tag und Produktkategorie
Weggeworfene Backwaren + potenziell fehlende Waren.
Anwendung von Mean Absolute Error
Historische Verkaufsdaten, Ort, Wochentag, Wetter, Jahreszeit, Regionales Durchschnittseinkommen, usw.
Was ist induktives Schließen? Was ist ein Modell?
beim Training wird aus einzelnen Beobachtungen wird ein allgemeiner Zusammenhang gelernt(=Modell) gelernt
Modell = allgemeiner Zusammenhang
Was kann unüberwacht gelernt werden?
Unsupervised Learning —> lernen ohne gelabelte Trainingsdaten
Clustering: Zusammenhänge/Ähnlichkeiten zwischen Instanzen
Merkmale/Features —> Mustererkennung: Assoziationen zwischen den Spalten
Warum ist die Evaluation von unüberwacht gelernten Modellen schwierig?
kein Expertenwissen/Sollausgabe gegeben
—> sind die gemachten Zuordnungen sinnvoll?
Was ist “Lernen mit Kritiker”?
Reinforcement Learning
nach mehreren Abfolgen/Sequenzen von Aktionen bekommt man Feedback
kein Feedback für einzelne Aktionen
Beitrag der einzelnen Aktionen nicht bekannt
In welcher Form werden die Daten für das maschinelle Lernen in der Regel strukturiert?
2D-Matrix (Tabellen) mit Daten in numerischer Form
—> Zeilen = Instanzen
—> Spalten = Merkmale
Von welchen Faktoren hängt die notwendige Anzahl der Trainingsdaten ab?
Varianz der Daten
Komplexität des Modells
Dimension der Eingabedaten
Anzahl der lernbaren Parameter
Wie könnte eine untere Vergleichsbaseline ausssehen für
ein Klassifikationsmodell
ein Regressionsmodell
eine Zeitreihenvorhersage
Klassifikationsmodell
Auswahl der am häufigsten vorkommenden Klasse
Regressionsmodell
Vorhersage des Durchschnitts
Zeitreihenvorhersage
Vorhersage des letzten Werts
Was ist Self-Supervised-Learning?
bei korrelierenden nicht gelabelten Daten
Feature Extractor kann zur Vorhersage anderer neuer Daten verwendet werden
Was ist Semi-Supervised-Learning?
wenige gelabelte Daten
Annahme: Daten in einem Cluster gehören zu einer Klasse
Cluster sind neue gelabelte Trainingsdaten —> Modell kann damit gelernt werden
Wann hat ein Modell zu viel Bias?
Underfitting —> zu starke Einschränkungen der Klassengrenzen
Wann hat ein Modell zu viel Variance?
Overfitting —> zu stark auf Trainingsdaten angepasst
—> generalisiert schlecht
Nennen Sie einen Grund für einen irreduziblen Fehler?
Latente (verborgene) Variablen
—> Variablen beeinflussen Mapping aber nicht im Datensatz
Was versteht man unter “Curse of Dimensionality”?
Anzahl lernbarer Parameter nimmt linear zu —> benötigte Anzahl der Trainingsdaten nimmt exponentiell zu
Mit welcher Art von Wissen tut sich die KI schwer?
Common Sense —> Weltwissen
Wie klassifiziert ein K-NN Classifier neue Datensätze?
k nächste Nachbarn werden angeschaut
Klasse, die in der Menge am häufigsten vorkommt wird gewählt
Wie kann im K-NN die Gefahr des Overfitting reduziert werden?
k erhöhen
—> je höher k desto geringer die Gefahr für Overfitting
—> generalisiert besser
Was ist das Prinzip der generativen Klassifizierer?
Prinzip: Klassenwahrscheinlichkeiten zu modellieren, nicht die Klassengrenzen
Verteilungsfunktion wird gelernt —> daraus können neue Daten generiert werden
Verteilungstyp annehmen
Parameter des Verteilungstyps wird aus den Trainingsdaten geschätzen
Welcher generative Klassifizierer ist extrem weit verbreitet?
Naive Bayes Classifier
—> Anwendung häufig in Dokument Classification
Was ist Maximum-Likelihood Parameterschätzung?
Maximum-Likelihood: Parameter werden so geschätzt, dass am wahrscheinlichsten die Stichprobe hervorkommt
Wie kann mit linearer Regression eine quadratische (oder beliebigen Grades) Funktion gelernt werden?
Trainingsdaten werden in höherdimensionalen Raum transformiert —> Hinzufügen eines Merkmals dessen Grad erhöht wird
Nach welchen “Variablen” werden beim maschinellen Lernen Fehlerfunktionen abgeleitet?
nach den Gewichten w —> für jedes Gewicht wird die partielle Ableitung bestimmt
Wann sollte Bayessche Klassifikation nicht angewandt werden?
—> keine Verteilungsfunktion gefunden, die Daten gut annähert
Wann sollte lineare Regression nicht angewandt werden? Welche Algorithmen bieten sich dann als Alternative an?
Rauschen nicht gaussverteilt (viele Ausreißer)
Alternative:
SVM (Support Vector Maschine)
Was versteht man unter Regularisierung? Was wird damit erreicht?
Regularisierung —> Minimierung der Gewichte durch penalty term für smoothere Kurven
—>Overfitting wird vermieden
Worin unterscheiden sich diskriminative und generative Modelle? Was wird beim diskriminativen Klassifikator gelernt, was beim generativen Klassifikator?
Generative Modelle —> Likelihood pro Klasse
Annahme über Typ klassenspezifische Verteilungsfunktion (Likelihood)
Lernen der zugehörigen Parameter
Diskriminative Modelle —> Klassengrenze pro Klasse
Annahme über Verlauf der Klassengrenzen
Allgemein ML: Welchen Beitrag liefert der Mensch, welchen der Lernalgorithmus?
Mensch
Typ der Klassengrenze/Verteilungsfunktion schätzen/wissen
Lernalgorithmus
Parameter für Klassengrenze/Verteilungsfunktion lernen
Wie kann mit diskriminativen Verfahren Zuverlässigkeitsinformation in Form der a-posteriori Wahrscheinlichkeit mit ausgegeben werden?
durch Verwenden der Sigmoid/Softmax-Aktivierungsfunktion auf Ausgabevektor des Modells
Wie unterscheiden sich die Klassengrenzen eines linearen und eines logistischen Diskriminators, wenn beide durch die gleichen Parameter wi definiert werden?
Klassengrenzen sind gleich
—> Unterschied: Logistischer Diskriminator gibt Zuverlässigkeitswert aus
Finden SVMs bessere Klassengrenzen als die bisher behandelten diskriminativen Modelle?
finden optimale Klassengrenze —> maximaler Abstand zu Trainingsdaten
—> bisher nur fehlerfrei klassifiziert
Welche Bedeutung hat der Parameter C?
Steuerung der Anpassung an die Trainingsdaten
—> Großes C = Minimierung des Soft-Errors wichtiger (Risiko Overfitting)
—> Kleines C = Minimierung der Gewichte (Risiko Underfitting)
Warum ist eine Komplexität proportional zur Anzahl N der Trainingsvektoren besser als eine Komplexität proportional zur Anzahl d der Dimensionen des Featureraums?
Anzahl Trainingsvektoren kann einfacher gesteuert werden
Trainingsdaten können reduziert werden oder Durchführung in mehreren Schritten
Anzahl Dimensionen/Merkmale kann nicht gesteuert werden
besonders bei nicht-linear separablen Klassen (müssen in höher-dimensionalen Raum transformiert werden)
Was versteht man unter Kernel-Trick?
—> gleiches Ergebnis wie das Skalarprodukt im hochdimensionalen Raum
—> Daten müssen aber nicht in den hochdimensionalen Raum transformiert werden
—> weniger rechenintensiv
Inwiefern steckt Regularisierung in der SVM?
SVM minimiert die Gewichte unter Einhaltung der Randbedingung
—> Parameter C regelt
Warum sind Regression SVMs (auch: SVR) im Fall von Ausreißern besser als die lineare Regression?
Ausreißer gehen nur linear in Fehlerfunktion ein
—>Fehler die innerhalb des Epsilon-Bereichs liegen (kleine Abweichungen) werden nicht gezählt
—>Größere Abweichungen zwischen Soll- und Ist-Wert gehen nicht quadratisch in die Fehlerfunktion ein
Wie wirkt sich die Erhöhung des Parameters Epsilon in einer SVR aus?
—> steuert Größe der Epsilon-Tube
—> Epsilon erhöhen —> weniger Soft Error kleinere Gewichte
—> kleinere Gewichte = weniger Overfitting
—> kleinere Gewichte = höheres Risiko für Underfitting
Was ist der Nachteil der parametrischen Methoden (sowohl im engeren als auch im weiteren Sinn parametrisch)?
Verteilungstyp muss angenommen werden —> immer nur so gut wie die getroffene Annahme
—> schlechte Performance, wenn Typ nicht der Realität entspricht
Nennen Sie 3 wesentliche Vorteil von GP Regression im Vergleich zu anderen Regressionsverfahren?
Konfidenzen (Sicherheiten) für Schätzungen berechnen
korreliertes Rauschen abbilden
Durch Mittelwerts- und Kovarianz-Funktion kann Domänenwissen erlangt werden
Inwiefern kann man in einen Gaußprozess Domänenwissen einfließen lassen?
—> durch vorgeben von Mittelwertsfunktion und Kovarianzfunktion (grobe Verlauf der Daten und deren Korrelationen )
Worin besteht der Unterschied zwischen einer mehrdimensionalen Gauss-Normalverteilung und einem Gaußprozess?
Mehrdimensionale Gauß-Normalverteilung
Diskrete und endliche Anzahl an Dimensionen
Gaußprozess
Dimensionen gegen unendlich (kontinuierlich)
endliche Teilmenge eines Gaußprozesses ist mehrdimensionale Gauß-Normalverteilung
Was ist ein Sample einer multivariaten Gauß-Normalverteilung und was ist ein Sample eines Gaußprozess?
Sample einer multivariaten Gauß-Normalverteilung
n-dimensionaler Vektor
Sample eines Gaußprozess
Verteilungsfunktion mit unendlichen Dimensionen
Was haben die Trainingsdaten mit den Samples eines Gaußprozesses zu tun?
Trainingsdaten liegen auf einem Sample eines Gaußprozesses
Wie verhält sich GP Regression in den Bereichen, in denen keine Trainingsdaten zur Verfügung stehen?
Unsicherheiten werden größer, je weiter man von den Trainingsdaten entfernt ist
Schätzwerte nähern sich der Mittelwertsfunktion
Wie unterscheiden sich die Annahmen hinsichtlich Noise in den Gaußprozessen im Vergleich zu anderen Regressionsverfahren?
Gauß —> korreliertes Rauschen berücksichtigt
Andere Regressionen —> Rauschen wird nicht berücksichtigt
Was sind Hyperparameter eines Gaußprozesses und wie können diese bestimmt werden?
durch Domänenwissen oder lernen durch Data Knowledge
—> Annahme Funktionstyp für Mittelwerts- und Kovarianzfunktion
—> Bestimmung durch numerische Optimierung der Parameter
Für die drei Fälle Regression, binäre Klassikfikation und Klassifikation in mehr als 2 Klassen:
wie viele Neuronen hat die Ausgabeschicht?
Welche Aktivierungsfunktion wird in den Neuronen der Ausgabeschicht eingestellt?
Welche Loss-Function wird im Training minimiert?
Neuronenanzahl Ausgabeschicht
Aktivierungsfunktion der Ausgabeschicht
Loss-Funktion
Regression
1
Identity
Sum Squared Errors
Binäre Klassifikation
Sigmoid
Binäre Kreuzentropie
k-äre Klassifikation
k
Softmax
Kreuzentropie
Ein SLP wird für die Regression einer eindimensionalen linearen Funktion y=f(x) eingesetzt. Wie lassen sich die Funktionsparametern an den Gewichten des SLPs ablesen?
Was verändert sich wenn nicht eine lineare, sondern eine
quadratische
kubische
eindimensionale Funktion gelernt werden soll?
SLP kann nur linear separieren —> Trick: Inputs quadrieren
w0: Schnittpunkt mit der y-Achse (Bias)
w1: Steigung der Geraden
Quadratische
Ein Neuron mehr
Kubische
zwei Neuronen mehr
Worin besteht das allgemeine Prinzip der Gradient Descent Lernverfahren?
Ziel: minimieren der Fehlerfunktion
Fehlerfunktion in Abhängigkeit von unseren Gewichten aufstellen
Fehlerfunktion nach allen Gewichten ableiten
Gradient = alle Ableitungen als Vektor —> Negativer Gradient zeigt in Richtung des steilsten Abstiegs
Anpassung der Gewichte entlang des negativen Gradienten
—> iterativ
Welche Voraussetzung muss die Fehlerfunktion erfüllen?
muss ableitbar sein
soll das beschreiben, was man nicht haben möchte
—> z.B. SSE/MSE beschreibt Abweichung zwischen Soll- und Ist-Ausgabe.
Worin besteht der Unterschied zwischen Stochastic Gradient Descent und Gradient Descent?
Gradient Descent (Batch-Learning): Eine Gewichtsanpassung für den gesamten Batch an Trainingsdaten.
Stochastic Gradient Descent (Online-Learning): Gewichtsanpassung pro einzelnes Trainingselement.
Worin besteht der Unterschied zwischen Batch- und Onlinelernen?
Batch-Lernen —> Gewichtsanpassung pro ganzen Batch
Onlinelernen —> Gewichtsanpassung pro einzelnen Element
Was ist Dropout? Wozu dient es?
pro Gewichtsanpassung schalten wir temporär eine Anzahl an Gewichten aus
—> Ausgabe wird auf Basis deaktiven Neuronen berechnet
In der nächsten Iteration werden andere Neuronen zufällig ausgeschalten
Wozu dient es?
Overfitting reduzieren —> lernt nicht immer das selbe
Warum müssen die Daten bevor sie auf ein neuronales Netz gegeben werden standardisiert (normalisiert) werden?
bei nicht standardisierten Daten würden die Gewichte falsch eingestellt werden
—> primär auf Merkmale mit hohen Werten gewichtet
alle Daten gehen als gleich wichtig in die Gewichtung ein
Was ist bei der Auswahl der Neuronenzahl in der verborgenen Schicht zu beachten?
je mehr Neuronen, desto komplexeres Modell kann gelernt werden
zu wenig Neuronen:
einfache Funktionen
generalisieren besser
zu viele Neuronen:
kann komplexere Modelle lernen
benötigt mehr Trainingsdaten für robustes Modell (mehr Parameter lernen)
erhöhte Gefahr von Overfitting
Durch welche Parameter kann die Gefahr des Overfitting in einem MLP reduziert werden?
Dropout —> Anzahl der Hidden Neuronen klein halten
Regularisierung —> Gewichte verkleinern
Anzahl der Epochen —> Early Stopping
Warum sollten die Gewichte initial relativ klein gewählt werden?
um nicht in den Sättigungsbereich der Aktivierungsfunktion zu kommen
—> kann nichts gelernt werden
Wofür können RNNs eingesetzt werden?
bei korrelierten oder sequentiellen Daten (Sequenzen)
—> Kontext beibehalten (“Gedächtnis”)
Inwiefern haben RNNs ein Gedächtnis?
Ausgabe des rekurrenten Layers wird als Eingabe beim nächsten Zeitschritt mit einbezogen
Gedächtnis, da zuvor gesehenes in die aktuelle Ausgabe miteinbezogen wird
Wie werden RNNs belernt? Welches Problem tritt dabei bei den herkömmlichen RNNs auf?
Gradientenabstiegsverfahren
bei Vanilla-RNNs:
lange Sequenzen —> durch Gewichtsupdates werden weit zurückliegende Elemente wenig bis garnicht berücksichtigt —> Vanishing Gradient Problem
Langzeitabhängigkeiten werden schlecht gelernt
Nennen Sie je eine RNN-Anwendung der Kategorie One-to-Many, Many-to-One, Many-to-Many
One-to-Many
Image Captioning
Many-to-One
Temperaturvorhersage
Textklassifikation
Many-to-Many
Automatische Übersetzung
Welche 3 Gates werden im LSTM unterschieden?
Forget-Gate:
was aus dem Langzeitgedächtnis entfernt wird
Update-Gate:
neue Aufnahme von Informationen ins Langzeitgedächtnis
Output-Gate:
was aus dem Langzeitgedächtnis an die nächste Layer weitergegeben wird
Mit welchem Nachteil sind alle rekurrenten Netze (auch LSTMs, GRUs, ...) behaftet?
nicht parallelisierbar —> sequentielle Berechnung
Welches Ziel liegt den meisten tiefen neuronalen Netzen, insbesondere den CNNs, zugrunde?
Feature Extractor —> bedeutungsvolle Merkmale extrahieren
CNN lernt selbst die wichtigsten Features (muss nicht vorgegeben werden)
Welche grobe Architekturunterteilung lässt sich aus diesem Ziel ableiten?
Feature Extractor und Classifier/Regression Model
Wodurch wird die Anzahl der zu lernenden Parameter in Convolutional Neural Networks (CNN) vergleichsweise gering gehalten?
keine vollständige Vernetzung —> jedes Neuron nur mit so vielen Neuronen der vorigen Schicht verbunden, wie Filtergröße (rezeptive field)
Shared weights —> alle Neuronen einer Feature Map teilen Gewichte
Welche Layer-Typen werden in einem CNN unterschieden?
Convolution Layer —> extrahiert Features von gegebenem Input
Pooling Layer —> reduziert Komplexität
Dense Layer —> voll vernetzt
Deconvolution/Transposed Convolution Layer —> umgekehrte Convolution
Was bringt eine Stepsize > 1 im Convolutional Layer?
Größe der Ausgabe wird reduziert —> Komplexität sinkt
Ausgabe (Feature Map) wird kleiner im Vergleich zur Eingabe
Was bringt Zeropadding im Convolutional Layer?
Größe der Feature Map kann reguliert werden —> beibehalten der ursprünglichen Größe
Ränder werden mit Nullen erweitert
Was bringt Pooling?
Komplexität reduzieren
Translation Varianz —> Objekt im Bild erkennen, egal wo es ist
Wie viele Ausgabeneuronen hat ein CNN?
kommt auf den Task an:
k-äre Klassifikation: k Ausgabeneuronen (Anzahl der Klassen, Softmax)
binäre Klassifikation: ein Ausgabeneuron (Sigmoid)
Regression: ein Ausgabeneuron
Für was wird Deconvolution eingesetzt?
Vergrößerung von Feature Maps
Anwendung:
Visualisierung der gelernten Features
Vergrößerung der Bildauflösung (z.B. Superresolution)
Was bringt Dilation?
große Merkmale können mit wenig Koeffizienten abgedeckt werden
Was bringt ein 1x1 Convolutional Filter in einem Inception Layer?
Komplexitätsreduktion —> Verkleinerung der Channelanzahl während die räumliche Auflösung konstant bleibt
Was ist ein Fully Convolutional Network (FCN)?
Dense Layer werden durch 1x1 Convolution Layer ersetzt
Ermöglicht Eingabe von Bildern verschiedener Größe
Was liefert ein FCN, das für die semantische Segmentierung eingesetzt wird, in der Ausgabe?
Klassifikationsmap —> nicht nur eine Klassifikation pro Bild sondern pro Region
Was ist ein Residual Block?
ein oder mehrere Layer in einem Block, die mit Shortcut Connections die Eingabe auf die Ausgabe addiert
Gelernt wird Residium (Unterschied/Differenz) zwischen Eingabe und Ausgabe
Wie wird ein CNN trainiert?
(stochastic) Gradientenabstiegsverfahren
Anpassung der Gewichte in Richtung des negativen Gradienten der Fehlerfunktion
Für welche Art von Daten bieten sich CNNs an (allgemein tiefe neuronale Netze)?
Bei Abhängigkeiten in der Nachbarschaft —> benachbarte Daten korrelieren(z.B. Zeitreihendaten, Bilder, Text, Sprache)
Wann sollten eher herkömmliche ML-Methoden eingesetzt werden?
wenn keine Zusammenhänge zwischen den Eingabedaten bestehen
wenn nur wenige Trainingsdaten vorhanden sind
Inwiefern ist ein Graph Convolutional Network (GCN) eine Verallgemeinerung eines Convolutional Neural Networks (CNN)?
GCN: flexiblere Auffassung von Nachbarschaftsbeziehungen,
Mit jedem Layer in GNN fließen mehr Informationen von Nachbarn ein
CNN: räumliche Nachbarn; Nachbarschaft z.B. nur benachbarte Pixel
Bei beidem: mit jedem Layer mehr Infos durch Nachbarn
Auf abstrakter Ebene: Wann kann der Einsatz von Graph Neural Networks sinnvoll sein?
Bestimmung/Klassifikation eines Elementes hängt nicht nur vom Element selbst, sondern auch von Nachbarn ab
Nachbarschaftsdefinition ist dabei uns überlassen
Wie ändert sich die zu einem Knoten gehörende Information mit zunehmender Tiefe des Layers?
enthält zunehmend mehr Information über weiter entfernte Nachbarn
Je tiefer man geht, desto größer die Nachbarschaft, die berücksichtigt wird
Nennen Sie 2 Anwendungskategorien von GCNs.
Graph Classification
Node Classification
Nennen Sie 2 konkrete Anwendungen für Node-Classification
Dokumentklassifikation
Musiktitel hinsichtlich Genres klassifizieren
User hinsichtlich Gruppen klassifizieren
Inwiefern ist ein Autoencoder ein unsupervised ML-Verfahren
—> braucht keine gelabelten Daten für die Eingabe
Welches Ziel wird beim Training eines Autoencoders verfolgt?
Eingabe rekonstruieren —> Ausgabe soll möglichs nah an Eingabe rankommen
Inwiefern kann ein Autoencoder als MLP verstanden werden?
Wenn nur Dense Layer ist Autoencoder ein spezielles MLP, dass symmetrische Struktur hat
Warum ist die Ausgabe in der mittleren Schicht (latente Repräsentation) ein guter Featurevektor?
enthät alle relevanten Informationen
sonst könnte Original nicht gut rekonstruiert werden
Welche zusätzliche funktionale Eigenschaft bietet ein Variational Autoencoder (VAE), die der eigentliche Autoencoder nicht bietet
generatives Modell —> kann von den Kategorien, die im Training waren, neue Objekte erstellen
Was wird im Bottleneck eines VAE gemacht?
Wahrscheinlichkeitsverteilung gelernt und samplen hinsichtlich der Wahrscheinlichkeitsverteilung
Aus welchen Komponenten besteht ein GAN und welche Funktion haben diese?
Generator: generiert Fake Daten
Diskriminator: soll Fake von echt unterscheiden
Was ist Ein- und Ausgabe von Generator und Klassifikator?
Generator:
Eingabe: Random Noise
Ausgabe: Fake Daten
Diskriminator:
Eingabe: Fake Daten (vom Diskriminator) und Echte Daten
Ausgabe: Label/ Klassenentscheidung 0 oder 1
Welche Fehlerfunktion wird wo eingestellt? (bei GANs)
Generator: MinMax-Loss Funktion minimieren
Diskriminator: MinMax-Loss Funktion maximieren
Wie wird ein GAN trainiert?
Phase 1: Training Discriminator
mit echten und fake Daten trainiert
Dann werden Gewichte eingefroren
Phase 2: Training Generator
Eingabe: bekommt Noise
Generiert Bild
Gewichte werden angepasst so dass fake dem Label 1 also real entsprechen kann
Wo werden die künstlich generierten Inhalte (Bilder) abgegriffen?
Am Ausgang des Generators
CycleGAN: Welchen großen Vorteil bieten CycleGANs im Vergleich zu anderen Image-to-Image Translation Ansätzen?
Mann benötigt keine Paare von Daten sondern nur Bilder aus beiden Domänen
CycleGAN: Aus welchen Komponenten besteht die Loss-Funktion und welche Ziele werden mit diesen Komponenten realisiert?
Adversariale Loss Funktion (herkömmliche GAN Loss Function) für beide Domänen
Cycle Loss Function —> beschreibt Differenz zwischen Original- und generiertem Bild
Welche zwei Prozessketten werden in den Diffusion Modellen unterschieden? Was wird in diesen Prozessketten gemacht? Welche dieser Ketten kommt/kommen im Training zum Einsatz, welche in der Inferenzphase
Forward Diffusion Process: Schritt für Schritt Noise hinzuügen, bis nur noch Gauß Verteiltes Rauschen am Ende rauskommt
Backward Diffusion Prozess:
NN bekommt ein Rauschbild
schätzt hinzugefügte Noise welche dann vom Rauschbild abgezogen werden kann
—> Ergebnis ist ein weniger verrauschtes Bild
Training: beide Richtungen
Interferenzphase: nur Backward Diffusion Prozess
Was bringt die Anwendung der Variational Lower Bound (die hier tatsächlich eine Upper Bound ist)?
Ziel: Eingabebild rekonstruieren
löst Problem, dass die Diffusion Loss-Funktion nicht als geschlossene Funktion definiert werden kann
—> wenn Funktion nicht geschlossen ist kann sie nicht minimiert werden
Was ist die Eingabe, was die Ausgabe in das U-Net?
Eingabe: verrauschtes Bild
Ausgabe: geschätzte Noise (zum Berechnen des weniger verrauschtes Bild)
Verglichen mit einem Autoencoder, was ist der Vorteil eines U-Net?
Shortcut Connections —> räumliche Informationen können beibehalten werden
ohne würde Ortsinformation wie beim Autoencoder bei der Verkleinerung zur latenten Repräsentation verloren gehen
Wie können Wörter als numerische Vektoren dargestellt werden ( 2 Möglichkeiten)
One Hot Encoding Vektoren
Word Embedding
Wie können Texte als numerische Strukturen dargestellt werden (2 Möglichkeiten)
Bag of Word Modell
Sequenz von Word Embeddings
Welche ML-Algorithmen können für die beiden oben genannten Textrepräsentationen (BoW und sequenz von word vektoren) angewandt werden?
Bag of Word:
SVM
Bayes Classifier
NN
Clustering
Sequenz von word Vektoren:
CNNs
RNNs
Transformer
Entsprechend der den Wordembeddings zugrundeliegenden Idee: Wann sind Wörter semantisch korreliert?
—> wenn sie häufig im gleichen Kontext vorkommen
Wie werden Word-Embeddings erstellt?
—> werden durch NN gelernt
CBOW —> fehlendes Wort aus Kontext vorhersagen
Skipgram —> basierend auf einem Targetwort, Kontextwort vorhersagen
Nennen sie einen Nachteil der Wort-Embeddings (so wie sie bisher bekannt sind)
jedes Wort hat nur ein Word-Embedding —> aber Wörter können in verschiedenen Kontexten verschiedene Bedeutungen haben
Lösung: Kontextuelle Word Embeddings = Enthalten in Transformer
Was ist Self-Attention?
Attention Koeffizienten werden ausschließlich aus Eingabe berechnen
Worin besteht der große Vorteil eines Transformers gegenüber rekurrenten neuronalen Netzen?
Paralleles Rechnen ist möglich —> geht schneller
Was ist der wesentliche Unterschied zwischen Attention-Koeffizienten a und Gewichten w eines neuronalen Netzes?
Koeffizienten hängen von Input ab (verändern sich), Gewichte sind fest wenn sie mal gelernt sind
Woraus werden die Elemente q,k,v im Self-Attention Block, woraus im Encoder - Decoder - Block berechnet?
Self Attention:
Queries, Keys, Values aus Ausgabe der vorigen Schicht
Encoder-Decoder-Attention:
Keys und Values aus Ausgabe des Encoder-Stacks, Queries aus der vorigen Schicht
Was bringt Multihead-Attention?
Unterschiedliche Bedeutung in unterschiedlichen Kontexten
Kann einem paar von Wörtern verschiedene Repräsentationen/Bedeutungen zuweisen je nach Kontext/Reihenfolge/…
Warum braucht es Positional Encoding?
Problem: Eingaben werden nicht geordnet verarbeitet → Reihenfolge der Worte werden nicht beachtet
Lösung: Positional Encoding
Aus welchen Blöcken besteht ein Encoder-Block eines Transformer?
aus einem Self-attention, einem Feed Forward Block, Normalisierung und shortcut
Was ist ein Masked Language Model (MLM)?
einzelne in der Eingabe maskierte Worte in der Ausgabe vorhersagen
Wie wird BERT vortrainiert?
—> auf ungelabelten Daten durch MLM und next sentence Prediction
Wie wird BERT für Klassifikationsaufgaben angepasst?
Vortrainiertes BERT Modell
Klassifikations Layer auf Transformer Ausgabe geben
Was bringt BERT ohne Fine-Tuning?
gute Kontext Word-Embeddings
BERT und GPT-x sind Transformer: Worin besteht der wesentliche architektonische Unterschied?
BERT ist nur ein Encoder
GPT nur Decoder ist
Wie wird in GPT-3 Few Shot, wie Zero Shot umgesetzt? Was ist der wesentliche Unterschied zu Fine-Tuning (wie z.B in BERT eingesetzt)?
few shot —> Task und Beispiele zusätzlich in Eingabe
zero shot —> Task zusätzlich in Eingabe
Last changed4 months ago