Checkerfragen

Buffl

Machine Learning

by Leiii P.

Eine Bäckereikette will für jede Filiale den Verbrauch der einzelnen Backwaren pro Tag vorhersagen, was ist

Task T
Performance Measure P
Experience E

Task T

Performance Measure P

Experience E

Was soll das System erreichen?

Wann sind die Ergebnisse des Systems zielführend?

Welche Erfahrungswerte hat das System?

Vorhersage von Verkaufszahl pro Filiale, Tag und Produktkategorie

Weggeworfene Backwaren + potenziell fehlende Waren.

Anwendung von Mean Absolute Error

Historische Verkaufsdaten, Ort, Wochentag, Wetter, Jahreszeit, Regionales Durchschnittseinkommen, usw.

Was ist induktives Schließen? Was ist ein Modell?

beim Training wird aus einzelnen Beobachtungen wird ein allgemeiner Zusammenhang gelernt(=Modell) gelernt
Modell = allgemeiner Zusammenhang

Was kann unüberwacht gelernt werden?

Unsupervised Learning —> lernen ohne gelabelte Trainingsdaten

Clustering: Zusammenhänge/Ähnlichkeiten zwischen Instanzen
Merkmale/Features —> Mustererkennung: Assoziationen zwischen den Spalten

Warum ist die Evaluation von unüberwacht gelernten Modellen schwierig?

kein Expertenwissen/Sollausgabe gegeben

—> sind die gemachten Zuordnungen sinnvoll?

Was ist “Lernen mit Kritiker”?

Reinforcement Learning

nach mehreren Abfolgen/Sequenzen von Aktionen bekommt man Feedback
- kein Feedback für einzelne Aktionen
  - Beitrag der einzelnen Aktionen nicht bekannt

In welcher Form werden die Daten für das maschinelle Lernen in der Regel strukturiert?

2D-Matrix (Tabellen) mit Daten in numerischer Form

—> Zeilen = Instanzen

—> Spalten = Merkmale

Von welchen Faktoren hängt die notwendige Anzahl der Trainingsdaten ab?

Varianz der Daten
Komplexität des Modells
Dimension der Eingabedaten
Anzahl der lernbaren Parameter

Wie könnte eine untere Vergleichsbaseline ausssehen für

ein Klassifikationsmodell
ein Regressionsmodell
eine Zeitreihenvorhersage

Klassifikationsmodell
- Auswahl der am häufigsten vorkommenden Klasse
Regressionsmodell
- Vorhersage des Durchschnitts
Zeitreihenvorhersage
- Vorhersage des letzten Werts

Was ist Self-Supervised-Learning?

bei korrelierenden nicht gelabelten Daten
Feature Extractor kann zur Vorhersage anderer neuer Daten verwendet werden

Was ist Semi-Supervised-Learning?

wenige gelabelte Daten
Annahme: Daten in einem Cluster gehören zu einer Klasse
Cluster sind neue gelabelte Trainingsdaten —> Modell kann damit gelernt werden

Wann hat ein Modell zu viel Bias?

Underfitting —> zu starke Einschränkungen der Klassengrenzen

Wann hat ein Modell zu viel Variance?

Overfitting —> zu stark auf Trainingsdaten angepasst

—> generalisiert schlecht

Nennen Sie einen Grund für einen irreduziblen Fehler?

Latente (verborgene) Variablen

—> Variablen beeinflussen Mapping aber nicht im Datensatz

Was versteht man unter “Curse of Dimensionality”?

Anzahl lernbarer Parameter nimmt linear zu —> benötigte Anzahl der Trainingsdaten nimmt exponentiell zu

Mit welcher Art von Wissen tut sich die KI schwer?

Common Sense —> Weltwissen

Wie klassifiziert ein K-NN Classifier neue Datensätze?

k nächste Nachbarn werden angeschaut
Klasse, die in der Menge am häufigsten vorkommt wird gewählt

Wie kann im K-NN die Gefahr des Overfitting reduziert werden?

k erhöhen

—> je höher k desto geringer die Gefahr für Overfitting

—> generalisiert besser

Was ist das Prinzip der generativen Klassifizierer?

Prinzip: Klassenwahrscheinlichkeiten zu modellieren, nicht die Klassengrenzen
Verteilungsfunktion wird gelernt —> daraus können neue Daten generiert werden
- Verteilungstyp annehmen
- Parameter des Verteilungstyps wird aus den Trainingsdaten geschätzen

Welcher generative Klassifizierer ist extrem weit verbreitet?

Naive Bayes Classifier

—> Anwendung häufig in Dokument Classification

Was ist Maximum-Likelihood Parameterschätzung?

Maximum-Likelihood: Parameter werden so geschätzt, dass am wahrscheinlichsten die Stichprobe hervorkommt

Wie kann mit linearer Regression eine quadratische (oder beliebigen Grades) Funktion gelernt werden?

Trainingsdaten werden in höherdimensionalen Raum transformiert —> Hinzufügen eines Merkmals dessen Grad erhöht wird

Nach welchen “Variablen” werden beim maschinellen Lernen Fehlerfunktionen abgeleitet?

nach den Gewichten w —> für jedes Gewicht wird die partielle Ableitung bestimmt

Wann sollte Bayessche Klassifikation nicht angewandt werden?

—> keine Verteilungsfunktion gefunden, die Daten gut annähert

Wann sollte lineare Regression nicht angewandt werden? Welche Algorithmen bieten sich dann als Alternative an?

Rauschen nicht gaussverteilt (viele Ausreißer)
Alternative:
- SVM (Support Vector Maschine)

Was versteht man unter Regularisierung? Was wird damit erreicht?

Regularisierung —> Minimierung der Gewichte durch penalty term für smoothere Kurven

—>Overfitting wird vermieden

Worin unterscheiden sich diskriminative und generative Modelle? Was wird beim diskriminativen Klassifikator gelernt, was beim generativen Klassifikator?

Generative Modelle —> Likelihood pro Klasse
- Annahme über Typ klassenspezifische Verteilungsfunktion (Likelihood)
- Lernen der zugehörigen Parameter
Diskriminative Modelle —> Klassengrenze pro Klasse
- Annahme über Verlauf der Klassengrenzen
- Lernen der zugehörigen Parameter

Allgemein ML: Welchen Beitrag liefert der Mensch, welchen der Lernalgorithmus?

Mensch
- Typ der Klassengrenze/Verteilungsfunktion schätzen/wissen
Lernalgorithmus
- Parameter für Klassengrenze/Verteilungsfunktion lernen

Wie kann mit diskriminativen Verfahren Zuverlässigkeitsinformation in Form der a-posteriori Wahrscheinlichkeit mit ausgegeben werden?

durch Verwenden der Sigmoid/Softmax-Aktivierungsfunktion auf Ausgabevektor des Modells

Wie unterscheiden sich die Klassengrenzen eines linearen und eines logistischen Diskriminators, wenn beide durch die gleichen Parameter wi definiert werden?

Klassengrenzen sind gleich

—> Unterschied: Logistischer Diskriminator gibt Zuverlässigkeitswert aus

Finden SVMs bessere Klassengrenzen als die bisher behandelten diskriminativen Modelle?

finden optimale Klassengrenze —> maximaler Abstand zu Trainingsdaten

—> generalisiert besser

—> bisher nur fehlerfrei klassifiziert

Welche Bedeutung hat der Parameter C?

Steuerung der Anpassung an die Trainingsdaten

—> Großes C = Minimierung des Soft-Errors wichtiger (Risiko Overfitting)

—> Kleines C = Minimierung der Gewichte (Risiko Underfitting)

Warum ist eine Komplexität proportional zur Anzahl N der Trainingsvektoren besser als eine Komplexität proportional zur Anzahl d der Dimensionen des Featureraums?

Anzahl Trainingsvektoren kann einfacher gesteuert werden
- Trainingsdaten können reduziert werden oder Durchführung in mehreren Schritten
Anzahl Dimensionen/Merkmale kann nicht gesteuert werden
- besonders bei nicht-linear separablen Klassen (müssen in höher-dimensionalen Raum transformiert werden)

Was versteht man unter Kernel-Trick?

—> gleiches Ergebnis wie das Skalarprodukt im hochdimensionalen Raum

—> Daten müssen aber nicht in den hochdimensionalen Raum transformiert werden

—> weniger rechenintensiv

Inwiefern steckt Regularisierung in der SVM?

SVM minimiert die Gewichte unter Einhaltung der Randbedingung

—> Parameter C regelt

Warum sind Regression SVMs (auch: SVR) im Fall von Ausreißern besser als die lineare Regression?

Ausreißer gehen nur linear in Fehlerfunktion ein

—>Fehler die innerhalb des Epsilon-Bereichs liegen (kleine Abweichungen) werden nicht gezählt

—>Größere Abweichungen zwischen Soll- und Ist-Wert gehen nicht quadratisch in die Fehlerfunktion ein

Wie wirkt sich die Erhöhung des Parameters Epsilon in einer SVR aus?

—> steuert Größe der Epsilon-Tube

—> Epsilon erhöhen —> weniger Soft Error kleinere Gewichte

—> kleinere Gewichte = weniger Overfitting

—> kleinere Gewichte = höheres Risiko für Underfitting

Was ist der Nachteil der parametrischen Methoden (sowohl im engeren als auch im weiteren Sinn parametrisch)?

Verteilungstyp muss angenommen werden —> immer nur so gut wie die getroffene Annahme

—> schlechte Performance, wenn Typ nicht der Realität entspricht

Nennen Sie 3 wesentliche Vorteil von GP Regression im Vergleich zu anderen Regressionsverfahren?

Konfidenzen (Sicherheiten) für Schätzungen berechnen
korreliertes Rauschen abbilden
Durch Mittelwerts- und Kovarianz-Funktion kann Domänenwissen erlangt werden

Inwiefern kann man in einen Gaußprozess Domänenwissen einfließen lassen?

—> durch vorgeben von Mittelwertsfunktion und Kovarianzfunktion (grobe Verlauf der Daten und deren Korrelationen )

Worin besteht der Unterschied zwischen einer mehrdimensionalen Gauss-Normalverteilung und einem Gaußprozess?

Mehrdimensionale Gauß-Normalverteilung
- Diskrete und endliche Anzahl an Dimensionen
Gaußprozess
- Dimensionen gegen unendlich (kontinuierlich)
  - endliche Teilmenge eines Gaußprozesses ist mehrdimensionale Gauß-Normalverteilung

Was ist ein Sample einer multivariaten Gauß-Normalverteilung und was ist ein Sample eines Gaußprozess?

Sample einer multivariaten Gauß-Normalverteilung
- n-dimensionaler Vektor
Sample eines Gaußprozess
- Verteilungsfunktion mit unendlichen Dimensionen

Was haben die Trainingsdaten mit den Samples eines Gaußprozesses zu tun?

Trainingsdaten liegen auf einem Sample eines Gaußprozesses

Wie verhält sich GP Regression in den Bereichen, in denen keine Trainingsdaten zur Verfügung stehen?

Unsicherheiten werden größer, je weiter man von den Trainingsdaten entfernt ist
Schätzwerte nähern sich der Mittelwertsfunktion

Wie unterscheiden sich die Annahmen hinsichtlich Noise in den Gaußprozessen im Vergleich zu anderen Regressionsverfahren?

Gauß —> korreliertes Rauschen berücksichtigt
Andere Regressionen —> Rauschen wird nicht berücksichtigt

Was sind Hyperparameter eines Gaußprozesses und wie können diese bestimmt werden?

durch Domänenwissen oder lernen durch Data Knowledge

—> Annahme Funktionstyp für Mittelwerts- und Kovarianzfunktion

—> Bestimmung durch numerische Optimierung der Parameter

Für die drei Fälle Regression, binäre Klassikfikation und Klassifikation in mehr als 2 Klassen:

wie viele Neuronen hat die Ausgabeschicht?
Welche Aktivierungsfunktion wird in den Neuronen der Ausgabeschicht eingestellt?
Welche Loss-Function wird im Training minimiert?

	Neuronenanzahl Ausgabeschicht	Aktivierungsfunktion der Ausgabeschicht	Loss-Funktion
Regression	1	Identity	Sum Squared Errors
Binäre Klassifikation	1	Sigmoid	Binäre Kreuzentropie
k-äre Klassifikation	k	Softmax	Kreuzentropie

Ein SLP wird für die Regression einer eindimensionalen linearen Funktion y=f(x) eingesetzt. Wie lassen sich die Funktionsparametern an den Gewichten des SLPs ablesen?

Was verändert sich wenn nicht eine lineare, sondern eine

quadratische
kubische

eindimensionale Funktion gelernt werden soll?

SLP kann nur linear separieren —> Trick: Inputs quadrieren

w0: Schnittpunkt mit der y-Achse (Bias)
w1: Steigung der Geraden

Quadratische
- Ein Neuron mehr
Kubische
- zwei Neuronen mehr

Worin besteht das allgemeine Prinzip der Gradient Descent Lernverfahren?

Ziel: minimieren der Fehlerfunktion

Fehlerfunktion in Abhängigkeit von unseren Gewichten aufstellen
Fehlerfunktion nach allen Gewichten ableiten
Gradient = alle Ableitungen als Vektor —> Negativer Gradient zeigt in Richtung des steilsten Abstiegs
Anpassung der Gewichte entlang des negativen Gradienten

—> iterativ

Welche Voraussetzung muss die Fehlerfunktion erfüllen?

muss ableitbar sein
soll das beschreiben, was man nicht haben möchte
—> z.B. SSE/MSE beschreibt Abweichung zwischen Soll- und Ist-Ausgabe.

Worin besteht der Unterschied zwischen Stochastic Gradient Descent und Gradient Descent?

Gradient Descent (Batch-Learning): Eine Gewichtsanpassung für den gesamten Batch an Trainingsdaten.
Stochastic Gradient Descent (Online-Learning): Gewichtsanpassung pro einzelnes Trainingselement.

Worin besteht der Unterschied zwischen Batch- und Onlinelernen?

Batch-Lernen —> Gewichtsanpassung pro ganzen Batch
Onlinelernen —> Gewichtsanpassung pro einzelnen Element

Was ist Dropout? Wozu dient es?

pro Gewichtsanpassung schalten wir temporär eine Anzahl an Gewichten aus
—> Ausgabe wird auf Basis deaktiven Neuronen berechnet
In der nächsten Iteration werden andere Neuronen zufällig ausgeschalten
Wozu dient es?
- Overfitting reduzieren —> lernt nicht immer das selbe

Warum müssen die Daten bevor sie auf ein neuronales Netz gegeben werden standardisiert (normalisiert) werden?

bei nicht standardisierten Daten würden die Gewichte falsch eingestellt werden
—> primär auf Merkmale mit hohen Werten gewichtet
alle Daten gehen als gleich wichtig in die Gewichtung ein

Was ist bei der Auswahl der Neuronenzahl in der verborgenen Schicht zu beachten?

je mehr Neuronen, desto komplexeres Modell kann gelernt werden
zu wenig Neuronen:
- einfache Funktionen
- generalisieren besser
zu viele Neuronen:
- kann komplexere Modelle lernen
- benötigt mehr Trainingsdaten für robustes Modell (mehr Parameter lernen)
- erhöhte Gefahr von Overfitting

Durch welche Parameter kann die Gefahr des Overfitting in einem MLP reduziert werden?

Dropout —> Anzahl der Hidden Neuronen klein halten
Regularisierung —> Gewichte verkleinern
Anzahl der Epochen —> Early Stopping

Warum sollten die Gewichte initial relativ klein gewählt werden?

um nicht in den Sättigungsbereich der Aktivierungsfunktion zu kommen
—> kann nichts gelernt werden

Wofür können RNNs eingesetzt werden?

bei korrelierten oder sequentiellen Daten (Sequenzen)
—> Kontext beibehalten (“Gedächtnis”)

Inwiefern haben RNNs ein Gedächtnis?

Ausgabe des rekurrenten Layers wird als Eingabe beim nächsten Zeitschritt mit einbezogen
Gedächtnis, da zuvor gesehenes in die aktuelle Ausgabe miteinbezogen wird

Wie werden RNNs belernt? Welches Problem tritt dabei bei den herkömmlichen RNNs auf?

Gradientenabstiegsverfahren
bei Vanilla-RNNs:
- lange Sequenzen —> durch Gewichtsupdates werden weit zurückliegende Elemente wenig bis garnicht berücksichtigt —> Vanishing Gradient Problem
- Langzeitabhängigkeiten werden schlecht gelernt

Nennen Sie je eine RNN-Anwendung der Kategorie One-to-Many, Many-to-One, Many-to-Many

One-to-Many
- Image Captioning
Many-to-One
- Temperaturvorhersage
- Textklassifikation
Many-to-Many
- Automatische Übersetzung

Welche 3 Gates werden im LSTM unterschieden?

Forget-Gate:
- was aus dem Langzeitgedächtnis entfernt wird
Update-Gate:
- neue Aufnahme von Informationen ins Langzeitgedächtnis
Output-Gate:
- was aus dem Langzeitgedächtnis an die nächste Layer weitergegeben wird

Mit welchem Nachteil sind alle rekurrenten Netze (auch LSTMs, GRUs, ...) behaftet?

nicht parallelisierbar —> sequentielle Berechnung

Welches Ziel liegt den meisten tiefen neuronalen Netzen, insbesondere den CNNs, zugrunde?

Feature Extractor —> bedeutungsvolle Merkmale extrahieren
- CNN lernt selbst die wichtigsten Features (muss nicht vorgegeben werden)

Welche grobe Architekturunterteilung lässt sich aus diesem Ziel ableiten?

Feature Extractor und Classifier/Regression Model

Wodurch wird die Anzahl der zu lernenden Parameter in Convolutional Neural Networks (CNN) vergleichsweise gering gehalten?

keine vollständige Vernetzung —> jedes Neuron nur mit so vielen Neuronen der vorigen Schicht verbunden, wie Filtergröße (rezeptive field)
Shared weights —> alle Neuronen einer Feature Map teilen Gewichte

Welche Layer-Typen werden in einem CNN unterschieden?

Convolution Layer —> extrahiert Features von gegebenem Input
Pooling Layer —> reduziert Komplexität
Dense Layer —> voll vernetzt
Deconvolution/Transposed Convolution Layer —> umgekehrte Convolution

Was bringt eine Stepsize > 1 im Convolutional Layer?

Größe der Ausgabe wird reduziert —> Komplexität sinkt
Ausgabe (Feature Map) wird kleiner im Vergleich zur Eingabe

Was bringt Zeropadding im Convolutional Layer?

Größe der Feature Map kann reguliert werden —> beibehalten der ursprünglichen Größe
Ränder werden mit Nullen erweitert

Was bringt Pooling?

Komplexität reduzieren
Translation Varianz —> Objekt im Bild erkennen, egal wo es ist

Wie viele Ausgabeneuronen hat ein CNN?

kommt auf den Task an:

k-äre Klassifikation: k Ausgabeneuronen (Anzahl der Klassen, Softmax)
binäre Klassifikation: ein Ausgabeneuron (Sigmoid)
Regression: ein Ausgabeneuron

Für was wird Deconvolution eingesetzt?

Vergrößerung von Feature Maps
Anwendung:
- Visualisierung der gelernten Features
- Vergrößerung der Bildauflösung (z.B. Superresolution)

Was bringt Dilation?

große Merkmale können mit wenig Koeffizienten abgedeckt werden

Was bringt ein 1x1 Convolutional Filter in einem Inception Layer?

Komplexitätsreduktion —> Verkleinerung der Channelanzahl während die räumliche Auflösung konstant bleibt

Was ist ein Fully Convolutional Network (FCN)?

Dense Layer werden durch 1x1 Convolution Layer ersetzt
Ermöglicht Eingabe von Bildern verschiedener Größe

Was liefert ein FCN, das für die semantische Segmentierung eingesetzt wird, in der Ausgabe?

Klassifikationsmap —> nicht nur eine Klassifikation pro Bild sondern pro Region

Was ist ein Residual Block?

ein oder mehrere Layer in einem Block, die mit Shortcut Connections die Eingabe auf die Ausgabe addiert
Gelernt wird Residium (Unterschied/Differenz) zwischen Eingabe und Ausgabe

Wie wird ein CNN trainiert?

(stochastic) Gradientenabstiegsverfahren
Anpassung der Gewichte in Richtung des negativen Gradienten der Fehlerfunktion

Für welche Art von Daten bieten sich CNNs an (allgemein tiefe neuronale Netze)?

Bei Abhängigkeiten in der Nachbarschaft —> benachbarte Daten korrelieren(z.B. Zeitreihendaten, Bilder, Text, Sprache)

Wann sollten eher herkömmliche ML-Methoden eingesetzt werden?

wenn keine Zusammenhänge zwischen den Eingabedaten bestehen
wenn nur wenige Trainingsdaten vorhanden sind

Inwiefern ist ein Graph Convolutional Network (GCN) eine Verallgemeinerung eines Convolutional Neural Networks (CNN)?

GCN: flexiblere Auffassung von Nachbarschaftsbeziehungen,
- Mit jedem Layer in GNN fließen mehr Informationen von Nachbarn ein
CNN: räumliche Nachbarn; Nachbarschaft z.B. nur benachbarte Pixel
Bei beidem: mit jedem Layer mehr Infos durch Nachbarn

Auf abstrakter Ebene: Wann kann der Einsatz von Graph Neural Networks sinnvoll sein?

Bestimmung/Klassifikation eines Elementes hängt nicht nur vom Element selbst, sondern auch von Nachbarn ab
- Nachbarschaftsdefinition ist dabei uns überlassen

Wie ändert sich die zu einem Knoten gehörende Information mit zunehmender Tiefe des Layers?

enthält zunehmend mehr Information über weiter entfernte Nachbarn
Je tiefer man geht, desto größer die Nachbarschaft, die berücksichtigt wird

Nennen Sie 2 Anwendungskategorien von GCNs.

Graph Classification
Node Classification

Nennen Sie 2 konkrete Anwendungen für Node-Classification

Dokumentklassifikation
Musiktitel hinsichtlich Genres klassifizieren
User hinsichtlich Gruppen klassifizieren

Inwiefern ist ein Autoencoder ein unsupervised ML-Verfahren

—> braucht keine gelabelten Daten für die Eingabe

Welches Ziel wird beim Training eines Autoencoders verfolgt?

Eingabe rekonstruieren —> Ausgabe soll möglichs nah an Eingabe rankommen

Inwiefern kann ein Autoencoder als MLP verstanden werden?

Wenn nur Dense Layer ist Autoencoder ein spezielles MLP, dass symmetrische Struktur hat

Warum ist die Ausgabe in der mittleren Schicht (latente Repräsentation) ein guter Featurevektor?

enthät alle relevanten Informationen
- sonst könnte Original nicht gut rekonstruiert werden

Welche zusätzliche funktionale Eigenschaft bietet ein Variational Autoencoder (VAE), die der eigentliche Autoencoder nicht bietet

generatives Modell —> kann von den Kategorien, die im Training waren, neue Objekte erstellen

Was wird im Bottleneck eines VAE gemacht?

Wahrscheinlichkeitsverteilung gelernt und samplen hinsichtlich der Wahrscheinlichkeitsverteilung

Aus welchen Komponenten besteht ein GAN und welche Funktion haben diese?

Generator: generiert Fake Daten
Diskriminator: soll Fake von echt unterscheiden

Was ist Ein- und Ausgabe von Generator und Klassifikator?

Generator:
- Eingabe: Random Noise
- Ausgabe: Fake Daten
Diskriminator:
- Eingabe: Fake Daten (vom Diskriminator) und Echte Daten
- Ausgabe: Label/ Klassenentscheidung 0 oder 1

Welche Fehlerfunktion wird wo eingestellt? (bei GANs)

Generator: MinMax-Loss Funktion minimieren

Diskriminator: MinMax-Loss Funktion maximieren

Wie wird ein GAN trainiert?

Gradientenabstiegsverfahren
Phase 1: Training Discriminator
- mit echten und fake Daten trainiert
  - Dann werden Gewichte eingefroren
Phase 2: Training Generator
- Eingabe: bekommt Noise
- Generiert Bild
- Gewichte werden angepasst so dass fake dem Label 1 also real entsprechen kann

Wo werden die künstlich generierten Inhalte (Bilder) abgegriffen?

Am Ausgang des Generators

CycleGAN: Welchen großen Vorteil bieten CycleGANs im Vergleich zu anderen Image-to-Image Translation Ansätzen?

Mann benötigt keine Paare von Daten sondern nur Bilder aus beiden Domänen

CycleGAN: Aus welchen Komponenten besteht die Loss-Funktion und welche Ziele werden mit diesen Komponenten realisiert?

Adversariale Loss Funktion (herkömmliche GAN Loss Function) für beide Domänen
Cycle Loss Function —> beschreibt Differenz zwischen Original- und generiertem Bild

Welche zwei Prozessketten werden in den Diffusion Modellen unterschieden? Was wird in diesen Prozessketten gemacht? Welche dieser Ketten kommt/kommen im Training zum Einsatz, welche in der Inferenzphase

Forward Diffusion Process: Schritt für Schritt Noise hinzuügen, bis nur noch Gauß Verteiltes Rauschen am Ende rauskommt
Backward Diffusion Prozess:
- NN bekommt ein Rauschbild
- schätzt hinzugefügte Noise welche dann vom Rauschbild abgezogen werden kann
  —> Ergebnis ist ein weniger verrauschtes Bild
Training: beide Richtungen
Interferenzphase: nur Backward Diffusion Prozess

Was bringt die Anwendung der Variational Lower Bound (die hier tatsächlich eine Upper Bound ist)?

Ziel: Eingabebild rekonstruieren
löst Problem, dass die Diffusion Loss-Funktion nicht als geschlossene Funktion definiert werden kann
—> wenn Funktion nicht geschlossen ist kann sie nicht minimiert werden

Was ist die Eingabe, was die Ausgabe in das U-Net?

Eingabe: verrauschtes Bild
Ausgabe: geschätzte Noise (zum Berechnen des weniger verrauschtes Bild)

Verglichen mit einem Autoencoder, was ist der Vorteil eines U-Net?

Shortcut Connections —> räumliche Informationen können beibehalten werden
- ohne würde Ortsinformation wie beim Autoencoder bei der Verkleinerung zur latenten Repräsentation verloren gehen

Wie können Wörter als numerische Vektoren dargestellt werden ( 2 Möglichkeiten)

One Hot Encoding Vektoren
Word Embedding

Wie können Texte als numerische Strukturen dargestellt werden (2 Möglichkeiten)

Bag of Word Modell
Sequenz von Word Embeddings

Welche ML-Algorithmen können für die beiden oben genannten Textrepräsentationen (BoW und sequenz von word vektoren) angewandt werden?

Bag of Word:
- SVM
- Bayes Classifier
- NN
- Clustering
Sequenz von word Vektoren:
- CNNs
- RNNs
- Transformer

Entsprechend der den Wordembeddings zugrundeliegenden Idee: Wann sind Wörter semantisch korreliert?

—> wenn sie häufig im gleichen Kontext vorkommen

Wie werden Word-Embeddings erstellt?

—> werden durch NN gelernt

CBOW —> fehlendes Wort aus Kontext vorhersagen
Skipgram —> basierend auf einem Targetwort, Kontextwort vorhersagen

Nennen sie einen Nachteil der Wort-Embeddings (so wie sie bisher bekannt sind)

jedes Wort hat nur ein Word-Embedding —> aber Wörter können in verschiedenen Kontexten verschiedene Bedeutungen haben
Lösung: Kontextuelle Word Embeddings = Enthalten in Transformer

Was ist Self-Attention?

Attention Koeffizienten werden ausschließlich aus Eingabe berechnen

Worin besteht der große Vorteil eines Transformers gegenüber rekurrenten neuronalen Netzen?

Paralleles Rechnen ist möglich —> geht schneller

Was ist der wesentliche Unterschied zwischen Attention-Koeffizienten a und Gewichten w eines neuronalen Netzes?

Koeffizienten hängen von Input ab (verändern sich), Gewichte sind fest wenn sie mal gelernt sind

Woraus werden die Elemente q,k,v im Self-Attention Block, woraus im Encoder - Decoder - Block berechnet?

Self Attention:
- Queries, Keys, Values aus Ausgabe der vorigen Schicht
Encoder-Decoder-Attention:
- Keys und Values aus Ausgabe des Encoder-Stacks, Queries aus der vorigen Schicht

Was bringt Multihead-Attention?

Unterschiedliche Bedeutung in unterschiedlichen Kontexten
Kann einem paar von Wörtern verschiedene Repräsentationen/Bedeutungen zuweisen je nach Kontext/Reihenfolge/…

Warum braucht es Positional Encoding?

Problem: Eingaben werden nicht geordnet verarbeitet → Reihenfolge der Worte werden nicht beachtet
Lösung: Positional Encoding

Aus welchen Blöcken besteht ein Encoder-Block eines Transformer?

aus einem Self-attention, einem Feed Forward Block, Normalisierung und shortcut

Was ist ein Masked Language Model (MLM)?

einzelne in der Eingabe maskierte Worte in der Ausgabe vorhersagen

Wie wird BERT vortrainiert?

—> auf ungelabelten Daten durch MLM und next sentence Prediction

Wie wird BERT für Klassifikationsaufgaben angepasst?

Vortrainiertes BERT Modell
Klassifikations Layer auf Transformer Ausgabe geben

Was bringt BERT ohne Fine-Tuning?

gute Kontext Word-Embeddings

BERT und GPT-x sind Transformer: Worin besteht der wesentliche architektonische Unterschied?

BERT ist nur ein Encoder
GPT nur Decoder ist

Wie wird in GPT-3 Few Shot, wie Zero Shot umgesetzt? Was ist der wesentliche Unterschied zu Fine-Tuning (wie z.B in BERT eingesetzt)?

few shot —> Task und Beispiele zusätzlich in Eingabe
zero shot —> Task zusätzlich in Eingabe

Join Course

Preview

Author

Leiii P.

Information

Last changed
2 months ago

Report course