Checkerfragen (ausversehen kopiert)

Buffl

Machine Learning

by Leiii P.

Was ist Self-Supervised-Learning?

wird bei korrelierenden nicht gelabelten Daten verwendet
Feature Extractor kann zur Vorhersage anderer neuer Daten verwendet werden

Welcher generative Klassifizierer ist extrem weit verbreitet?

Naive Bayes Classifier

—> Anwendung häufig in Dokument Classification

Inwiefern steckt Regularisierung in der SVM?

SVM minimiert die Gewichte des zu lernenden Modells.

Was kann unüberwacht gelernt werden?

Unsupervised Learning —> lernen ohne gelabelte Trainingsdaten

Zusammenhänge/Ähnlichkeiten zwischen Instanzen (Clustering)
Assoziationen zwischen den Spalten (Merkmale/Features —> Mustererkennung)

Wie könnte eine untere Vergleichsbaseline ausssehen für

ein Klassifikationsmodell
ein Regressionsmodell
eine Zeitreihenvorhersage

Klassifikationsmodell
- Auswahl der am häufigsten vorkommenden Klasse
Regressionsmodell
- Vorhersage des Durchschnitts
Zeitreihenvorhersage
- Vorhersage des letzten Werts

Wann sollte Bayessche Klassifikation nicht angewandt werden?

wenn die Annahme über die Verteilung der Daten auf die Klassen nicht zutreffend ist

—> kein Verteilungsfunktionstyp gefunden, der die Daten gut annähert

Wie unterscheiden sich die Klassengrenzen eines linearen und eines logistischen Diskriminators, wenn beide durch die gleichen Parameter wi definiert werden?

Klassengrenzen sind gleich

—> Unterschied: Logistischer Diskriminator gibt Zuverlässigkeitswert aus

Eine Bäckereikette will für jede Filiale den Verbrauch der einzelnen Backwaren pro Tag vorhersagen, was ist

Task T
Performance Measure P
Experience E

Task T = Was soll das System erreichen?
—> Schätzung der Verkaufszahl pro Filiale und Tag und pro Produktkategorie (Brezeln, Tafelbrötchen, …)
Performance Measure P = Wann sind die Ergebnisse des Systems zielführend?
—> Backwaren, die weggeworfen werden (+ fehlende Backwaren) MAE (Mean Absolute Error) = Absolute Differenz zwischen Vorhersage und tatsächlichem Verkauf
Experience E = —> Wochentag, Monat, Filiale (Adresse, Nähe zu Straßen, Bevölkerungsdichte, …), historische Verkaufszahlen, Ort, Durchschnittseinkommen, Preise der Backwaren

Was versteht man unter Kernel-Trick?

Kernel-Funktion liefert das gleiche Ergebnis wie das Skalarprodukt im hochdimensionalen Raum

—> Daten müssen aber nicht in den hochdimensionalen Raum transformiert werden

Worin unterscheiden sich diskriminative und generative Modelle? Was wird beim diskriminativen Klassifikator gelernt, was beim generativen Klassifikator?

Generative Modelle
- lernen klassenspezifische Verteilungsfunktion (Likelihood)
- Annahme über Typ der Verteilungsfunktion
- Lernen der zugehörigen Parameter
Diskriminative Modelle
- lernen der Klassengrenze
- Annahme über Verlauf der Klassengrenzen
- Lerne die Parameter für diesen Klassengrenzen-Typ

Was ist das Prinzip der generativen Klassifizierer?

Prinzip: versucht Klassenwahrscheinlichkeiten zu modellieren, nicht die Klassengrenzen
Klassenspezifische Verteilungsfunktion wird gelernt —> daraus können neue Daten generiert werden

Annahme eines Typs (z.B. Gauss-Verteilung)
Schätzung der Parameter dieses Typs aus den Daten (z.B. Gauss-Varianz und Mittelwert)

Nach welchen “Variablen” werden beim maschinellen Lernen Fehlerfunktionen abgeleitet?

nach den Gewichten w —> für jedes Gewicht wird die partielle Ableitung bestimmt

Wann hat ein Modell zu viel Bias?

Underfitting —> zu starke Einschränkungen der Klassengrenzen

Wie verhält sich GP Regression in den Bereichen, in denen keine Trainingsdaten zur Verfügung stehen?

Unsicherheiten werden größer, je weiter man von den Trainingsdaten entfernt ist
Schätzwerte nähern sich der Mittelwertsfunktion

Von welchen Faktoren hängt die notwendige Anzahl der Trainingsdaten ab?

Varianz der Daten
Komplexität des Modells
Dimension der Eingabedaten (Anzahl der Merkmale)
Anzahl der lernbaren Parameter (exponentielles Wachstum bei den Trainingsdaten)

Wie kann mit linearer Regression eine quadratische (oder beliebigen Grades) Funktion gelernt werden?

Trainingsdaten werden nicht in ihrer ursprünglichen Form verwendet —> Grad des Eingabemerkmals wird erhöht (quadriert)

Wann sollte lineare Regression nicht angewandt werden? Welche Algorithmen bieten sich dann als Alternative an?

sobald das Rauschen nicht gaussverteilt ist (viele Ausreißer)
Alternative:
- SVM (Support Vector Maschine)

Wie kann im K-NN die Gefahr des Overfitting reduziert werden?

k wird erhöht

—> je höher k desto geringer die Gefahr für Overfitting

—> k nicht zu hoch (rechenintensiv, Laufzeit)

Nennen Sie einen Grund für einen irreduziblen Fehler?

Latente (verborgene) Daten

Nennen Sie 3 wesentliche Vorteil von GP Regression im Vergleich zu anderen Regressionsverfahren?

Können Konfidenzen (Sicherheiten) für Schätzungen berechnen
Können korreliertes Rauschen abbilden
Durch Mittelwerts- und Kovarianz-Funktion kann Domänenwissen erlangt werden

Wie klassifiziert ein K-NN Classifier neue Datensätze?

für ein neues Element werden die k nächsten Nachbarn in den Trainingsdaten bestimmt
es wird sich für die Klasse entschieden, die in der Menge der k nächsten Nachbarn am häufigsten vorkommt

Wann hat ein Modell zu viel Variance?

Overfitting —> Modell lernt Trainingsdaten zu genau und spezifisch

Was versteht man unter “Curse of Dimensionality”?

Wenn Anzahl der Lernbaren Parameter linear zunimmt nimmt die Anzahl der benötigten Trainingsdaten exponentiell zu

Was ist induktives Schließen? Was ist ein Modell?

aus einzelnen Beobachtungen wird ein allgemeiner Zusammenhang gelernt (aus Beispielen einer Stichprobe wird ein allgemeiner Zusammenhang (=Modell) gelernt)
Training —> Induktion, Anwendung —> Deduktion
Modell = allgemeiner Zusammenhang
- Funktion, die eine Eingabe auf die Ausgabe abbildet (Abbildung wird gelernt)
- Resultat des Lernens beim Machine Learning

Wie kann mit diskriminativen Verfahren Zuverlässigkeitsinformation in Form der a-posteriori Wahrscheinlichkeit mit ausgegeben werden?

durch Verwenden der Sigmoid/Softmax-Aktivierungsfunktion

In welcher Form werden die Daten für das maschinelle Lernen in der Regel strukturiert?

2D-Matrix (Tabellen) mit Daten in numerischer Form

—> Zeilen = Instanzen

—> Spalten = Merkmale

Warum ist die Evaluation von unüberwacht gelernten Modellen schwierig?

es ist kein Expertenwissen/Sollausgabe gegeben

—> man weiß nicht ob die gemachten Zuordnungen sinnvoll sind

Allgemein ML: Welchen Beitrag liefert der Mensch, welchen der Lernalgorithmus?

Mensch
- Wissen/Schätzen, welcher Typ der Klassengrenze/Verteilungsfunktion angenommen werden soll
Lernalgorithmus
- lernt die Parameter

Inwiefern kann man in einen Gaußprozess Domänenwissen einfließen lassen?

durch vorgeben von Mittelwertsfunktion und Kovarianzfunktion (enthalten Domänenwissen)

Domänen-Wissen/Prior-Information: Der grobe Verlauf der Daten und deren Korrelationen untereinander sind bekannt.

Welche grobe Architekturunterteilung lässt sich aus diesem Ziel ableiten?

Feature Extractor und Classifier/Regression Model

Welche zusätzliche funktionale Eigenschaft bietet ein Variational Autoencoder (VAE), die der eigentliche Autoencoder nicht bietet

VAE ist ein generatives Modell und kann von den Kategorien, die im Training waren, neue Objekte erstellen

Was ist bei der Auswahl der Neuronenzahl in der verborgenen Schicht zu beachten?

Anzahl in den Hidden Layern nicht genau bestimmbar (nur bei Ein- und Ausgabeneuronen)
zu wenig Neuronen:
- einfache Funktionen
- generalisieren besser
zu viele Neuronen:
- kann komplexere Modelle lernen
- benötigt mehr Trainingsdaten für robustes Modell (mehr Parameter lernen)
- erhöhte Gefahr von Overfitting

Welches Ziel liegt den meisten tiefen neuronalen Netzen, insbesondere den CNNs, zugrunde?

bedeutungsvolle Merkmale extrahieren (im Feature Extractor)
informative Merkmale werden z.B. an Classifier weitergegeben —> bessere Performance
CNN lernt selbst die wichtigsten Features (muss nich vorgegeben werden)

Wann sollten eher herkömmliche ML-Methoden eingesetzt werden?

wenn keine Zusammenhänge zwischen den Eingabedaten bestehen
wenn nur wenige Trainingsdaten vorhanden sind

Warum ist die Ausgabe in der mittleren Schicht (latente Repräsentation) ein guter Featurevektor?

Weil er alle relevanten Informationen beinhaltet. Wir wissen, dass es so ist weil sonst nicht das Original rekonstruiert werden kann.

Warum müssen die Daten bevor sie auf ein neuronales Netz gegeben werden standardisiert (normalisiert) werden?

bei nicht standardisierten Daten würden die Gewichte falsch eingestellt werden —> primär auf Merkmale mit hohen Werten gewichtet
durch Normalisieren gehen alle Daten als gleich wichtig in die Gewichtung ein

Für die drei Fälle Regression, binäre Klassikfikation und Klassifikation in mehr als 2 Klassen:

wie viele Neuronen hat die Ausgabeschicht?
Welche Aktivierungsfunktion wird in den Neuronen der Ausgabeschicht eingestellt?
Welche Loss-Function wird im Training minimiert?

wie viele Neuronen hat die Ausgabeschicht?
- Regression: 1 Ausgabe/ 1 Output-Neuron
- binäre Klassifikation: 1 Ausgabe / 1 Output Neuron
- Klassifikation K > 2: K Ausgaben/Output Neuronen für K-Klassen (k Neuronen)
Welche Aktivierungsfunktion wird in den Neuronen der Ausgabeschicht eingestellt?
- Regression: Identity
- binäre Klassifikation: Sigmoid
- Klassifikation K > 2: Softmax
Welche Loss-Function wird im Training minimiert?
- Regression: SSE Sum of Squared Error (Quadratischer Fehler)
- binäre Klassifikation: Binäre Kreuzentropie
- Klassifikation K > 2: Kreuzentropie (Log-Loss)

Für welche Art von Daten bieten sich CNNs an (allgemein tiefe neuronale Netze)?

Bei Abhängigkeiten in der Nachbarschaft (wenn Infos aus benachbarten Daten kommen/Eingaben korreliert sind/ starke Abhängigkeit haben, z.B. Zeitreihendaten, Bilder, Text, Sprache)

Warum ist eine Komplexität proportional zur Anzahl N der Trainingsvektoren besser als eine Komplexität proportional zur Anzahl d der Dimensionen des Featureraums?

die Anzahl der Trainingsvektoren kann einfacher gesteuert werden
- Trainingsdaten können reduziert werden oder Durchführung in mehreren Schritten
die Anzahl der Dimensionen/Merkmale kann nicht gesteuert werden —> kann extrem groß sein
- besonders bei nicht-linear separablen Klassen (müssen in höher-dimensionalen Raum transformiert werden)

Wie wirkt sich die Erhöhung des Parameters Epsilon in einer SVR aus?

Wenn Epsilon erhöht wird bekommt man kleinere Gewichte, um den fehlerfreien Fall zu lernen

—> kleinere Gewichte = weniger Overfitting

Wofür können RNNs eingesetzt werden?

bei korrelierten oder sequentiellen Daten (Sequenzen)
können tieferes Verständnis von Sequenzen oder Kontext ermitteln (“Gedächtnis”)

Welche 3 Gates werden im LSTM unterschieden?

Forget-Gate:
- was aus dem Langzeitgedächtnis entfernt wird
Update-Gate:
- neue Aufnahme von Informationen ins Langzeitgedächtnis
Output-Gate:
- was aus dem Langzeitgedächtnis an die nächste Layer weitergegeben wird

Was ist “Lernen mit Kritiker”?

Reinforcement Learning

Trial und Error
nach mehreren Abfolgen/Sequenzen von Aktionen bekommt man Feedback
- Feedback nicht für einzelne Aktionen
- man weiß nicht welche Aktion was zu dem Ergebnis beigetragen hat

Wie werden RNNs belernt? Welches Problem tritt dabei bei den herkömmlichen RNNs auf?

Gradientenabstiegsverfahren (wie andere NNs auch)
bei Vanilla-RNNs: bei langen Sequenzen werden durch Gewichtsupdates weit zurückliegende Elemente wenig bis garnicht berücksichtigt —> Langzeitabhängigkeiten werden schlecht gelernt

Welche Voraussetzung muss die Fehlerfunktion erfüllen?

Fehlerfunktion muss ableitbar sein.
Fehlerfunktion muss das beschreiben, was man nicht haben möchte
SSE/MSE beschreibt Abweichung zwischen Soll- und Ist-Ausgabe.

Finden SVMs bessere Klassengrenzen als die bisher behandelten diskriminativen Modelle?

finden die optimale Klassengrenze, da die Grenze bestimmt wird, die den maximalen Abstand zu den Trainingsdaten hat und dadurch am besten generalisiert

—> ja, bisher Klassengrenze nur gut, wenn sie fehlerfrei klassifiziert

Nennen Sie 2 konkrete Anwendungen für Node-Classification

Dokumentklassifikation
Musiktitel hinsichtlich Genres klassifizieren
User hinsichtlich Gruppen klassifizieren

Wie unterscheiden sich die Annahmen hinsichtlich Noise in den Gaußprozessen im Vergleich zu anderen Regressionsverfahren?

Gauß —> korreliertes Rauschen berücksichtigt
Andere Regressionen —> Rauschen wird nicht berücksichtigt

Inwiefern haben RNNs ein Gedächtnis?

neben der aktuellen Eingabe existieren rekurrente Verbindungen
im nächsten Zeitschritt wird bei der Eingabe die Ausgabe des vorigen Zeitschritts mit einbezogen
Gedächtnis, da zuvor gesehenes in die aktuelle Ausgabe miteinbezogen wird

Was bringt Pooling?

Komplexität reduzieren
Translation Varianz —> Objekt im Bild erkennen, egal wo es ist (geht besser da räumliche Auflösung reduziert wird)

Nennen Sie 2 Anwendungskategorien von GCNs.

Graph Classification
Node Classification

Wie wird ein GAN trainiert?

Gradientenabstiegsverfahren
Phase 1: Training Discriminator
- (echte Daten mit 1 gelabelt, fake daten 0)
- Dann werden Gewichte eingefroren
Phase 2: Training Generator
- Gewichte Discriminator werden eingefroren
- Generator bekommt Noise
- Generiert Bild
- Gewichte werden angepasst so dass fake dem Label 1 also real entsprechen kann

Fake Bild wird 1 als Label vergeben

Was ist ein Sample einer multivariaten Gauß-Normalverteilung und was ist ein Sample eines Gaußprozess?

Sample einer multivariaten Gauß-Normalverteilung
- n-dimensionaler Vektor
- viele Samples ergeben mehrdimensionale Gaußverteilung
Sample eines Gaußprozess
- Funktion
- Gaußprozess ist Verteilungsfunktion

Was bringt Zeropadding im Convolutional Layer?

Größe der Feature Map kann reguliert werden —> beibehalten der ursprünglichen Größe
Ränder werden mit Nullen erweitert

Welche Layer-Typen werden in einem CNN unterschieden?

Convolution Layer —> extrahiert Features von gegebenem Input
Pooling Layer —> reduziert Komplexität (Größe der Feature Maps, ermöglicht Shift-Varianz)
Dense Layer —> voll vernetzt
Deconvolution/Transposed Convolution Layer —> umgekehrte Convolution

Welche Fehlerfunktion wird wo eingestellt?

Formel einfügen wenns mal geht hehehehe

Was ist Dropout? Wozu dient es?

pro Gewichtsanpassung schalten wir temporär eine Anzahl an Gewichten aus
Ausgabe wird auf Basis des reduzierten Netzes berechnet
In der nächsten Iteration werden andere Neuronen zufällig ausgeschalten
Wozu dient es?
- Overfitting reduzieren

Worin besteht der Unterschied zwischen Batch- und Onlinelernen?

Batch-Lernen —> Gewichtsanpassung pro ganzen Batch
Onlinelernen —> Gewichtsanpassung pro einzelnen Element

Was ist ein Fully Convolutional Network (FCN)?

Dense Layer werden durch 1x1 Convolution Layer ersetzt
Ermöglicht Eingabe von Bildern verschiedener Größe

Wie wird ein CNN trainiert?

Gradientenabstiegsverfahren (SGD) —> Minimieren der Fehlerfunktion
Anpassung der Gewichte in Richtung des negativen Gradienten der Fehlerfunktion

Worin besteht das allgemeine Prinzip der Gradient Descent Lernverfahren?

Ziel: minimieren der Fehlerfunktion

Fehlerfunktion in Abhängigkeit von unseren Gewichten aufstellen
Fehlerfunktion nach allen Gewichten ableiten
Gradient = alle Ableitungen als Vektor
Negativer Gradient zeigt immer in die Richtung des stetigen Abstiegs
Anpassung der Gewichte entlang des negativen Gradienten
Somit wird die Fehlerfunktion immer kleiner bis das Lernziel erreicht wird

Was versteht man unter Regularisierung? Was wird damit erreicht?

Regularisierung —> Minimierung der Gewichte für smoothere Kurven

—>Overfitting wird vermieden, indem die Gewichte klein gehalten werden

Was bringt ein 1x1 Convolutional Filter in einem Inception Layer?

Komplexitätsreduktion —> Anzahl der Kanäle und damit Anzahl der Parameter verkleinern

Was ist der Nachteil der parametrischen Methoden (sowohl im engeren als auch im weiteren Sinn parametrisch)?

Nachteil parametrische Methoden:

es muss immer ein Verteilungstyp angenommen werden

—> schlechte Performance, wenn der Typ nicht der Realität entspricht

—> immer nur so gut wie die getroffene Annahme

Welche Bedeutung hat der Parameter C?

Steuerung der Anpassung an die Trainingsdaten

durch den Parameter C kann gesteuert werden, ob Minimierung der Gewichte oder Minimierung des Fehlers wichtiger ist

—>Großes C = Minimierung des Fehlers wichtiger

—> Kleines C = Minimierung der Gewichte

Warum sollten die Gewichte initial relativ klein gewählt werden?

sehr große Gewichte:
- Sättigungsbereich der Aktivierungsfunktion direkt erreicht
- es wird nichts gelernt
sehr kleine Gewichte:
- keine Auswirkung auf das Training/Lernen
Gewichte werden initial mit kleinen Zufallswerten belegt

Was haben die Trainingsdaten mit den Samples eines Gaußprozesses zu tun?

Die Trainingsdaten liegen auf einem Sample eines Gaußprozesses

—> Annahme ist, dass die Trainingsdaten auf einem konkreten Sample liegen, welches wir noch nicht kennen

Mit welchem Nachteil sind alle rekurrenten Netze (auch LSTMs, GRUs, ...) behaftet?

nicht parallelisierbar (sequentielle Abfolgen) —> sequentielle Berechnung

Was bringt eine Stepsize > 1 im Convolutional Layer?

Größe der Ausgabe wird reduziert —> Komplexität sinkt
Ausgabe (Feature Map) wird kleiner im Vergleich zur Eingabe kleiner (Faktor der Aushabe)

Mit welcher Art von Wissen tut sich die KI schwer?

Common Sense / Kausalität —> Weltwissen

Was ist Semi-Supervised-Learning?

wenige gelabelte Daten
Annahme: Daten in einem Cluster gehören zu einer Klasse
Cluster sind neue gelabelte Trainingsdaten mit denen ein Modell gelernt werden kann

Ein SLP wird für die Regression einer eindimensionalen linearen Funktion y=f(x) eingesetzt. Wie lassen sich die Funktionsparametern an den Gewichten des SLPs ablesen?

Was verändert sich wenn nicht eine lineare, sondern eine

quadratische
kubische

eindimensionale Funktion gelernt werden soll?

SLP kann nur linear separieren —> Trick: Inputs quadrieren

w0: Schnittpunkt mit der y-Achse
w1: Steigung der Geraden

Quadratische
- Ein Neuron (also ein Gewicht) mehr
Kubische
- zwei Neuronen (also zwei Gewichte) mehr

Warum sind Regression SVMs (auch: SVR) im Fall von Ausreißern besser als die lineare Regression?

die minimierte Fehlerfunktion ist dabei nicht quadratisch sondern linear

—>Fehler die innerhalb des Epsilon-Bereichs liegen (kleine Abweichungen) werden nicht gezählt

—>Größere Abweichungen zwischen Soll- und Ist-Wert gehen nicht quadratisch in die Fehlerfunktion ein

Was bringt Dilation?

bissle wie ranzoomen! (Zitat: Teresa)

große Merkmale können mit wenig Koeffizienten abgedeckt werden

Was ist Maximum-Likelihood Parameterschätzung?

Maximum-Likelihood: Wir schätzen die Parameter so, dass sie am wahrscheinlichsten die Stichprobe hervorbringen
- Annahme über den Typ der Verteilungsfunktion
- Schätzung der Parameter, so dass mit größter Wahrscheinlichkeit die gegebenen Daten rauskommen

Was ist ein Residual Block?

ein oder mehrere Layer in einem Block, die mit Shortcut Connections die Eingabe auf die Ausgabe addiert
Gelernt wird Residium (Unterschied/Differenz) zwischen Eingabe und Ausgabe

Welches Ziel wird beim Training eines Autoencoders verfolgt?

Eingabe rekonstruieren —> Ausgabe soll gleich Eingabe sein

Wie ändert sich die zu einem Knoten gehörende Information mit zunehmender Tiefe des Layers?

Sie enthält zunehmend mehr Information über weiter entfernte Nachbarn
Je tiefer man geht, desto größer die Nachbarschaft, die berücksichtigt wird

Für was wird Deconvolution eingesetzt?

Vergrößerung von Feature Maps
Anwendung:
- semantische Segmentierung
- Visualisierung der gelernten Features
- Vergrößerung der Bildauflösung (z.B. Superresolution)

Was ist Ein- und Ausgabe dieser Komponenten?

Generator:
- Eingabe: Random Noise
- Ausgabe: Fake Daten
Diskriminator:
- Eingabe: Fake Daten (vom Diskriminator) und Echte Daten
- Ausgabe: Label/ Klassenentscheidung 0 oder 1

CycleGAN: Welchen großen Vorteil bieten CycleGANs im Vergleich zu anderen Image-to-Image Translation Ansätzen?

Man benötigt keine Paare von Daten sondern nur Bilder aus beiden Domänen

Durch welche Parameter kann die Gefahr des Overfitting in einem MLP reduziert werden?

Anzahl der Hidden Neuronen klein halten —> Dropout
Regularisierung —> Gewichte verkleinern
Anzahl der Epochen —> Early Stopping

(Zusätzliche Backpropagation Parameter: Weight-Decay-Factor β

Zum ursprünglichen Fehler E wird der Term β addiert. Dadurch werden

höhere Gewichte stärker bestraft und insgesamt die Gewichte im Netz eher klein gehalten.

Dadurch wird der Lernprozess kontrollierter und ausserdem die Overfitting-Gefahr reduziert.)

Auf abstrakter Ebene: Wann kann der Einsatz von Graph Neural Networks sinnvoll sein?

Wenn die Bestimmung/Klassifikation eines Elementes nicht nur vom Element selbst abhängt, sondern auch von irgendwelchen Nachbarn. Nachbarschaftsdefinition ist dabei uns überlassen

Was sind Hyperparameter eines Gaußprozesses und wie können diese bestimmt werden?

Bestimmung durch numerische Optimierung
Hyperparameter: Die Parameter der Mittelwerts- und Kovarianzfunktion.
- Mittelwertsfunktion:
  - Typ wählen (bspw. linear, Polynom von Grad k)
- Kovarianzfunktion:
  - Varianz der multivariaten Gaußverteilung
  - Varianz des Rauschens :
  - Length-Scale : Korrelation zwischen benachbarten Werten ( groß => hohe Korrelation)

Worin besteht der Unterschied zwischen einer mehrdimensionalen Gauss-Normalverteilung und einem Gaußprozess?

Mehrdimensionale Gauß-Normalverteilung
- Diskrete Anzahl an Dimensionen (kann hoch sein, aber immer diskret)
Gaußprozess
- Dimensionen gehen gegen unendlich, hat an allen möglichen Stellen Werte. Jede endliche Teilmenge eines Gaußprozesses ist eine mehrdimensionale Gauß-Normalverteilung.
- Gaußprozesse sind semi-parametrisch. Funktion ist nicht-parametrisch, da sie aus Trainingsdaten bestimmt wird. Parametrisch deswegen, da die Hyperparameter eingestellt werden können.

Inwiefern ist ein Graph Convolutional Network (GCN) eine Verallgemeinerung eines Convolutional Neural Networks (CNN)?

GCN: freiere, flexiblere Auffassung von Nachbarschaftsbeziehungen, Mit jedem Layer in GNN fließen mehr Informationen von Nachbarn ein
CNN: räumliche Nachbarn; Nachbarschaft z.B. nur benachbarte Pixel
Bei beidem: von jedem Layer lass ich mehr Infos von den Nachbarn einfließen

Inwiefern kann ein Autoencoder als MLP verstanden werden?

Wenn nur Dense Layer ist Autoencoder ein spezielles MLP, dass symmetrische Struktur hat

Wodurch wird die Anzahl der zu lernenden Parameter in Convolutional Neural Networks (CNN) vergleichsweise gering gehalten?

keine vollständige Vernetzung —> jedes Neuron nur mit wenigen Neuronen der vorigen Schicht verbunden (so viele wie Filtergöße, rezeptive field)
Shared weights —> alle Neuronen einer Feature Map teilen Gewichte

Wie viele Ausgabeneuronen hat ein CNN?

kommt auf den Task an:

k-äre Klassifikation: k Ausgabeneuronen (Anzahl der Klassen, Softmax)
binäre Klassifikation: ein Ausgabeneuron (Sigmoid)
Regression: ein Ausgabeneuron

Worin besteht der Unterschied zwischen Stochastic Gradient Descent und Gradient Descent?

Gradient Descent (Batch-Learning): Eine Gewichtsanpassung für den gesamten Batch an Trainingsdaten.
Stochastic Gradient Descent (Online-Learning): Gewichtsanpassung pro einzelnes Trainingselement.

Wo werden die künstlich generierten Inhalte (Bilder) abgegriffen?

Am Ausgang des Generators

Was wird im Bottleneck eines VAE gemacht?

Wahrscheinlichkeitsverteilung gelernt und samplen hinsichtlich der Wahrscheinlichkeitsverteilung
Mittelwert + Varianz / Standardabweichung

Was liefert ein FCN, das für die semantische Segmentierung eingesetzt wird, in der Ausgabe?

Klassifikationsmap —> nicht nur eine Klassifikation pro Bild sondern pro Region

Aus welchen Komponenten besteht ein GAN und welche Funktion haben diese?

Generator: „Betrüger“ der Fakes erstellt / künstliche echt aussehende Daten
Diskriminator: soll Fake von echt unterscheiden

CycleGAN: Aus welchen Komponenten besteht die Loss-Funktion und welche Ziele werden mit diesen Komponenten realisiert?

Adversariale Loss Funktion (herkömmliche GAN Loss Function) für beide Domänen und dann noch Cycle Loss Function
Rekonstruktion soll dem Original entsprechen —> Cycle Loss Function Differenz der Bilder

Nennen Sie je eine RNN-Anwendung der Kategorie One-to-Many, Many-to-One, Many-to-Many

One-to-Many
- Image Captioning (Sequenzen aus einer Eingabe erzeugen)
Many-to-One
- Temperaturvorhersage
- Stimmungsanalyse
- time series prediction
- Textklassifikation
Many-to-Many
- Automatische Übersetzung

Inwiefern ist ein Autoencoder ein unsupervised ML-Verfahren

Man braucht keine gelabelten Daten für die Eingabe

Join Course

Preview

Author

Leiii P.

Information

Last changed
3 months ago

Report course