Was ist Self-Supervised-Learning?
wird bei korrelierenden nicht gelabelten Daten verwendet
Feature Extractor kann zur Vorhersage anderer neuer Daten verwendet werden
Welcher generative Klassifizierer ist extrem weit verbreitet?
Naive Bayes Classifier
—> Anwendung häufig in Dokument Classification
Inwiefern steckt Regularisierung in der SVM?
SVM minimiert die Gewichte des zu lernenden Modells.
Was kann unüberwacht gelernt werden?
Unsupervised Learning —> lernen ohne gelabelte Trainingsdaten
Zusammenhänge/Ähnlichkeiten zwischen Instanzen (Clustering)
Assoziationen zwischen den Spalten (Merkmale/Features —> Mustererkennung)
Wie könnte eine untere Vergleichsbaseline ausssehen für
ein Klassifikationsmodell
ein Regressionsmodell
eine Zeitreihenvorhersage
Klassifikationsmodell
Auswahl der am häufigsten vorkommenden Klasse
Regressionsmodell
Vorhersage des Durchschnitts
Zeitreihenvorhersage
Vorhersage des letzten Werts
Wann sollte Bayessche Klassifikation nicht angewandt werden?
wenn die Annahme über die Verteilung der Daten auf die Klassen nicht zutreffend ist
—> kein Verteilungsfunktionstyp gefunden, der die Daten gut annähert
Wie unterscheiden sich die Klassengrenzen eines linearen und eines logistischen Diskriminators, wenn beide durch die gleichen Parameter wi definiert werden?
Klassengrenzen sind gleich
—> Unterschied: Logistischer Diskriminator gibt Zuverlässigkeitswert aus
Eine Bäckereikette will für jede Filiale den Verbrauch der einzelnen Backwaren pro Tag vorhersagen, was ist
Task T
Performance Measure P
Experience E
Task T = Was soll das System erreichen?
—> Schätzung der Verkaufszahl pro Filiale und Tag und pro Produktkategorie (Brezeln, Tafelbrötchen, …)
Performance Measure P = Wann sind die Ergebnisse des Systems zielführend?
—> Backwaren, die weggeworfen werden (+ fehlende Backwaren) MAE (Mean Absolute Error) = Absolute Differenz zwischen Vorhersage und tatsächlichem Verkauf
Experience E = —> Wochentag, Monat, Filiale (Adresse, Nähe zu Straßen, Bevölkerungsdichte, …), historische Verkaufszahlen, Ort, Durchschnittseinkommen, Preise der Backwaren
Was versteht man unter Kernel-Trick?
Kernel-Funktion liefert das gleiche Ergebnis wie das Skalarprodukt im hochdimensionalen Raum
—> Daten müssen aber nicht in den hochdimensionalen Raum transformiert werden
Worin unterscheiden sich diskriminative und generative Modelle? Was wird beim diskriminativen Klassifikator gelernt, was beim generativen Klassifikator?
Generative Modelle
lernen klassenspezifische Verteilungsfunktion (Likelihood)
Annahme über Typ der Verteilungsfunktion
Lernen der zugehörigen Parameter
Diskriminative Modelle
lernen der Klassengrenze
Annahme über Verlauf der Klassengrenzen
Lerne die Parameter für diesen Klassengrenzen-Typ
Was ist das Prinzip der generativen Klassifizierer?
Prinzip: versucht Klassenwahrscheinlichkeiten zu modellieren, nicht die Klassengrenzen
Klassenspezifische Verteilungsfunktion wird gelernt —> daraus können neue Daten generiert werden
Annahme eines Typs (z.B. Gauss-Verteilung)
Schätzung der Parameter dieses Typs aus den Daten (z.B. Gauss-Varianz und Mittelwert)
Nach welchen “Variablen” werden beim maschinellen Lernen Fehlerfunktionen abgeleitet?
nach den Gewichten w —> für jedes Gewicht wird die partielle Ableitung bestimmt
Wann hat ein Modell zu viel Bias?
Underfitting —> zu starke Einschränkungen der Klassengrenzen
Wie verhält sich GP Regression in den Bereichen, in denen keine Trainingsdaten zur Verfügung stehen?
Unsicherheiten werden größer, je weiter man von den Trainingsdaten entfernt ist
Schätzwerte nähern sich der Mittelwertsfunktion
Von welchen Faktoren hängt die notwendige Anzahl der Trainingsdaten ab?
Varianz der Daten
Komplexität des Modells
Dimension der Eingabedaten (Anzahl der Merkmale)
Anzahl der lernbaren Parameter (exponentielles Wachstum bei den Trainingsdaten)
Wie kann mit linearer Regression eine quadratische (oder beliebigen Grades) Funktion gelernt werden?
Trainingsdaten werden nicht in ihrer ursprünglichen Form verwendet —> Grad des Eingabemerkmals wird erhöht (quadriert)
Wann sollte lineare Regression nicht angewandt werden? Welche Algorithmen bieten sich dann als Alternative an?
sobald das Rauschen nicht gaussverteilt ist (viele Ausreißer)
Alternative:
SVM (Support Vector Maschine)
Wie kann im K-NN die Gefahr des Overfitting reduziert werden?
k wird erhöht
—> je höher k desto geringer die Gefahr für Overfitting
—> k nicht zu hoch (rechenintensiv, Laufzeit)
Nennen Sie einen Grund für einen irreduziblen Fehler?
Latente (verborgene) Daten
Nennen Sie 3 wesentliche Vorteil von GP Regression im Vergleich zu anderen Regressionsverfahren?
Können Konfidenzen (Sicherheiten) für Schätzungen berechnen
Können korreliertes Rauschen abbilden
Durch Mittelwerts- und Kovarianz-Funktion kann Domänenwissen erlangt werden
Wie klassifiziert ein K-NN Classifier neue Datensätze?
für ein neues Element werden die k nächsten Nachbarn in den Trainingsdaten bestimmt
es wird sich für die Klasse entschieden, die in der Menge der k nächsten Nachbarn am häufigsten vorkommt
Wann hat ein Modell zu viel Variance?
Overfitting —> Modell lernt Trainingsdaten zu genau und spezifisch
Was versteht man unter “Curse of Dimensionality”?
Wenn Anzahl der Lernbaren Parameter linear zunimmt nimmt die Anzahl der benötigten Trainingsdaten exponentiell zu
Was ist induktives Schließen? Was ist ein Modell?
aus einzelnen Beobachtungen wird ein allgemeiner Zusammenhang gelernt (aus Beispielen einer Stichprobe wird ein allgemeiner Zusammenhang (=Modell) gelernt)
Training —> Induktion, Anwendung —> Deduktion
Modell = allgemeiner Zusammenhang
Funktion, die eine Eingabe auf die Ausgabe abbildet (Abbildung wird gelernt)
Resultat des Lernens beim Machine Learning
Wie kann mit diskriminativen Verfahren Zuverlässigkeitsinformation in Form der a-posteriori Wahrscheinlichkeit mit ausgegeben werden?
durch Verwenden der Sigmoid/Softmax-Aktivierungsfunktion
In welcher Form werden die Daten für das maschinelle Lernen in der Regel strukturiert?
2D-Matrix (Tabellen) mit Daten in numerischer Form
—> Zeilen = Instanzen
—> Spalten = Merkmale
Warum ist die Evaluation von unüberwacht gelernten Modellen schwierig?
es ist kein Expertenwissen/Sollausgabe gegeben
—> man weiß nicht ob die gemachten Zuordnungen sinnvoll sind
Allgemein ML: Welchen Beitrag liefert der Mensch, welchen der Lernalgorithmus?
Mensch
Wissen/Schätzen, welcher Typ der Klassengrenze/Verteilungsfunktion angenommen werden soll
Lernalgorithmus
lernt die Parameter
Inwiefern kann man in einen Gaußprozess Domänenwissen einfließen lassen?
durch vorgeben von Mittelwertsfunktion und Kovarianzfunktion (enthalten Domänenwissen)
Domänen-Wissen/Prior-Information: Der grobe Verlauf der Daten und deren Korrelationen untereinander sind bekannt.
Welche grobe Architekturunterteilung lässt sich aus diesem Ziel ableiten?
Feature Extractor und Classifier/Regression Model
Welche zusätzliche funktionale Eigenschaft bietet ein Variational Autoencoder (VAE), die der eigentliche Autoencoder nicht bietet
VAE ist ein generatives Modell und kann von den Kategorien, die im Training waren, neue Objekte erstellen
Was ist bei der Auswahl der Neuronenzahl in der verborgenen Schicht zu beachten?
Anzahl in den Hidden Layern nicht genau bestimmbar (nur bei Ein- und Ausgabeneuronen)
zu wenig Neuronen:
einfache Funktionen
generalisieren besser
zu viele Neuronen:
kann komplexere Modelle lernen
benötigt mehr Trainingsdaten für robustes Modell (mehr Parameter lernen)
erhöhte Gefahr von Overfitting
Welches Ziel liegt den meisten tiefen neuronalen Netzen, insbesondere den CNNs, zugrunde?
bedeutungsvolle Merkmale extrahieren (im Feature Extractor)
informative Merkmale werden z.B. an Classifier weitergegeben —> bessere Performance
CNN lernt selbst die wichtigsten Features (muss nich vorgegeben werden)
Wann sollten eher herkömmliche ML-Methoden eingesetzt werden?
wenn keine Zusammenhänge zwischen den Eingabedaten bestehen
wenn nur wenige Trainingsdaten vorhanden sind
Warum ist die Ausgabe in der mittleren Schicht (latente Repräsentation) ein guter Featurevektor?
Weil er alle relevanten Informationen beinhaltet. Wir wissen, dass es so ist weil sonst nicht das Original rekonstruiert werden kann.
Warum müssen die Daten bevor sie auf ein neuronales Netz gegeben werden standardisiert (normalisiert) werden?
bei nicht standardisierten Daten würden die Gewichte falsch eingestellt werden —> primär auf Merkmale mit hohen Werten gewichtet
durch Normalisieren gehen alle Daten als gleich wichtig in die Gewichtung ein
Für die drei Fälle Regression, binäre Klassikfikation und Klassifikation in mehr als 2 Klassen:
wie viele Neuronen hat die Ausgabeschicht?
Welche Aktivierungsfunktion wird in den Neuronen der Ausgabeschicht eingestellt?
Welche Loss-Function wird im Training minimiert?
Regression: 1 Ausgabe/ 1 Output-Neuron
binäre Klassifikation: 1 Ausgabe / 1 Output Neuron
Klassifikation K > 2: K Ausgaben/Output Neuronen für K-Klassen (k Neuronen)
Regression: Identity
binäre Klassifikation: Sigmoid
Klassifikation K > 2: Softmax
Regression: SSE Sum of Squared Error (Quadratischer Fehler)
binäre Klassifikation: Binäre Kreuzentropie
Klassifikation K > 2: Kreuzentropie (Log-Loss)
Für welche Art von Daten bieten sich CNNs an (allgemein tiefe neuronale Netze)?
Bei Abhängigkeiten in der Nachbarschaft (wenn Infos aus benachbarten Daten kommen/Eingaben korreliert sind/ starke Abhängigkeit haben, z.B. Zeitreihendaten, Bilder, Text, Sprache)
Warum ist eine Komplexität proportional zur Anzahl N der Trainingsvektoren besser als eine Komplexität proportional zur Anzahl d der Dimensionen des Featureraums?
die Anzahl der Trainingsvektoren kann einfacher gesteuert werden
Trainingsdaten können reduziert werden oder Durchführung in mehreren Schritten
die Anzahl der Dimensionen/Merkmale kann nicht gesteuert werden —> kann extrem groß sein
besonders bei nicht-linear separablen Klassen (müssen in höher-dimensionalen Raum transformiert werden)
Wie wirkt sich die Erhöhung des Parameters Epsilon in einer SVR aus?
Wenn Epsilon erhöht wird bekommt man kleinere Gewichte, um den fehlerfreien Fall zu lernen
—> kleinere Gewichte = weniger Overfitting
Wofür können RNNs eingesetzt werden?
bei korrelierten oder sequentiellen Daten (Sequenzen)
können tieferes Verständnis von Sequenzen oder Kontext ermitteln (“Gedächtnis”)
Welche 3 Gates werden im LSTM unterschieden?
Forget-Gate:
was aus dem Langzeitgedächtnis entfernt wird
Update-Gate:
neue Aufnahme von Informationen ins Langzeitgedächtnis
Output-Gate:
was aus dem Langzeitgedächtnis an die nächste Layer weitergegeben wird
Was ist “Lernen mit Kritiker”?
Reinforcement Learning
Trial und Error
nach mehreren Abfolgen/Sequenzen von Aktionen bekommt man Feedback
Feedback nicht für einzelne Aktionen
man weiß nicht welche Aktion was zu dem Ergebnis beigetragen hat
Wie werden RNNs belernt? Welches Problem tritt dabei bei den herkömmlichen RNNs auf?
Gradientenabstiegsverfahren (wie andere NNs auch)
bei Vanilla-RNNs: bei langen Sequenzen werden durch Gewichtsupdates weit zurückliegende Elemente wenig bis garnicht berücksichtigt —> Langzeitabhängigkeiten werden schlecht gelernt
Welche Voraussetzung muss die Fehlerfunktion erfüllen?
Fehlerfunktion muss ableitbar sein.
Fehlerfunktion muss das beschreiben, was man nicht haben möchte
SSE/MSE beschreibt Abweichung zwischen Soll- und Ist-Ausgabe.
Finden SVMs bessere Klassengrenzen als die bisher behandelten diskriminativen Modelle?
finden die optimale Klassengrenze, da die Grenze bestimmt wird, die den maximalen Abstand zu den Trainingsdaten hat und dadurch am besten generalisiert
—> ja, bisher Klassengrenze nur gut, wenn sie fehlerfrei klassifiziert
Nennen Sie 2 konkrete Anwendungen für Node-Classification
Dokumentklassifikation
Musiktitel hinsichtlich Genres klassifizieren
User hinsichtlich Gruppen klassifizieren
Wie unterscheiden sich die Annahmen hinsichtlich Noise in den Gaußprozessen im Vergleich zu anderen Regressionsverfahren?
Gauß —> korreliertes Rauschen berücksichtigt
Andere Regressionen —> Rauschen wird nicht berücksichtigt
Inwiefern haben RNNs ein Gedächtnis?
neben der aktuellen Eingabe existieren rekurrente Verbindungen
im nächsten Zeitschritt wird bei der Eingabe die Ausgabe des vorigen Zeitschritts mit einbezogen
Gedächtnis, da zuvor gesehenes in die aktuelle Ausgabe miteinbezogen wird
Was bringt Pooling?
Komplexität reduzieren
Translation Varianz —> Objekt im Bild erkennen, egal wo es ist (geht besser da räumliche Auflösung reduziert wird)
Nennen Sie 2 Anwendungskategorien von GCNs.
Graph Classification
Node Classification
Wie wird ein GAN trainiert?
Gradientenabstiegsverfahren
Phase 1: Training Discriminator
(echte Daten mit 1 gelabelt, fake daten 0)
Dann werden Gewichte eingefroren
Phase 2: Training Generator
Gewichte Discriminator werden eingefroren
Generator bekommt Noise
Generiert Bild
Gewichte werden angepasst so dass fake dem Label 1 also real entsprechen kann
Fake Bild wird 1 als Label vergeben
Was ist ein Sample einer multivariaten Gauß-Normalverteilung und was ist ein Sample eines Gaußprozess?
Sample einer multivariaten Gauß-Normalverteilung
n-dimensionaler Vektor
viele Samples ergeben mehrdimensionale Gaußverteilung
Sample eines Gaußprozess
Funktion
Gaußprozess ist Verteilungsfunktion
Was bringt Zeropadding im Convolutional Layer?
Größe der Feature Map kann reguliert werden —> beibehalten der ursprünglichen Größe
Ränder werden mit Nullen erweitert
Welche Layer-Typen werden in einem CNN unterschieden?
Convolution Layer —> extrahiert Features von gegebenem Input
Pooling Layer —> reduziert Komplexität (Größe der Feature Maps, ermöglicht Shift-Varianz)
Dense Layer —> voll vernetzt
Deconvolution/Transposed Convolution Layer —> umgekehrte Convolution
Welche Fehlerfunktion wird wo eingestellt?
Formel einfügen wenns mal geht hehehehe
Was ist Dropout? Wozu dient es?
pro Gewichtsanpassung schalten wir temporär eine Anzahl an Gewichten aus
Ausgabe wird auf Basis des reduzierten Netzes berechnet
In der nächsten Iteration werden andere Neuronen zufällig ausgeschalten
Wozu dient es?
Overfitting reduzieren
Worin besteht der Unterschied zwischen Batch- und Onlinelernen?
Batch-Lernen —> Gewichtsanpassung pro ganzen Batch
Onlinelernen —> Gewichtsanpassung pro einzelnen Element
Was ist ein Fully Convolutional Network (FCN)?
Dense Layer werden durch 1x1 Convolution Layer ersetzt
Ermöglicht Eingabe von Bildern verschiedener Größe
Wie wird ein CNN trainiert?
Gradientenabstiegsverfahren (SGD) —> Minimieren der Fehlerfunktion
Anpassung der Gewichte in Richtung des negativen Gradienten der Fehlerfunktion
Worin besteht das allgemeine Prinzip der Gradient Descent Lernverfahren?
Ziel: minimieren der Fehlerfunktion
Fehlerfunktion in Abhängigkeit von unseren Gewichten aufstellen
Fehlerfunktion nach allen Gewichten ableiten
Gradient = alle Ableitungen als Vektor
Negativer Gradient zeigt immer in die Richtung des stetigen Abstiegs
Anpassung der Gewichte entlang des negativen Gradienten
Somit wird die Fehlerfunktion immer kleiner bis das Lernziel erreicht wird
Was versteht man unter Regularisierung? Was wird damit erreicht?
Regularisierung —> Minimierung der Gewichte für smoothere Kurven
—>Overfitting wird vermieden, indem die Gewichte klein gehalten werden
Was bringt ein 1x1 Convolutional Filter in einem Inception Layer?
Komplexitätsreduktion —> Anzahl der Kanäle und damit Anzahl der Parameter verkleinern
Was ist der Nachteil der parametrischen Methoden (sowohl im engeren als auch im weiteren Sinn parametrisch)?
Nachteil parametrische Methoden:
es muss immer ein Verteilungstyp angenommen werden
—> schlechte Performance, wenn der Typ nicht der Realität entspricht
—> immer nur so gut wie die getroffene Annahme
Welche Bedeutung hat der Parameter C?
Steuerung der Anpassung an die Trainingsdaten
durch den Parameter C kann gesteuert werden, ob Minimierung der Gewichte oder Minimierung des Fehlers wichtiger ist
—>Großes C = Minimierung des Fehlers wichtiger
—> Kleines C = Minimierung der Gewichte
Warum sollten die Gewichte initial relativ klein gewählt werden?
sehr große Gewichte:
Sättigungsbereich der Aktivierungsfunktion direkt erreicht
es wird nichts gelernt
sehr kleine Gewichte:
keine Auswirkung auf das Training/Lernen
Gewichte werden initial mit kleinen Zufallswerten belegt
Was haben die Trainingsdaten mit den Samples eines Gaußprozesses zu tun?
Die Trainingsdaten liegen auf einem Sample eines Gaußprozesses
—> Annahme ist, dass die Trainingsdaten auf einem konkreten Sample liegen, welches wir noch nicht kennen
Mit welchem Nachteil sind alle rekurrenten Netze (auch LSTMs, GRUs, ...) behaftet?
nicht parallelisierbar (sequentielle Abfolgen) —> sequentielle Berechnung
Was bringt eine Stepsize > 1 im Convolutional Layer?
Größe der Ausgabe wird reduziert —> Komplexität sinkt
Ausgabe (Feature Map) wird kleiner im Vergleich zur Eingabe kleiner (Faktor der Aushabe)
Mit welcher Art von Wissen tut sich die KI schwer?
Common Sense / Kausalität —> Weltwissen
Was ist Semi-Supervised-Learning?
wenige gelabelte Daten
Annahme: Daten in einem Cluster gehören zu einer Klasse
Cluster sind neue gelabelte Trainingsdaten mit denen ein Modell gelernt werden kann
Ein SLP wird für die Regression einer eindimensionalen linearen Funktion y=f(x) eingesetzt. Wie lassen sich die Funktionsparametern an den Gewichten des SLPs ablesen?
Was verändert sich wenn nicht eine lineare, sondern eine
quadratische
kubische
eindimensionale Funktion gelernt werden soll?
SLP kann nur linear separieren —> Trick: Inputs quadrieren
w0: Schnittpunkt mit der y-Achse
w1: Steigung der Geraden
Quadratische
Ein Neuron (also ein Gewicht) mehr
Kubische
zwei Neuronen (also zwei Gewichte) mehr
Warum sind Regression SVMs (auch: SVR) im Fall von Ausreißern besser als die lineare Regression?
die minimierte Fehlerfunktion ist dabei nicht quadratisch sondern linear
—>Fehler die innerhalb des Epsilon-Bereichs liegen (kleine Abweichungen) werden nicht gezählt
—>Größere Abweichungen zwischen Soll- und Ist-Wert gehen nicht quadratisch in die Fehlerfunktion ein
Was bringt Dilation?
bissle wie ranzoomen! (Zitat: Teresa)
große Merkmale können mit wenig Koeffizienten abgedeckt werden
Was ist Maximum-Likelihood Parameterschätzung?
Maximum-Likelihood: Wir schätzen die Parameter so, dass sie am wahrscheinlichsten die Stichprobe hervorbringen
Annahme über den Typ der Verteilungsfunktion
Schätzung der Parameter, so dass mit größter Wahrscheinlichkeit die gegebenen Daten rauskommen
Was ist ein Residual Block?
ein oder mehrere Layer in einem Block, die mit Shortcut Connections die Eingabe auf die Ausgabe addiert
Gelernt wird Residium (Unterschied/Differenz) zwischen Eingabe und Ausgabe
Welches Ziel wird beim Training eines Autoencoders verfolgt?
Eingabe rekonstruieren —> Ausgabe soll gleich Eingabe sein
Wie ändert sich die zu einem Knoten gehörende Information mit zunehmender Tiefe des Layers?
Sie enthält zunehmend mehr Information über weiter entfernte Nachbarn
Je tiefer man geht, desto größer die Nachbarschaft, die berücksichtigt wird
Für was wird Deconvolution eingesetzt?
Vergrößerung von Feature Maps
Anwendung:
semantische Segmentierung
Visualisierung der gelernten Features
Vergrößerung der Bildauflösung (z.B. Superresolution)
Was ist Ein- und Ausgabe dieser Komponenten?
Generator:
Eingabe: Random Noise
Ausgabe: Fake Daten
Diskriminator:
Eingabe: Fake Daten (vom Diskriminator) und Echte Daten
Ausgabe: Label/ Klassenentscheidung 0 oder 1
CycleGAN: Welchen großen Vorteil bieten CycleGANs im Vergleich zu anderen Image-to-Image Translation Ansätzen?
Man benötigt keine Paare von Daten sondern nur Bilder aus beiden Domänen
Durch welche Parameter kann die Gefahr des Overfitting in einem MLP reduziert werden?
Anzahl der Hidden Neuronen klein halten —> Dropout
Regularisierung —> Gewichte verkleinern
Anzahl der Epochen —> Early Stopping
(Zusätzliche Backpropagation Parameter: Weight-Decay-Factor β
Zum ursprünglichen Fehler E wird der Term β addiert. Dadurch werden
höhere Gewichte stärker bestraft und insgesamt die Gewichte im Netz eher klein gehalten.
Dadurch wird der Lernprozess kontrollierter und ausserdem die Overfitting-Gefahr reduziert.)
Auf abstrakter Ebene: Wann kann der Einsatz von Graph Neural Networks sinnvoll sein?
Wenn die Bestimmung/Klassifikation eines Elementes nicht nur vom Element selbst abhängt, sondern auch von irgendwelchen Nachbarn. Nachbarschaftsdefinition ist dabei uns überlassen
Was sind Hyperparameter eines Gaußprozesses und wie können diese bestimmt werden?
Bestimmung durch numerische Optimierung
Hyperparameter: Die Parameter der Mittelwerts- und Kovarianzfunktion.
Mittelwertsfunktion:
Typ wählen (bspw. linear, Polynom von Grad k)
Kovarianzfunktion:
Varianz der multivariaten Gaußverteilung
Varianz des Rauschens :
Length-Scale : Korrelation zwischen benachbarten Werten ( groß => hohe Korrelation)
Worin besteht der Unterschied zwischen einer mehrdimensionalen Gauss-Normalverteilung und einem Gaußprozess?
Mehrdimensionale Gauß-Normalverteilung
Diskrete Anzahl an Dimensionen (kann hoch sein, aber immer diskret)
Gaußprozess
Dimensionen gehen gegen unendlich, hat an allen möglichen Stellen Werte. Jede endliche Teilmenge eines Gaußprozesses ist eine mehrdimensionale Gauß-Normalverteilung.
Gaußprozesse sind semi-parametrisch. Funktion ist nicht-parametrisch, da sie aus Trainingsdaten bestimmt wird. Parametrisch deswegen, da die Hyperparameter eingestellt werden können.
Inwiefern ist ein Graph Convolutional Network (GCN) eine Verallgemeinerung eines Convolutional Neural Networks (CNN)?
GCN: freiere, flexiblere Auffassung von Nachbarschaftsbeziehungen, Mit jedem Layer in GNN fließen mehr Informationen von Nachbarn ein
CNN: räumliche Nachbarn; Nachbarschaft z.B. nur benachbarte Pixel
Bei beidem: von jedem Layer lass ich mehr Infos von den Nachbarn einfließen
Inwiefern kann ein Autoencoder als MLP verstanden werden?
Wenn nur Dense Layer ist Autoencoder ein spezielles MLP, dass symmetrische Struktur hat
Wodurch wird die Anzahl der zu lernenden Parameter in Convolutional Neural Networks (CNN) vergleichsweise gering gehalten?
keine vollständige Vernetzung —> jedes Neuron nur mit wenigen Neuronen der vorigen Schicht verbunden (so viele wie Filtergöße, rezeptive field)
Shared weights —> alle Neuronen einer Feature Map teilen Gewichte
Wie viele Ausgabeneuronen hat ein CNN?
kommt auf den Task an:
k-äre Klassifikation: k Ausgabeneuronen (Anzahl der Klassen, Softmax)
binäre Klassifikation: ein Ausgabeneuron (Sigmoid)
Regression: ein Ausgabeneuron
Worin besteht der Unterschied zwischen Stochastic Gradient Descent und Gradient Descent?
Gradient Descent (Batch-Learning): Eine Gewichtsanpassung für den gesamten Batch an Trainingsdaten.
Stochastic Gradient Descent (Online-Learning): Gewichtsanpassung pro einzelnes Trainingselement.
Wo werden die künstlich generierten Inhalte (Bilder) abgegriffen?
Am Ausgang des Generators
Was wird im Bottleneck eines VAE gemacht?
Wahrscheinlichkeitsverteilung gelernt und samplen hinsichtlich der Wahrscheinlichkeitsverteilung
Mittelwert + Varianz / Standardabweichung
Was liefert ein FCN, das für die semantische Segmentierung eingesetzt wird, in der Ausgabe?
Klassifikationsmap —> nicht nur eine Klassifikation pro Bild sondern pro Region
Aus welchen Komponenten besteht ein GAN und welche Funktion haben diese?
Generator: „Betrüger“ der Fakes erstellt / künstliche echt aussehende Daten
Diskriminator: soll Fake von echt unterscheiden
CycleGAN: Aus welchen Komponenten besteht die Loss-Funktion und welche Ziele werden mit diesen Komponenten realisiert?
Adversariale Loss Funktion (herkömmliche GAN Loss Function) für beide Domänen und dann noch Cycle Loss Function
Rekonstruktion soll dem Original entsprechen —> Cycle Loss Function Differenz der Bilder
Nennen Sie je eine RNN-Anwendung der Kategorie One-to-Many, Many-to-One, Many-to-Many
One-to-Many
Image Captioning (Sequenzen aus einer Eingabe erzeugen)
Many-to-One
Temperaturvorhersage
Stimmungsanalyse
time series prediction
Textklassifikation
Many-to-Many
Automatische Übersetzung
Inwiefern ist ein Autoencoder ein unsupervised ML-Verfahren
Man braucht keine gelabelten Daten für die Eingabe
Last changed4 months ago