Frage: Was ist das Ziel eines künstlichen Neurons und welche Eigenschaften hat es?
Frage: Was ist die geometrische Interpretation eines künstlichen Neurons?
Frage: Was ist eine lineare Schicht (linear layer —> affine transformation) in neuronalen Netzwerken und was sind ihre Eigenschaften?
Da alle mathematischen Funktionen von CNNs/NNs Matrix Operationen dargstellt werden können und
GPU`s dafür optimiert sind.
Frage: Was ist das Rosenblatt Perzeptron und wie funktioniert es?
Frage: Was ist das XOR-Problem und welche Auswirkungen hatte es auf die Forschung in neuronalen Netzwerken?
Antwort:
Das XOR-Problem zeigt die Grenzen linearer Klassifikatoren wie des Perzeptrons auf.
Lineare Modelle konnten in den 50ern und 60ern einfache Klassifikationsprobleme lösen, aber das XOR-Problem, das nicht linear separierbar ist, offenbarte die Beschränkungen dieser Modelle.
Minsky und Papert wiesen in "Perceptrons" darauf hin, dass ein einzelnes Perzeptron nicht in der Lage ist, das XOR-Problem zu lösen, da seine Entscheidungskapazität auf lineare Entscheidungen beschränkt ist.
Dies führte in den 70ern zu einem Rückgang in der Forschung neuronaler Netzwerke.
Herausforderung:
XOR ist einfach (wenn entweder x1x1 oder x2x2 (aber nicht beide) den Wert 1 haben, ist die Ausgabe 1), aber es ist nicht linear lösbar, da keine einzige Gerade zwei Klassen trennen kann.
Lösungsansatz:
Nichtlineare Probleme erfordern Modelle mit höherer Kapazität, wie mehrschichtige Netzwerke oder andere nichtlineare Techniken.
Frage: Was bedeutet "Representation Matters" im Kontext von maschinellem Lernen und wie wirkt sich das auf die Lösung komplexer Probleme aus?
nennt sich feature engineering
Frage: Was ist ein einlagiges und was ist ein mehrlagiges neuronales Netzwerk?
Einlagiges neuronales Netzwerk:
Besteht aus einer einzelnen Schicht mit mehreren Units.
Verarbeitungskette: Daten -> Lineare Schicht -> Aktivierungsfunktion -> Loss-Funktion.
Mehrlagiges neuronales Netzwerk:
Besteht aus mehreren linearen Schichten mit Nichtlinearitäten dazwischen.
Beispiel: Ein Netzwerk mit zwei Schichten (eine versteckte Schicht).
Verarbeitungskette: Daten -> Lineare Schicht -> Aktivierungsfunktion -> Lineare Schicht -> Aktivierungsfunktion -> Loss-Funktion
Frage: Was besagt das Universal Approximation Theorem für neuronale Netze?
Das Universal Approximation Theorem stellt fest, dass ein neuronales Netzwerk mit mindestens einer versteckten Schicht und einer hinreichenden Anzahl von Neuronen jede stetige Funktion auf einem Hyperwürfel im RdRd mit beliebiger Genauigkeit approximieren kann, solange die Aktivierungsfunktion nichtlinear ist, wie z.B. die Sigmoid-Funktion.
Interpretation: Ein ausreichend großes zweilagiges neuronales Netzwerk kann jede glatte Funktion annähern (aber nicht exakt darstellen).
Bedeutung: Dies ist eines der wichtigsten theoretischen Ergebnisse für neuronale Netze und zeigt deren außerordentliche Flexibilität und Ausdrucksfähigkeit.
Referenz: Die theoretische Fundierung wurde in der Arbeit von George Cybenko, "Approximationen durch Superpositionen von Sigmoidal-Funktionen", dargelegt.
Frage: Sind zwei Schichten (layer) in einem neuronalen Netzwerk (NN) für alle Probleme geeignet?
Zwei-Schichten-Universalität: Theoretisch ansprechend, aber praktisch begrenzt.
Erfordert exponentiell viele Neuronen: Steigert Speicher- und Rechenbedarf.
Induktiver Bias: Komplexe Funktionen aus einfachen Funktionen zusammensetzbar.
Tiefe Netze: Kompaktere Modelle und bessere Generalisierung.
Frage: Warum wird in neuronalen Netzwerken Tiefe gegenüber Breite bevorzugt?
Geometrische Erklärung: Tiefere Netzwerke können Entscheidungsgrenzen komplexer gestalten.
Symmetrieachsen: Durch Hyperebenen in tiefen Netzwerken leichter darstellbar.
Symmetrien Ausdruck: Tiefe Modelle stellen Symmetrien einfacher dar als breite.
Lineare Regionen: Ihre Anzahl wächst exponentiell mit der Tiefe, aber nur polynomial mit der Breite.
Referenz: Guido Montúfar - "On the Number of Linear Regions of Deep Neural Networks".
Frage: Was passiert, wenn Aktivierungsfunktionen aus einem neuronalen Netzwerk entfernt werden?
Frage: Was ist die Sigmoid-Aktivierungsfunktion und welche sind ihre Vor- und Nachteile?
Frage: Was ist die Hyperbolische Tangens (tanh) Aktivierungsfunktion und welche sind ihre Vor- und Nachteile?
Frage: Was ist die ReLU (Rectified Linear Unit) Aktivierungsfunktion und welche sind ihre Vor- und Nachteile?
Frage: Was ist die LeakyReLU Aktivierungsfunktion und welche sind ihre Vor- und Nachteile?
Frage: Was ist die Softmax-Aktivierungsfunktion und welche sind ihre Vor- und Nachteile?
Frage: Was ist eine lineare Schicht (linear layer) in neuronalen Netzwerken und welche Eigenschaften hat sie?
Frage: Was ist der Gradientenabstieg und wie funktioniert er?
Frage: Was ist die Lernrate beim Gradientenabstieg und welche Auswirkungen hat sie?
Lernrate (α) bestimmt die Größe der Schritte beim Gradientenabstieg.
Zu niedrig: Viele Updates nötig, langsamer Fortschritt zum Minimum.
Optimal: Erreicht das Minimum schnell und effizient.
Zu hoch: Führt zu drastischen Updates, kann vom Minimum wegführen und divergieren.
Beispiel: Stellen Sie sich vor, Sie sind auf einem Hügel und möchten zum tiefsten Punkt gelangen:
Eine zu niedrige Lernrate ist, als würden Sie sehr kleine Schritte machen und benötigen lange, um das Tal zu erreichen.
Eine optimale Lernrate entspricht gut bemessenen Schritten, die Sie zügig ins Tal führen.
Eine zu hohe Lernrate ist wie zu große Schritte, die Sie sogar über das Ziel hinaus und auf die andere Seite des Hügels führen könnten.
Frage: Was ist ein Berechnungsgraph und wie funktioniert der Vorwärtsdurchlauf (Forward Pass) in neuronalen Netzwerken?
Frage: Was ist der Rückwärtsdurchlauf (Backward Pass) in einem neuronalen Netzwerk?
Frage: Was ist Backpropagation und wie funktioniert es?
Backpropagation ist eine effiziente Methode zur Berechnung von Gradienten in gerichteten Berechnungsgraphen.
Grundprinzip: Anwendung der Kettenregel zur Berechnung der Gradienten der Verlustfunktion bezüglich der Gewichte und Biases im Netzwerk.
Es werden Zwischenergebnisse wiederverwendet, um die Berechnungskomplexität zu verringern.
Funktion:
Gradienten werden rückwärts durch das Netzwerk propagiert, beginnend beim Verlust LL.
Reduziert die Komplexität von exponentiell auf linear für die Gradientenberechnung.
Beispiel: In einem Netzwerk mit zwei Schichten wird die Änderungsrate des Verlustes in Bezug auf die Ausgabe der letzten Schicht berechnet und dann rückwärts durch das Netzwerk geführt, um die Änderungsrate des Verlustes in Bezug auf die Gewichte und Biases jeder Schicht zu bestimmen.
Frage: Was ist Gradientenabstieg und was ist ein Nachteil dieses Verfahrens?
Gradientenabstieg ist ein Optimierungsverfahren, das die Gradienten über den gesamten Datensatz berechnet, um die Parameter eines Modells zu aktualisieren.
Der Gradient g_t wird als Durchschnitt der Gradienten für alle Beispiele im Datensatz berechnet.
Nachteil:
Sehr langsames Verfahren für große Datensätze wie ImageNet, die Millionen von Bildern enthalten können.
Berechnungen können oft nicht im Arbeitsspeicher gehalten werden und erfordern spezielle Techniken für große Datensätze.
Frage: Was ist Stochastic Gradient Descent (SGD) und welche Eigenschaften hat es?
SGD ist eine stochastische Näherung des Gradientenabstiegs, bei der Parameteraktualisierungen auf der Grundlage von Gradientenberechnungen für kleinere Datenmengen (Minibatches) statt des gesamten Datensatzes vorgenommen werden.
Eigenschaften:
Schnellere Update-Zyklen: Parameter werden nach jedem Minibatch aktualisiert.
Rechnerisch handhabbar, auch bei begrenztem Speicher (wie GPU-Speicher).
Führt Stochastizität in den Trainingsprozess ein, was zur Vermeidung lokaler Minima beitragen kann.
In der Praxis werden meist Varianten von SGD anstelle des vollständigen Gradientenabstiegs verwendet.
Beispiel: Stellen Sie sich einen großen Datensatz vor, aus dem zufällig eine kleine Menge von Beispielen (ein Minibatch) ausgewählt wird. SGD verwendet diesen Minibatch, um die Gradienten zu schätzen und die Parameter zu aktualisieren, anstatt auf die vollständige Durchsicht des gesamten Datensatzes zu warten.
Last changeda year ago