Was sind Gründe für probleme beim k means algorithmus
zu hohe dimensionalität der daten
keine kugelförmige datenanorndung
falsche initnialisierung der cluster menge
schlechter start punkt der zentroide
Erläutere den kernel trick
methode die es ermöglicht lineare klassifikatoren in einem höherdimensionalen raum zu verwenden ohne explizit die dimensionalität der eingabedaten zu erhöhren. Durch die anwendung einer kernel funktion wenrden nicht lineare beziehungen in den daten so transformiert, dass sie mit linearen methoden effektiv bearbeitet und gelöst werden können
gib zwei kernel funktionen an
dot product K(x,y)= x dot y
polynomial K(x,y)= (x dot y +c)^d
Wie verhält sich das rezeptive feld bei 1x1 kerneln.
können keine räumlichen merkmale erfasssen. diese art von kernels dient dazu die tiefe der featuremaps zu verändern indem sie lineare kombiantionen der kanäle ausführen sie sind nützlich für die durchführung von kanalreduktionen und zur steigerung der netzwerkeffizienz
vorteil von 3x3 gegenüber 7x7 kernel
durch das layern von 3x3 kernels kann ein ähnlich großes oder sogar größeres rezeptives feld abgedeckt werden jedoch mit feinerer kontrolle über die merkmalsextraktion und einer tieferen netzwerkstruktur.
Was ist das ziel von reinforcement learning
Das primäre Ziel von Reinforcement Learning (RL) ist es, eine Strategie oder einen Agenten zu entwickeln, der durch Interaktion mit seiner Umgebung lernt, eine bestimmte Aufgabe zu meistern, indem er die kumulierten Belohnungen über die Zeit maximiert. Der Agent trifft Entscheidungen, beobachtet die Konsequenzen seiner Handlungen in Form von Belohnungen oder Strafen und passt sein Verhalten an, um zukünftig höhere Belohnungen zu erzielen.
Was ist die formel für reinforcement learning
max:
was muss ein prozess erfüllen um ein markov entscheidungsprozess bezeichnet zu werden
die markov eigenschaft .. der zükünftige zustand häng ausschließlich vom aktuellen zustan und der asgewählten aktion ab, nicht von den vorherigen zuständen oder aktionen
in anderen worten die zukunft ist unabhängig von der vergangenheit gegebn den gegenwärtigen zustand
Was bedeutet modellfrei
lernen direkt aus interaktion mit der umgebung ohne ein modell der umgebung zu benötigen. agent lernt durch trial und error
Warum werden Funktionsapproximatoren (wie z.B. neuronale Netze) in RL benötigt? Geben Sie dazu auch ein kurzes Beispiel an, in dem ein Fuktionsapproximator benutzt werden muss.
Funktionsapproximatoren werden in Reinforcement Learning benötigt, um die Wertfunktionen oder die Politik (Policy) zu schätzen, insbesondere in Umgebungen mit einer sehr großen oder kontinuierlichen Zustands- und Aktionsraum, wo es nicht praktikabel oder unmöglich ist, eine Tabelle für alle möglichen Zustands-Aktions-Paare zu halten (wie es bei tabellarischen Methoden wie Q-Learning oder SARSA der Fall ist).
Ein Beispiel dafür ist das Spielen von Go oder Schach, wo die Anzahl der möglichen Zustände extrem groß ist. Ein neuronales Netzwerk als Funktionsapproximator kann genutzt werden, um eine Bewertungsfunk- tion zu schätzen, die die Qualität von Zuständen und die Wahrscheinlichkeit des Gewinnens von einem bestimmten Punkt im Spiel aus bewertet. Diese Methode wurde beispielsweise bei AlphaGo verwendet, wo ein neuronales Netz zur Bewertung der Spielbretter eingesetzt wurde.
nenne zwei vorteile von entscheidungsbäumen gegen über neuronalen netzen
interpretierbarkeit und nietrige datenanforderung
Was ist die formel für den empirischen fehler einer lernmaschine
Ldach(h0)=
Nenne vor und nachteile von bagging
reduziert die varianz
erhöht die berechnungskosten
Definition vapnik chevronik dimension
entspricht der maximalen nummer von datenpunkten welche durch eine hypothese getrennt werden können
wie funktioniert soft margin svm
inwiegern ändert sich das gewichtsupdate wenn statt einem eingabeverktor ien mini bacht mit merheren eingabevektroren für das training verwendet wird
Das Gewichtsupdate beim Training mit einem Mini-Batch statt einem einzelnen Eingabevektor ändert sich in der Weise, dass der Gradient der Verlustfunktion über alle Beispiele im Mini-Batch gemittelt wird. Statt eines stochastischen Gradientenabstiegs (SGD), bei dem die Gewichte nach jedem einzelnen Trainingsbeispiel aktualisiert werden, berechnet man beim Mini-Batch-Gradientenabstieg den Durchschnitt der Gradienten über die Größe des Mini-Batches. Dies führt zu stabileren und weniger verrauschten Updates, was in der Regel eine stabilere Konvergenz während des Trainingsprozesses ermöglicht.
Wieso werden gpus statt cpus für das training und ausführen von cnns verwendet
GPUs (Graphics Processing Units) werden statt CPUs (Central Processing Units) für das Training und Ausführen von Convolutional Neural Networks (CNNs) verwendet, weil GPUs dafür ausgelegt sind, viele parallele Operationen durchzuführen. CNNs erfordern eine große Anzahl von Matrix-Multiplikationen und anderen parallelisierbaren Operationen, die auf einer GPU effizienter ausgeführt werden können als auf einer CPU, die meist auf sequenzielle Berechnungsprozesse optimiert ist.
Heutzutage verwendet fast jedes neuronale Netz Skip-Connections. 1. In welcher Netzarchitektur wurden sie erstmalig vorgestellt? 2. Welches Problem wird durch die Verwendung von Skip-Connections umgangen? 3. Was ist die aktuelle Theorie weshalb Skip-Connections dieses Problem umgehen?
Skip-Connections wurden erstmals in der Netzwerkarchitektur der "Residual Networks" (ResNets) vorgestellt.
Optimiert die Losslandschaft.
weil die losslandschaft verbessert wird
Nennen Sie zwei Gründe, warum die Berechnung der Zustandswertfunktion für die optimale Policy V ⇤(s) rekursiv durchgeführt werden sollte, anstatt mit einer direkten Methode.
komplexität: Die direkte Lösung der Bellman-Gleichungen kann aufgrund der damit verbundenen hohen Rechenkomplexität nur für sehr kleine Probleme verwendet werden. Die Komplexität der Berechnung steigt exponentiell mit der Anzahl der Zustände, was die Anwendung auf umfangreichere Probleme unpraktikabel macht.
Iterative Methoden: Bei größeren Problemen bietet sich der Einsatz iterativer Methoden an, da sie besser skalieren und in der Praxis effektiver sind. Zu diesen Methoden gehören dynamische Programmierung, Monte- Carlo-Evaluation und Temporal-Difference-Learning. Diese Verfahren nähern sich der optimalen Lösung durch wiederholte Approximation an, was oft effizienter ist als der Versuch, eine direkte Lösung zu ermitteln.
Erläutern Sie, warum die Epsilon-Greedy-Policy für die Verbesserung der Policy in modellfreien RL-Ansätzen wichtig ist.
Die Epsilon-Greedy-Policy ist für die Verbesserung der Policy in modellfreien RL-Ansätzen wichtig, da sie einen Kompromiss zwischen der Erkundung (Exploration) und der Ausbeutung (Exploitation) ermöglicht. Durch zufälliges Auswählen einer Aktion mit einer Wahrscheinlichkeit von ε (Exploration) und die Wahl der besten bekannten Aktion mit einer Wahrscheinlichkeit von 1−ε(Exploitation) stellt die Epsilon-Greedy-Policy sicher, dass der Agent neue, potenziell bessere Strategien entdecken kann, während er gleichzeitig die bereits gesammelten Kenntnisse nutzt, um die Belohnungen zu maximieren
Begründen Sie, warum es sinnvoll ist, ein neuronales Netz zur Approximation der Zustandswertfunktion für komplexe Aufgaben, wie z.B. das autonome Fahren, zu ver- wenden.
Es ist sinnvoll, neuronale Netze zur Approximation der Zustandswertfunktion für komplexe Aufgaben wie das autonome Fahren zu verwenden, da sie in der Lage sind, hochdimensionale und nicht-lineare Muster zu erfassen, die in solchen Aufgaben häufig vorkommen. Neuronale Netze können eine große Anzahl an Zuständen und Aktionen effizient verarbeiten und sind flexibel genug, um auch bei sich ändernden Umgebungen gute Vorhersagen zu treffen. Sie sind besonders nützlich, wenn keine explizite Modellierung des Problems möglich ist oder die Zustandsräume so umfangreich sind, dass traditionelle Methoden nicht anwendbar sind.
Welches Problem lösen Random Forests im Vergleich zu Bagging, wenn Entschei- dungsbäume als Modell verwendet werden? Durch welche Modifikation des Bagging Algorithmus wird dies erreicht?
Random Forests lösen das Problem der hohen Korrelation zwischen den Modellen, die beim Bagging- Verfahren entstehen können. Beim klassischen Bagging mit Entscheidungsbäumen können die einzelnen Bäume alle Attribute der gezogenen Stichproben für ihre Entscheidungen nutzen, was zu hochkorrelierten Baummodellen führen kann. Random Forests hingegen wählen für jeden Split im Baum eine zufällige Untermenge von Attributen aus, was sicherstellt, dass die gelernten Bäume weniger korreliert sind. Jeder Baum verwendet also unterschiedliche Attributkombinationen, was die Vielfalt innerhalb des Ensembles erhöht und die allgemeine Vorhersagekraft des Modells verbessert. Diese Modifikation führt zwar zu einer erhöhten Varianz bei der Verwendung von M<N Attributen, aber die Reduktion der Varianz durch die Dekorrelation der Bäume gleicht dies aus. Der Prozess des Trainings von Random Forests umfasst das Bootstrapping, um Datensätze zu erstellen, und die Ausbildung von Modellen für jeden Datensatz mit der genannten Modifikation. Die Modelle werden dann durch Mehrheitsentscheidung oder Durchschnittsbildung ihrer Vorhersagen aggregiert.
Verfahren des maschinellen Lernens lassen sich in unterschiedliche
Kriterien einordnen. Nennen Sie zwei davon und geben Sie deren
Ausprägungen oder Abstufungen an
Lernart (Learning Type): Überwachtes Lernen (Supervised Learning):
Unüberwachtes Lernen (Unsupervised Learning): Bestärkendes Lernen (Reinforcement Learning):
Art der Ausgabe (Type of Output): Dieses Kriterium bezieht sich auf die Art der Vorhersage, die der
Algorithmus macht. Die Hauptausprägungen sind:
Klassifikation (Classification): Regression (Regression)
Definieren Sie den Begriff des induktiven Bias
Induktiver Bias bezeichnet die Menge an Annahmen oder Vorwissen, die ein Lernsystem einbezieht, um aus den
Daten zu generalisieren. Es handelt sich um die Vorliebe des Systems für bestimmte Hypothesen innerhalb des
Hypothesenraums über andere
Welche zwei Bias-Arten wurden in der Vorlesung vorgestellt?
occams razor (bevorzugt einfache hypothesen) und den abstand zwischen zwei unterschiedlichen
attributen durch die hypothese maximieren (svm)
Welche zwei entscheidenden Designentscheidungen müssen für den k-
Means festgelegt werden?
Welche Probleme können dadurch entstehen?
die anzahl der cluster und die initialisierung der zentroide.
eine falsche wahl von k oder der initialen position der zentroide kann dazu führen dass die daten unangemessen gruppiert werden.
Warum wird bei Dropout die Ausgabe der Neuronen im Training mit der
Dropoutwahrscheinlichkeit dividiert, bzw. in der Inferenz multipliziert?
Die Anpassung der Ausgabe der Neuronen während des Trainings und der Inferenz (Anwendung des trainierten Modells auf neue Daten) ist notwendig, um die Skalierung der Aktivierungswerte konsistent zu halten. Sonst hätte man für training und test unterschiedliche erwartungwerte
Bei Computer Vision Aufgaben werden heutzutage keine herkömmlichen
neuronalen Netze verwendet sondern CNNs. Nennen Sie dafür zwei
Gründe
bessere featuererkennung und parameter reduktion
Welche wesentliche Technik wurde in der ResNet-Architektur eingeführt?
Erklären Sie diese kurz
“Residual blocks“ so kann man eine identitätsfunktion lernen indem sie eingaben über sogenannte
skip connections and spätere schichten weiterleitet. hilft vanishing gradient problem zu mildern
Beschreiben Sie in einem Satz auf welche Art die SVM Daten für die
Klassifikation trennt und welches Kriterium dieser Trennung zu Grunde
liegt.
MAximierung der margin zwischen unterschiedlichen datenpunkten, wodurch eine hypeplane mit maximalem abstand zu den support verctors bestimmt wird, was zu einer robusten trennung der klassen führt.
Durch welches Modell lässt sich die Problemstellung beim Reinforcement
Learning formal darstellen? Welche vier Bestandteile werden für die
Modellierung benötigt?
Das Problem beim Reinforcement Learning lässt sich formal durch das Modell des Markov-
Entscheidungsprozesses (MDP) darstellen. Für die Modellierung werden vier Bestandteile benötigt:
Zustände (States): Beschreiben die Situationen, in denen sich der Agent befinden kann.
Aktionen (Actions): Die möglichen Handlungen, die der Agent in einem Zustand ausführen kann.
Belohnungen (Rewards): Feedback-Signale, die der Agent nach Ausführung einer Aktion in einem
Zustand erhält.
Übergangswahrscheinlichkeiten (Transition Probabilities): Die Wahrscheinlichkeiten, dass der Agent
durch Ausführung einer Aktion von einem Zustand in einen anderen übergeht.
Diese Bestandteile bilden die Grundlage, um die Interaktionen zwischen einem Agenten und seiner
Umgebung zu beschreiben und optimale Strategien zu lernen.
Erläutern Sie was der Vorteil von Reinforcement Learning mit
Funktionsapproximation z.B: durch neuronale Netze gegenüber
tabellarischem Reinforcement Learning ist.
Der Vorteil von Reinforcement Learning mit Funktionsapproximation, z.B. durch neuronale Netze,
gegenüber tabellarischem Reinforcement Learning liegt darin, dass es effektiv in hochdimensionalen
oder kontinuierlichen Zustandsräumen eingesetzt werden kann, wo eine tabellarische Darstellung
impraktikabel wäre, und es ermöglicht dem Modell, Muster und Beziehungen in den Daten zu
generalisieren, um bessere Entscheidungen zu treffen.
Was ist der wesentliche Unterschied zwischen Reinforcement Learning
und überwachtem Lernen mit Bezug auf die Fehlerberechnung?
Der wesentliche Unterschied zwischen Reinforcement Learning (RL) und überwachtem Lernen
bezüglich der Fehlerberechnung liegt darin, dass im überwachten Lernen der Fehler direkt aus der
Differenz zwischen der Vorhersage des Modells und dem tatsächlichen Label berechnet wird,
während im RL der "Fehler" durch die Belohnung signalisiert wird, die aufgrund der Aktionen des
Agenten in seiner Umgebung entsteht, und nicht direkt mit einem vorher bekannten "korrekten"
Ausgang verglichen wird.
Nennen Sie einen Vorteil und einen Nachteil des strategiebasierten
Verfahrens
Ein Vorteil des strategiebasierten Verfahrens im Kontext des Reinforcement Learning ist, dass es eine direkte
Optimierung der Strategie erlaubt, was zu effizienterem Lernen und potenziell besseren Leistungen in
komplexen Umgebungen führen kann. Ein Nachteil ist jedoch, dass diese Verfahren oft eine höhere Varianz in
den Lernprozessen aufweisen und empfindlicher gegenüber der Initialisierung und den Hyperparametern sein
können, was die Stabilität und Vorhersagbarkeit des Lernfortschritts beeinträchtigen kann.
Gegeben sind zwei unabhängige Ereignisse A und B.
Weiterhin sind 𝑃(𝐵) und 𝑃(𝐴|𝐵) bekannt.
Geben Sie 𝑃(𝐵|𝐴) sowie 𝑃(𝐴, 𝐵) im Bezug zu den bekannten Größen an.
Vereinfachen Sie so weit wie möglich.
Welche Ziele verfolgen Induktion und Deduktion? Wie erreichen Sie diese
Ziele?
Induktion zielt darauf ab, allgemeine Prinzipien oder Hypothesen aus einer Reihe von spezifischen
Beobachtungen abzuleiten. Sie ist eine erweiternde Form des Schlussfolgerns, da sie über die
gegebenen Daten hinausgeht und neue allgemeine Regeln generiert. Zum Beispiel, aus der
Beobachtung, dass „Sokrates ein Mensch ist und sterblich ist“ und „Cäsar ist ein Mensch und sterblich
ist“, könnte man induktiv folgern, dass „Alle Menschen sterblich sind“.Deduktion hingegen verwendet
allgemeine Prinzipien oder Theorien, um zu spezifischen Schlussfolgerungen zu gelangen. Sie ist
wahrheitsbewahrend, da sie von bekannten Prinzipien ausgeht und spezifische Fälle untersucht, um zu
sehen, ob diese unter die allgemeinen Prinzipien fallen. Zum Beispiel: Aus dem Prinzip „Alle Menschen
sind sterblich“ und der Information „Sokrates ist ein Mensch“ kann deduktiv geschlossen werden, dass
„Sokrates sterblich ist“.
Ausgehend von der lerntheoretischen Abschätzung des realen Fehlers; von
welchen drei Kriterien hängt der Lernerfolg einer Lernmaschine ab?
Die Mächtigkeit des Hypothesenraums, das heißt, wie gut die Hypothesen die möglichen wahren
Funktionen repräsentieren können.
Die Menge und Qualität der Trainingsdaten, die zur Verfügung stehen, um aus diesen Hypothesen zu
lernen.
Die Wahl der Lernmethode und wie gut sie die zugrundeliegende Struktur der Daten nutzen kann, um
eine Hypothese zu bilden, die den realen Fehler minimiert.
Was gilt es im Zusammenhang mit dem Dropout zu beachten, wenn das
Training abgeschlossen wurde und das Netzwerk in der Praxis eingesetzt
werden soll?
beim training durch die dropout wahrscheinlickeit p dividieren damit man nicht unterschiedliche erwartungswerte hat
Zweck: Pooling Layer aggregieren kleinere Bildbereiche in Feature Maps, normalerweise mit einer
Größe von 2x2 und einem Stride von 2.
Vorteil: Sie bieten lokale Translationsinvarianz, reduzieren die Datenmenge und benötigen keine
erlernbaren Parameter.
Zweck: Strided Convolution Filter reduzieren die Auflösung, indem sie über die Input-Daten mit einem
bestimmten Stride springen, z.B. Stride = 2 für eine Halbierung der Dimension.
Vorteil: Im Vergleich zu Pooling Layern verlieren Strided Convolution Layer weniger Informationen,
allerdings enthalten sie erlernbare Parameter, was zu langsamerem Training und Inferenz führen kann.
Die heutige Praxis verwendet oft zuerst einen Convolution Layer mit Stride = 2 und einem großen Kernel
(z.B. 7x7) für die erste Reduzierung der Auflösung.
Formulieren Sie das grundlegende Optimierungsproblem für einen Support
Vector Klassifikator. Geben Sie außerdem die Nebenbedingungen für die
Optimierung an.
Der Vorteil von Reinforcement Learning (RL) mit Funktionsapproximation, wie z.B. durch
neuronale Netze, gegenüber tabellarischem Reinforcement Learning liegt in der Fähigkeit, mit
komplexen oder hochdimensionalen Zustandsräumen umzugehen, wo eine tabellarische
Darstellung unpraktikabel wäre. Bei der Funktionsapproximation werden Wertfunktionen
approximiert, was es ermöglicht, zwischen verschiedenen Eingaben zu interpolieren und somit
eine Generalisierung über ähnliche Zustände zu erzielen. Dies ist besonders nützlich in
Situationen, in denen die Anzahl der möglichen Zustände so groß ist, dass sie nicht alle explizit
in einer Tabelle gespeichert werden können, wie es z.B. bei Bildern, Spielen mit vielen
möglichen Zuständen oder kontinuierlichen Zustandsräumen der Fall ist.
Beschreiben Sie wie ein Target Network funktioniert und welches Problem es
löst.
Ein Target Network in Reinforcement Learning ist eine Kopie des Q-Netzwerks, die seltener
aktualisiert wird als das primäre Q-Netzwerk. Dieses Konzept wird genutzt, um die
Trainingsstabilität zu erhöhen und die Korrelation zwischen den Q-Werten und den Zielwerten
zu unterbrechen. Indem das Target Network weniger häufig aktualisiert wird, wird eine
statischere Verteilung der Labels erreicht, was die Stabilität während des Trainings verbessert.
Diese Methode hilft, das Problem der sich ständig ändernden Zielwerte zu mildern, welches zu
instabilen Trainings führen kann.
Warum ist ein Strategiebasiertes Verfahren wie der REINFORCE Algorithmus
ein On-Policy Algorithmus?
Ein strategiebasiertes Verfahren wie der REINFORCE-Algorithmus ist ein On-Policy-
Algorithmus, weil es die zu evaluierende oder zu verbessernde Strategie basierend auf den
gesammelten Erfahrungen unter Verwendung der aktuellen Strategie beurteilt oder verbessert.
Das bedeutet, dass die gesammelten Daten und die daraus resultierenden Aktualisierungen der
Wertfunktionen oder Richtlinien direkt von der Strategie abhängen, die zum Sammeln der
Daten verwendet wird.
Nennen Sie einen Vorteil und einen Nachteil von strategiebasierten
Verfahren.
Ein Vorteil von strategiebasierten Verfahren im Reinforcement Learning, wie zum Beispiel dem
Temporal-Difference (TD) Learning, ist, dass sie modellfrei sind, d.h., sie benötigen kein Wissen
über den Markov-Entscheidungsprozess (MDP) und lernen direkt aus der Erfahrung. TD-
Methoden können aus unvollständigen Episoden durch Bootstrapping lernen und können
während jeder Episode lernen. Außerdem weisen sie eine geringe Varianz der Schätzungen auf,
da nur ein Zeitschritt im Vergleich zu Monte-Carlo-Methoden beprobt wird.
Ein Nachteil ist jedoch, dass eine hohe Verzerrung (Bias) der Schätzungen möglich ist, da die
Schätzungen stark von älteren Schätzungen abhängen können, die ungenau sein könnten
Keine ahnung ob das stimmt
1.b
2. Eine lernmaschine mit höherer Kapa kann komplexe muster besser erfassen und kann
flexibler an trainingsdaten angepasst werden, kann aber auch zu overfitting führen
Welche Schritte sind für das „Reduced Error Pruning“ bei
Entscheidungsbäumen nötig?
Teilen des Datensatzes in Trainings- und Validierungsdatensatz.
Trainieren des Baumes auf dem Trainingsdatensatz.
Entfernen von Blättern (Pruning) in einer Bottom-up-Weise, wenn dadurch der Fehler auf dem
Validierungsdatensatz nicht steigt.
„Je höher die VC-Dimension, umso besser kann das Netz aus einem
bestehenden Datensatz lernen, d.h. generalisieren.“ Ist diese Aussage wahr
oder falsch, begründen Sie Ihre Entscheidung.
Diese Aussage ist pauschal betrachtet falsch. Eine höhere VC-Dimension bedeutet zwar, dass ein Netz
komplexere Hypothesen lernen kann, jedoch führt dies nicht unbedingt zu einer besseren
Generalisierung. Tatsächlich kann eine zu hohe VC-Dimension zu Overfitting führen, da das Modell zu
stark an die Trainingsdaten angepasst wird und nicht mehr gut auf neue, unbekannte Daten generalisiert.
Ein optimales Modell hat eine VC-Dimension, die hoch genug ist, um die Komplexität der Daten zu
erfassen, aber auch niedrig genug, um Overfitting zu vermeiden.
Wie sehen die Filter von auf realen Bilddaten trainierten CNNs typischerweise
aus? Gibt es Unterschiede je nach Position (Tiefe) des Filters im CNN?
Beschreiben Sie diese.
Filter in CNNs, die auf reale Bilddaten trainiert wurden, sehen typischerweise in den ersten Schichten anders aus als
in tieferen Schichten. In den ersten Schichten erlernen die Filter meistens primitive Merkmale wie Kanten, Ecken und
einfache Texturen. In tieferen Schichten werden komplexere Merkmale erlernt, die aus den Kombinationen der
primitiven Merkmale bestehen. Dies können Teile von Objekten sein, wie Augen oder Räder, und in noch tieferen
Schichten ganze Objekte oder komplexe Strukturen. Die Filter in den ersten Schichten sind oft visuell interpretierbar,
während die Filter in den tieferen Schichten abstraktere Konzepte repräsentieren, die schwerer zu visualisieren und
zu interpretieren sind.
Warum besitzen CNNs weniger Parameter/Gewichte als vollvernetzte
Neuronale Netze?
noch einmal ausführlich recherchieren
CNNs besitzen weniger Parameter/Gewichte als vollvernetzte neuronale Netze, weil sie die Eigenschaften der
lokalen Konnektivität und der Gewichtsteilung nutzen. In einem CNN wird jeder Filter (bestehend aus einer kleinen
Menge von Parametern) über das gesamte Eingabebild "geschoben" und wendet die gleichen Gewichte auf
verschiedene Teile des Bildes an (Gewichtsteilung). Dies reduziert die Anzahl der zu lernenden Parameter erheblich
im Vergleich zu einem vollvernetzten Netz, bei dem jede Verbindung zwischen den Schichten eigene Gewichte hat.
Was ist ein Vorteil von Fully Convolutional Networks gegenüber CNNs mit
Fully-Connected Schichten am Ende und wofür werden diese typischerweise
verwendet?
Ein Vorteil von Fully Convolutional Networks (FCNs) gegenüber CNNs mit Fully-Connected
Schichten am Ende besteht darin, dass FCNs die räumliche Information des Eingangsbildes
erhalten können. Dies ist besonders nützlich für Aufgaben wie semantische Segmentierung, bei
der eine pixelweise Vorhersage erforderlich ist. FCNs können Eingaben beliebiger Größe
verarbeiten und eine Ausgabe in entsprechender räumlicher Auflösung liefern, während bei
CNNs mit Fully-Connected Schichten die Eingabegröße fest ist und die räumliche Zuordnung
der Merkmale verloren geht
Wie viele Stützvektoren werden für die eindeutige Lösung eines binären
Klassifikationsproblems mindestens benötigt, wenn der Merkmalsraum n>0
Dimensionen hat?
n+1
Was ist der wesentliche Unterschied zwischen Reinforcement Learning und
überwachtem Lernen mit Bezug auf die Fehlerberechnung?
er wesentliche Unterschied zwischen Reinforcement Learning (RL) und überwachtem Lernen in Bezug
auf die Fehlerberechnung ist, dass beim überwachten Lernen der Fehler durch den Vergleich der
Vorhersage des Modells mit einem bekannten Zielwert (Label) berechnet wird. Bei RL hingegen wird der
Fehler anhand der Differenz zwischen geschätzten und tatsächlich erhaltenen Belohnungen nach einer
Aktion berechnet. Dies wird oft als temporal-difference (TD) Fehler bezeichnet und ist ein
Schlüsselkonzept beim RL, da keine "korrekten" Zielwerte im Voraus bekannt sind.
Beschreiben Sie die Begriffe „Bootstrapping“ und „Sampling“ für die
Wertaktualisierungen beim Reinforcement Learning.
Ordnen sie die Verfahren: Policy Iteration, SARSA und Monte Carlo Methoden
den beiden Begriffen zu.
Bootstrapping" bezieht sich im RL auf die Verwendung von vorhandenen Schätzungen, um weitere
Schätzungen zu aktualisieren. Das bedeutet, dass die Aktualisierung der Wertefunktion auf anderen
geschätzten Werten basiert, anstatt auf tatsächlich erhaltenen Belohnungen. "Sampling" bedeutet, dass
Werte basierend auf gesammelten Erfahrungen (Proben von Zuständen, Aktionen und Belohnungen)
geschätzt werden. Policy Iteration und SARSA sind Bootstrapping-Verfahren, während Monte Carlo eine
Sampling-Methode ist.
Um die Varianz bei dem REINFORCE Algorithmus zu reduzieren kann eine
„Baseline“ verwendet werden. Definieren sie eine geeignete „Baseline“
formal. Ist die Verwendung einer konstanten „Baseline“ zulässig? Begründen
Sie Ihre Antwort.
Die Verwendung einer Baseline bei REINFORCE zielt darauf ab, die Varianz der
Gradientenschätzungen zu reduzieren und die Konvergenz zu beschleunigen. Eine geeignete
Baseline kann ein laufendes Mittel der erhaltenen Belohnungen sein. Die Verwendung einer
konstanten Baseline ist zulässig und kann insbesondere dann nützlich sein, wenn sie den
erwarteten Wert der Belohnungen repräsentiert, wodurch die Schätzungen zentriert und die
Varianz verringert wird.
Warum bezeichnet man strategiebasierte Verfahren wie den REINFORCE
Algorithmus als „on-policy“ Algorithmen? Warum kann die
Strategieaktualisierung beim REINFORCE Algorithmus ohne „Baseline“ zu
einer Verschlechterung führen?
Strategiebasierte Verfahren wie REINFORCE werden als "on-policy" bezeichnet, weil sie die
Wertefunktion basierend auf der aktuell untersuchten Strategie aktualisieren. Das bedeutet,
dass die Bewertung und Verbesserung der Strategie mit denselben Daten erfolgt. Die
Verwendung einer Baseline beim REINFORCE Algorithmus hilft dabei, die Varianz zu
reduzieren und die Lernleistung zu verbessern. Ohne Baseline könnte das Lernen instabil
werden und die Varianz der Gradientenschätzungen könnte so groß werden, dass sie den
Lernprozess stört und zu schlechteren Leistungen führt.
Nennen Sie vier positive Eigenschaften eines Random Forests (verglichen mit
einem einfachen Entscheidungsbaum).
Vier positive Eigenschaften von Random Forests im Vergleich zu einem einfachen EB
Bessere Vorhersagequalität
Bessere Robustheit gegenüber Overfitting
Die Möglichkeit, mehrere Entscheidungsbäume zu nutzen, um Stabilität und Genauigkeit zu
verbessern.
Random Forests können auch mit einem gewissen Grad an fehlenden Daten umgehen und
sind weniger anfällig für Rauschen in den Daten.
Was muss bei der Initialisierung der Gewichte eines Neuronalen Netzes
beachtet werden?
Nennen und erläutern Sie kurz eine gängige Initialisierungsmethode.
Bei der Initialisierung der Gewichte eines neuronalen Netzes ist es wichtig, einen geeigneten
Ausgangspunkt für die iterativen Optimierungsmethoden wie den Gradientenabstieg zu haben. Die Wahl
der Initialisierungsmethode kann stark beeinflussen, wie schnell die Ausbildung konvergiert oder ob sie
überhaupt konvergiert.KAIMING HE INITIALISIERUNG
WENN RELU DIE VARIANZ in jedem layer HALBIERT DANN VERGRÖßERE DIE VARIANZ UM DIESEN FAKTOR
Erklären Sie “Weight Sharing”. Welche Vorteile ergeben sich hierdurch
gegenüber klassischen Neuronalen Netzen?
Weight Sharing" bezieht sich auf die Praxis, dass in einem neuronalen Netzwerk, insbesondere in einem
Convolutional Neural Network (CNN), die gleichen Gewichte (weights) von einem Kernel oder Filter für
verschiedene Teile des Inputs verwendet werden. Dies führt zu einer bedeutenden Reduktion der Anzahl
der zu lernenden Parameter, was wiederum die Komplexität des Modells reduziert und das Risiko von
Overfitting verringert. Darüber hinaus ermöglicht es das Modell, erlernte Features über die gesamte
Eingabe hinweg zu erkennen, was die räumliche Invarianz des Netzes verbessert und das Training
effizienter macht.
Wie funktioniert Dropout, welche Vorteile bringt es?
Dropout ist eine Regularisierungstechnik, bei der während des Trainings zufällig ausgewählte Neuronen
(und ihre Verbindungen) deaktiviert werden, indem ihre Ausgaben mit Null multipliziert werden. Dies führt
dazu, dass das Netzwerk mit einer Vielzahl von verschiedenen "Subnetzen" trainiert wird, was die
Robustheit des Modells erhöht und das Risiko von Overfitting senkt, da es weniger wahrscheinlich ist,
dass das Netzwerk zu sehr von spezifischen Features in den Trainingsdaten abhängig wird.
Wie wird das Vanishing-Gradient Problem bei ResNet gelöst? Erläutern Sie
dies kurz.
Um das Problem des verschwindenden Gradienten (Vanishing Gradient Problem) zu lösen, verwendet
ResNet (Residual Networks) sogenannte "Skip Connections" oder "Residual Connections", die es
ermöglichen, dass Signale direkt durch das Netzwerk geleitet werden können, indem sie über eine oder
mehrere Schichten hinweg "überspringen". Dies ermöglicht es den Gradienten, auch tiefere Schichten zu
erreichen, ohne zu verschwinden oder zu explodieren, was das Training tiefer Netze erheblich
verbessert.
Gegeben sind Daten mit fünf unterschiedlichen Klassenzugehörigkeiten.
Wie können diese mithilfe von SVMs klassifiziert werden? Wie viele SVMs
werden dafür mindestens benötigt?
One vs all, so könnte man nur 4 verwenden (jede svm lernt die eigene klasse vom rest zu trennen, nach dem 4
getrennt wurden bleibt nur noch 5 übrig
Wodurch treten verschwindende Gradienten (vanishing gradients) auf?
Welche Gegenmaßnahme gibt es ohne die Anzahl der Neuronen zu
verändern?
anishing Gradients: Sie treten auf, wenn tiefe Netze trainiert werden und die
Gradienten der Verlustfunktion in den unteren Schichten sehr klein werden, was zu
einem sehr langsamen oder stagnierenden Lernprozess führt. Eine mögliche
Gegenmaßnahme ohne die Anzahl der Neuronen zu ändern, ist die Verwendung von
alternativen Aktivierungsfunktionen wie ReLU (Rectified Linear Unit), die nicht zu
verschwindenden Gradienten führen.
Nennen Sie ein Optimierungsverfahren, das dem einfachen Gradientenabstieg
überlegen ist und nennen Sie zwei Gründe wieso es besser ist.
Methoden wie Adam (Adaptive Moment Estimation) sind oft besser als einfacher
Gradientenabstieg, weil sie adaptive Lernraten verwenden, die für verschiedene
Parameter individuell angepasst werden können, und weil sie Moment-basierte
Updates nutzen, die dabei helfen, die Oszillationen in der Optimierung zu
reduzieren und konvergieren schneller.
„Je höher die VC-Dimension, umso besser kann das Neuronale Netz aus einem
bestehenden Datensatz lernen und generalisieren.“
Ist diese Aussage wahr oder falsch? Begründen Sie Ihre Antwort.
Die Aussage ist falsch. Eine höhere VC-Dimension bedeutet zwar, dass ein Modell
komplexere Funktionen lernen kann, es erhöht aber auch das Risiko der Überanpassung.
Ein Modell muss die richtige Balance zwischen Kapazität (VC-Dimension) und der
tatsächlichen Komplexität der Daten finden, um gut zu generalisieren. Es geht also nicht nur
um das Lernen aus dem Datensatz, sondern auch um die Fähigkeit, auf neuen, unbekannten
Daten gut zu performen
Nennen Sie drei Methoden der Gewichtsinitialisierung für CNNs.
Was passiert, wenn alle Gewichte mit 1 initialisiert werden?
Xavier/Glorot Initialization: Diese Methode passt die Skalierung der Gewichte basierend auf
der Anzahl der Neuronen in den vorherigen und nachfolgenden Schichten an.
He Initialization: Ähnlich wie Xavier, aber sie wird oft für Netze mit ReLU-
Aktivierungsfunktionen verwendet, da sie die Gewichte mit einer etwas höheren Varianz
initialisiert.
Wenn alle Gewichte mit 1 initialisiert werden, kann das zu Problemen führen, da dies die
Symmetrie des Netzwerks während des Trainings nicht bricht. Dies kann dazu führen, dass
alle Neuronen in einer Schicht während des Trainings das Gleiche lernen, was die
Leistungsfähigkeit des Netzwerks erheblich einschränk
Was ist der Zweck einer 1x1 Faltung, wie sie im Inception Modul vorkommt?
Der Zweck einer 1x1 Faltung, wie sie in Inception-Modulen vorkommt, ist meistens die
Reduktion der Dimensionalität. Eine 1x1 Faltung kann als eine Art Feature-Transformation
angesehen werden, die es ermöglicht, die Anzahl der Feature-Maps zu reduzieren, ohne
räumliche Dimensionen zu verlieren. Dies ist besonders nützlich in tiefen Netzwerken, um die
Komplexität zu verringern und die Rechenlast zu reduzieren. Zusätzlich kann eine 1x1
Faltung auch dazu beitragen, nichtlineare Eigenschaften zwischen den Kanälen zu
kombinieren.
Nennen Sie jeweils zwei Vor- und Nachteile von Support Vector Machines.
Optimale Hyperplane: SVMs sind effektiv bei der Findung der optimalen Hyperplane, was zu guten
Klassifikationsergebnissen führt.
Verarbeitung hochdimensionaler Daten: SVMs sind in der Lage, schnell hochdimensionale Daten
zu verarbeiten, was sie für viele Anwendungen geeignet macht.
Anwendungsspezifische Kerne: SVMs können mit verschiedenen Kernen ausgestattet werden, die
auf spezifische Datensätze zugeschnitten sind.
Entscheidungen auf Grundlage der Margenregionen: SVMs treffen Entscheidungen basierend auf
den am schwersten zu klassifizierenden Datenpunkten (Support Vektoren), was zu einer robusteren
Klassifikation führt.
Nachteile von Support Vector Machines:
Externe Vorverarbeitung: SVMs benötigen eine separate Vorverarbeitung der Daten, sie führen kein
"tiefes" Lernen durch, d.h., sie extrahieren nicht selbstständig Merkmale aus rohen Daten.
Finden eines optimalen Kernels: Die Auswahl und Optimierung des Kernels ist eine
forschungsintensive Aufgabe und nicht immer trivial.
Kernel-Parameterisierung: Die Parametrisierung des Kernels ist ebenso eine Herausforderung und
Gegenstand aktueller Forschung.
Speicher- und Rechenleistung: Vor allem beim Training mit großen Datensätzen können SVMs sehr
ressourcenintensiv sein.
Was sagen die bellmann optimalitätsgleichungen aus
um eine optimale strategie zu sein muss die strategie auch eine optimalie entscheidung von kleineren teilproblemen sein
was ist das ziel von reinforcement learning bei modellfreiem ansatz
exploration vs exploitation optimieren
Was sind nachteile von monte carlo
hohe varianz
man braucht viele samples um gute ergebnisse zu bekommen
Was sind vorteile von TD learning
Was ist nachteil
hoher bias weil die schätzungen auf alten prognosen aufbauen, die falsch sein können
Gib beispiel und erklärung für bootstrapping und sampling
Sampling: update sampled eine erwartung
Monte Carlo, TD learning
Bootstrapping: update beinhaltet eine schätzung
TD, Dynamic programming
Last changed10 months ago