Anwendungsbereiche von KI Methoden
Risiken
Künstliche Intelligenz & Maschinelles Lernen
Begriffe/Definitionen
Künstliche Intelligenz
“Künstliche Intelligenz (KI) [...], englisch artificial intelligence (AI), ist ein Teilgebiet
der Informatik, welches sich mit der Automatisierung intelligenten Verhaltens
und dem maschinellen Lernen befasst.
Der Begriff ist insofern nicht eindeutig abgrenzbar, als es bereits an einer
genauen Definition von „Intelligenz“ mangelt. Dennoch wird er in Forschung
und Entwicklung verwendet.”
Maschinelles Lernen
“Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von
Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann
diese nach Beendigung der Lernphase verallgemeinern.“
Abgrenzung Künstliche Intelligenz & Maschinelles Lernen
Allgemeiner Ansatz von KI
KI > ML > DL
Modellieren - Lernen - Schlussfolgern
Spektrum von KI Methoden
4 KI Methoden bemessen an “Intelligenz”
Zusammenfassung KI und ML
Regression Goal
Regression Models Learning and Deduction (Overview)
Linear regression models
Objective of Regression
SSE (sum of squared errors)
Linear Regression is our first ML algorithm
Evaluating linear regression models
Generalized Linear Regression
Erweitert das lineare Modell, indem sie zulässt, dass die abhängige Variable einer beliebigen Mitgliedsfamilie der Exponentialverteilungen folgen kann (z.B. Binomial-, Poisson-, Gamma-Verteilungen)
Overfitting / Underfitting
(for polynomial regression)
Ridge Regression
Regularization
Regularized Least Squares
Modell auf Subraum einschränken
Strafe für hohe Koeffizienten um sie kleiner zu halten
hilft Overfitting zu bekämpfen
wird durch Regularisierungs Term mit Parameter Lambda bestimmt
Lernende Algorithmen - Definition
Teilen sich auf in T P E
Lernmethoden und Datentypen
Supervised Learning
Unsupervised Learning
()
Supervised vs. Unsupervised Learning
Reinforcement Learning
Daten aus Interaktion
Gliederung nach Modelltypen
Lineare Regression als ML Modell
Generalisierung
Kapazität, Überfitten und Unterfitten
Begrenzung der Kapazität: Regularisierung
(Kapazität ähnlich zu Komplexität des Modells)
Maximum-Likelihood-Methode
Zusammenfassung: Lernende Algorithmen und deren Bewertung
Klassifikation: Formale Definition
Generative vs. diskriminative Modelle
Binäre/Lineare Klassifikation
Lineare Separabilität
Diskriminative Modelle, auch als bedingte Modelle bekannt, lernen den Unterschied zwischen den Klassen
konzentrieren sich direkt auf die Grenze zwischen den Klassen
oft effizienter in der Trainingsphase und direkt an die Aufgabe der Vorhersage angepasst, was sie in vielen Anwendungsfällen leistungsfähiger macht
Generative Modelle hingegen lernen die zugrundeliegende Verteilung der Daten für jede Klasse und können neue Datenpunkte generieren, die den gelernten Verteilungen entsprechen
flexibel in dem Sinne, dass sie nicht nur für Klassifizierungsprobleme, sondern auch für Datenmodellierung und -generierung verwendet werden können
logistische Regression
Logistische Regression
Wahrscheinlichkeit eines Ereignisses vorherzusagen, basierend auf vorherigen Beobachtungen.
Beziehung zwischen unabhängigen Variablen (Eingaben) und der Wahrscheinlichkeit eines bestimmten Ergebnisses modelliert,
für Klassifizierungsprobleme, bei denen die Ausgabe in zwei Kategorien eingeteilt wird.
benutzt Sigmoidfunktion (um lineare Vorhersagen in Wahrscheinlichkeiten umzuwandeln)
Verallgemeinerte logistische Regression
Optimierung: Gradient descent
Globale/lokale Optimierung
Optimierung:=
Stochastic gradient descent
Batch vs. Stochastic gradient descent
Stochastic Gradient Descent (SGD):
Einzelne Beobachtung pro Update: Nutzt jeweils nur eine einzige Datenbeobachtung (ein Trainingsbeispiel), um die Gradienten zu berechnen und die Modellparameter zu aktualisieren.
Batch Gradient Descent:
Gesamter Datensatz pro Update: Nutzt den gesamten Datensatz, um die Gradienten zu berechnen und die Modellparameter einmal pro Iteration zu aktualisieren
SGD ist schneller und flexibler, besonders bei großen Datensätzen, kann aber zu einer unruhigeren Konvergenz führen.
Batch Gradient Descent ist stabiler und erreicht eine gleichmäßigere Konvergenz, kann aber bei großen Datensätzen speicherintensiv und langsamer in den Updates sein.
-> Mini batch
Multiklassen Klassifizierung
mehreren möglichen Klassen in die Beobachtung zuordbar ist
Softmax ähnelt der Sigmoid-Funktion, ist speziell darauf ausgerichtet, mit mehreren Klassen umzugehen.
Zusammenfassung: Logistische Regression und Gradient Descent
Definition eines neuronalen Netzes
Backpropagation
Sie bestehen aus Schichten von Neuronen/Knoten
Neuronale Netze lernen durch einen Prozess namens "Backpropagation", bei dem das Netz seine Gewichte (die Stärke der Verbindungen zwischen den Neuronen) basierend auf dem Fehler zwischen den Vorhersagen des Netzes und den tatsächlichen Werten anpasst.
Warum benötigt man die Aktivierungsfunktion?
Aktivierungsfunktionen
Aktivierungsfunktionen bestimmen wie Informationen durch ein neuronales Netz fließen (ob Knoten aktiviert wird oder wie stark).
Aktivierungsfunktionen: Sigmoid
Aktivierungsfunktionen: Tangens hyperbolicus (Tanh)
Aktivierungsfunktionen: Leaky ReLU
Aktivierungsfunktionen: Exponential Linear Unit
Aktivierungsfunktionen: Auswahl
Representation Learning
Warum mehr als ein Layer?
- Aufbau des neuronalen Netzes
Neuronale Netze: Back-propagation
Gradient descent
Loss Funktion
"Backpropagation" = Anpassung der Gewichte basierend auf Fehler zwischen Vorhersage des Netzes und tatsächlichem Wert. Diese Differenz quantifiziert die Loss Funktion.
Neuronale Netze: Computational cost
Training: Gradient descent plus Tricks
Zusammenfassung Neuronale Netze
Verbindung Bias und Varianz
Zusammenspiel mit Underfitting/Overfitting?
Wie können wir Bias und Varianz beeinflussen?
Parameter und Hyperparameter
Training, Validierung, Test
-> Hyperparamter Optimierung
Hyperparameter = Konfigurationseinstellungen (Anzahl Layer, Anzahl Trainingsepochen)
Ziel: Bias und Varianz minimieren durch:
Regularisierung (Begrenzung der Kapazität)
(gute) Parameter (bspw. Gewichte)
Hyperparameter (-> Validierungsdatensatz)
Hyperparameter-Optimierung = Suche nach den optimalen Werten der Hyperparameter. Ziel: Modell bestmögliche Leistung auf den Validierungs- oder Testdaten zeigen.
Regularisierung (Teil 2)
L^2 Regularisierung
Data augmentation
Early Stopping
Parameter Sharing
Regularisieren: großes Modell angemessen regularisieren
R2 (ridge Regression): Gewichte anders gewichten
Regularisieren auch durch:
Data Augmentation = künstlichen Erweiterung des Trainingsdatensatzes (durch bspw. Drehen, Verzerren ohne Labels zu verändern)
Early Stopping = Trainingsprozess abbrechen, sobald die Leistung des Modells auf einem Validierungsdatensatz sinkt (-> Vermeiden von Overfitting)
Parameter Sharing = Gleichsetzen von Parametern (Gewichte in einem Modell über mehrere Teile teilen -> Generalisierung verbessern)
Ensemble Methoden
Bagging und Boosting
Ensembles:
Dropout
Zusammenfassung Regularisierung, Ensembles
Dimensionality Reduction
Linear Dimensionality Reduction
Orthonormal Basis Vectors
Projections with an orthonormal basis
Basics: Eigenvalues and Eigenvectors
PCA (Principle component analysis)
Non-Linear Dimensionality Reduction /
Autoencoders
Bottleneck layer
Bottleneck layer = layer that contains a smaller number of neurons than the preceding and succeeding layers (dimensionality reduction through forcing)
Denoising Autoencoder
Denoising Autoencoder = remove noise from corrupted input data and reconstruct a clean version from courrpted input
Wrap-up: Autoencoder
Clustering
Distance Measures
Properties
(Distance Metrics)
Basic Clustering Algorithms
K-Means
Wrap-Up Cluster Algorithms (K-means)
Strenghts
Weaknesses
“Knee-finding” method
Mixture models
Gaussian Mixture Models (GMMs)
GMMs assume all the data points are generated from a mixture of several Gaussian distributions with unknown parameters
Maximum Likelihood of a mixture
Estimating Gaussian Mixture Models
Expectation (E) step: Calculate the expected value of the latent variables given the current parameters of the model.
Maximization (M) step: Update the parameters to maximize the likelihood of the data given the expected values of the latent variables calculated in the E step.
EM versus k-means
Latent Variable Models
Latent-variable models assume the presence of unobserved (hidden) variables influencing the observed data
Expectation-Maximization (EM)
Jensens Inequality
convex function f:
zwei Punkte, alle verbundenen Punkte dazwischen sind höher als wenn ich den Durschnitt von den beiden x Koordinaten der Punkte nehm.
Back to Expectation Maximization
Variational Lower Bound
Expectation-Maximization Steps
Variational Auto Encoders
Amortized Variational Inference
VAE = generates new data points by learning a distribution of the input data
Class conditional VAEs
Latent Space Interpolations
= generate data conditioned on specific class labels
Takeaway messages Expectation Maximization
Intelligente Agenten
Autonomer
Rationaler
Nutzen
Planende Agenten und Reflex-Agenten
Design von Agenten
Design von Agenten bei Suchproblemen
Suchprobleme
State Space Graphs & Suchbaum
Allgemeine Baumsuche
Uninformierte Suchverfahren
Depth-First Suche (Tiefensuche)
Eigenschaften von Suchalgorithmen
Unformierte Suchverfahren
Breadth-First Suche (Breitensuche)
Uniforme Kostensuche (Uniform Cost Search, UCS)
Zusammenfassung Suchprobleme
Heuristische Suchverfahren
Suchheuristik
Greedy Search
Idee: Zulässigkeit von Heuristiken (Admissibility)
Graph Suche
Konsistenz
Optimalität: Zusammenfassung
Zusammenfassung Zustandsprobleme/Heuristiken
Ziele der Logik-basierten KI
Wie können wir die Welt logisch repräsentieren?
Zutaten der Logik
Syntax vs. Semantik
Interpretation
Interpretationsfunktion
Modelle
Knowledge Base
Inferenzregeln/Schlussregeln
Wie können wir das Wissen der Welt repräsentieren?
Formale Wissensrepräsentation
Was ist Ontologie?
Klassen und Attribute
Beziehungen
Instanzen/Individuen
Treibhauseffekt
Resource Description Framework
RDF Schema (RDFS)
Wissensgraphen: Definition
Zusammenfassung
Symbolische und logikbasierte KI
State-based vs Variable-based Models
Bayesian Networks
Definition
Bayes Rule
Explaining Away
Inference
Probabilistic Programs
Hidden Markov Models (HMM)
Hidden Markov Models
State estimation and Filtering
Forward Algorithm: Filtering
Forward-Backward Algorithm: Smoothing
HMM Wrap-Up Zusammenfassung
Search Trees with Chance Nodes:
Expectimax Trees
Markov Decision Processes
Policy
Goal of Agent
Solving MDPs – Value Iteration
S
MDP
Retrieval of the optimal policy
Convergence
Q Values
Q Value iteration
Last changed10 months ago