von Mathäus

Was versteht man unter den Bgeriff bestärkendes Lernen(Reinforcement Learning)?

Den Prozess des Lernens durch Belohnung bei richtigen Entscheidungen sowie Strafe bei Fehler

Was ist bestärkendes Lernen?

Im Allgemeinen gibt es beim maschinellen Lernen drei Techniken, um ein bestimmtes Lernmodell zu trainieren:

Benenne diese.

Überwachtes Lernen
Unüberwachtes Lernen
Bestärkendes Lernen

Was ist bestärkendes Lernen?

Im Allgemeinen gibt es beim maschinellen Lernen drei Techniken, um ein bestimmtes Lernmodell zu trainieren:

Benenne diese.

Überwachtes Lernen
Unüberwachtes Lernen
Bestärkendes Lernen

Was versteht man unter Überwachten Lernen?

Überwachtes Lernen

Die Maschine bekommt viele Beispiele, bei denen die richtigen Antworten schon bekannt sind.
Sie lernt daraus, wie man von den Eingaben zu den richtigen Ausgaben kommt.
Beispiel:
- Du zeigst der Maschine viele E-Mails, die als „Spam“ oder „nicht Spam“ markiert sind.
- Sie lernt daraus, wie sie neue E-Mails selbst richtig einordnen kann.
Nachteil: Man braucht viele gelabelte (also markierte) Daten, was viel Arbeit bedeutet.

Was ist bestärkendes Lernen?

Im Allgemeinen gibt es beim maschinellen Lernen drei Techniken, um ein bestimmtes Lernmodell zu trainieren:

Benenne diese.

Überwachtes Lernen
Unüberwachtes Lernen
Bestärkendes Lernen

Was versteht man unter Unüberwachten Lernen?

🔹 Unüberwachtes Lernen

Hier bekommt die Maschine Daten ohne richtige Antworten.
Sie soll selbst Muster oder Gruppen (Cluster) darin erkennen.
Beispiel:
- Du gibst der Maschine Kundendaten, aber ohne Labels.
- Sie erkennt selbst, dass es Gruppen von Kunden mit ähnlichem Verhalten gibt (z. B. „Schnäppchenjäger“ oder „Markentreue“).
So kann man große, unstrukturierte Datenmengen besser verstehen.

Was ist bestärkendes Lernen?

Im Allgemeinen gibt es beim maschinellen Lernen drei Techniken, um ein bestimmtes Lernmodell zu trainieren:

Benenne diese.

Überwachtes Lernen
Unüberwachtes Lernen
Bestärkendes Lernen

Was versteht man unter Bestärkendes Lernen?

🔹 Bestärkendes Lernen

Hier lernt die Maschine durch Ausprobieren.
Sie bekommt Belohnungen oder Strafen, je nachdem, wie gut sie etwas macht.
Beispiel:
- Ein Roboter probiert verschiedene Bewegungen aus.
- Wenn er ein Ziel erreicht, bekommt er eine „Belohnung“.
- Mit der Zeit merkt er, welche Aktionen zum Erfolg führen, und verbessert sich ständig.
Vorteil: Keine fertigen Trainingsdaten nötig — die Maschine lernt aus Erfahrung.

Grundbegriffe des Bestärkenden Lernens

Wofür stehen folgenden Grundbegriffe?

Welche der folgenden Aussagen ist richtig?

Praktischer Exkurs: bestärkendes Lernen im Social-Media-Marketing

Ein Unternehmen möchte eine neue Social-Media-Kampagne starten, die ein großes Spektrum potenzieller Kundschaft erreichen soll. Allerdings ist das Werbebudget begrenzt. Folgende Fragen stellen sich:

Welche Zielgruppe soll angesprochen werden?
Welche Bilder und Texte eignen sich am besten?
Wann ist der ideale Zeitpunkt für die Anzeigen?

Anstatt jede Entscheidung manuell zu treffen, setzt das Unternehmen auf einen Algorithmus, der bestärkendes Lernen nutzt, um die Werbekampagne Schritt für Schritt zu optimieren.

Die KI-Werbeplattform agiert hierbei als Agent – ein lernender Algorithmus, der selbstständig herausfinden soll, welche Anzeigen die besten Ergebnisse liefern. Dabei interagiert sie mit der Umwelt, also den Social-Media-Nutzenden, die die Anzeigen sehen, sowie den Werbeplattformen (z. B. Instagram oder Facebook), die bestimmte Regeln für die Ausspielung festlegen.

#Jede Entscheidung basiert auf dem aktuellen Zustand der Kampagne. Der Algorithmus analysiert Daten in Echtzeit, darunter:

Wie viele Nutzende haben die Anzeige gesehen?
Wie hoch ist die Klickrate?
Gibt es bestimmte Uhrzeiten oder Wochentage, an denen die Anzeige besonders gut performt?
Welche Zielgruppen reagieren positiv oder negativ?

Basierend auf diesen Informationen führt die KI Aktionen aus, um die Performance zu verbessern, wie beispielsweise:

das Werbebudget anpassen → mehr Geld für erfolgreiche Zielgruppen investieren;
die Zielgruppe optimieren → Anzeigen verstärkt für Nutzende mit hoher Kaufwahrscheinlichkeit ausspielen; und
die Anzeige selbst verändern → unterschiedliche Texte, Bilder oder Farben testen, um herauszufinden, was positiv angenommen wird.

Nach jeder Aktion erhält die KI eine Belohnung, die zeigt, wie erfolgreich ihre Entscheidung war. Diese kann positiv sein (mehr Klicks, mehr Käufe) oder negativ (hohe Absprungrate, wenig Interaktion).

Markov-Entscheidungsprozess

Erkläre folgende drei Begriffe:

Markov-Eigenschaft
MDP (Markov-Entscheidungsprozess)
Übergangswahrscheinlichkeit

Begriff	Bedeutung in einfachen Worten
Markov-Eigenschaft	Nur der aktuelle Zustand ist wichtig, die Vergangenheit spielt keine Rolle.
MDP (Markov-Entscheidungsprozess)	Ein Modell, in dem ein Agent in einer Umgebung Entscheidungen trifft, um Belohnungen zu maximieren.
Übergangswahrscheinlichkeit	Wie wahrscheinlich ist es, dass du mit einer bestimmten Aktion in den nächsten Zustand kommst?

Die Wertfunktion

Was ist die Wertfunktion?

Die Wertfunktion hilft dem Agenten (also der lernenden Maschine), zu verstehen:

„Wie gut ist es, in einem bestimmten Zustand zu sein?“ oder „Wie gut ist es, in diesem Zustand eine bestimmte Aktion auszuführen?“

Sie sagt also, wie lohnenswert ein Zustand oder eine Aktion ist, wenn man an die zukünftigen Belohnungen denkt.

Die Wertfunktion

Gib ein Beispiel aus der Praxis in denen eine Wertfunktion angewendet werden könnte.

🔹 Ein einfaches Beispiel

Stell dir vor, ein Roboter läuft durch ein Labyrinth:

In manchen Feldern gibt es Belohnungen (z. B. den Ausgang finden).
In anderen gibt es Strafen (z. B. gefährliche Felder).

Die Wertfunktion sagt dem Roboter:

„Wie gut ist es, gerade hier zu stehen?“ „Wie gut wäre es, jetzt nach rechts zu gehen?“

So kann der Roboter lernen, welche Wege langfristig am besten sind, um die höchste Belohnung zu bekommen.

Was ist der Diskontuerungsfaktor?

🔹 Der Diskontierungsfaktor (γ)

Der Diskontierungsfaktor (oft als γ ausgesprochen „Gamma“) ist eine Zahl zwischen 0 und 1. Er zeigt, wie stark der Agent zukünftige Belohnungen bewertet:

Wenn γ nahe bei 1 ist → Der Agent denkt langfristig. Zukünftige Belohnungen zählen fast genauso viel wie sofortige.
Wenn γ kleiner ist → Der Agent denkt kurzfristig. Er will lieber sofortige Belohnungen.

Was ist das Ziel eines Agenten in einem MDP?

Das Ziel eines Agenten in einem MDP ist es, die Gesamtbelohnung zu maximieren.

Welche Informationen benötigt die Übergangsfunktion, um die nächste Aktion zu bestimmen?

Temporales Differenzlernen

Was ist TD-Lernen?

Das temporale Differenzlernen (TD-Lernen) ist eine Methode, mit der eine Maschine aus Erfahrung lernt, ohne ein genaues Modell der Umgebung zu kennen. Man sagt deshalb: Es ist ein modellfreier Ansatz.

Das bedeutet: Der Agent (z. B. ein Computerprogramm) lernt direkt aus dem, was passiert, anstatt vorher genau zu wissen, wie die Welt funktioniert.

Die Maschine vergleicht ihre Vorhersage von heute mit der Vorhersage von morgen und passt ihre Schätzung an, wenn sie merkt, dass sie gestern falsch lag.

Temporales Differenzlernen

Gib ein Beispiel aus der Praxis in dem das Temporale Diferenzlernen zur Anwendung kommt.

🔹 Beispiel: Wettervorhersage

Stell dir vor, eine Maschine soll das Wetter vorhersagen:

Beim überwachten Lernen würde man jeden Tag warten, bis man das tatsächliche Wetter kennt, um die Vorhersage zu verbessern. → Beispiel: Am Dienstag weiß man, ob die Montag-Vorhersage richtig war.
Beim TD-Lernen vergleicht man die Vorhersage von Montag mit der Vorhersage von Dienstag, bevor man das echte Wetter kennt. → So kann die Maschine sofort aus ihren eigenen Schätzungen lernen, statt auf das Endergebnis zu warten.

Bitte markiere die richtige Aussage.

Q-Learning

Was ist Q-Learning?

Q-Learning ist eine Methode des bestärkenden Lernens (Reinforcement Learning).

Der Agent (also das lernende System oder Programm)

lernt durch Ausprobieren und Bewerten seiner Aktionen, ohne vorher zu wissen, wie die Umgebung funktioniert.

Q-Learning

Q-Learning ist eine Methode des bestärkenden Lernens (Reinforcement Learning).

Der Agent (also das lernende System oder Programm)

lernt durch Ausprobieren und Bewerten seiner Aktionen, ohne vorher zu wissen, wie die Umgebung funktioniert.

Wie arbeitet der Agent die einzelnen Schritte beim Q-Learning ab?

🔹 Grundidee

Der Agent:

Startet zufällig und führt verschiedene Aktionen aus.
Bekommt eine Belohnung oder Strafe für jede Aktion.
Speichert, wie gut jede Aktion in einem bestimmten Zustand war.
Lernt, welche Aktionen langfristig die höchste Belohnung bringen.

Die q-Tabelle (oder Q-Matrix)

Das Herzstück von Q-Learning ist die Q-Tabelle.Diese Tabelle enthält für jeden Zustand und jede mögliche Aktion einen Q-Wert:

Beitreten

Vorschau

Author

Mathäus

Informationen

Zuletzt geändert
vor 15 Tagen

Kurs melden

3. Bestärkendes Lernen

Was ist bestärkendes Lernen?

Was ist bestärkendes Lernen?

Überwachtes Lernen

Was ist bestärkendes Lernen?

🔹 Unüberwachtes Lernen

Was ist bestärkendes Lernen?

🔹 Bestärkendes Lernen

Markov-Entscheidungsprozess

Die Wertfunktion

Die Wertfunktion

🔹 Ein einfaches Beispiel

🔹 Der Diskontierungsfaktor (γ)

Temporales Differenzlernen

Temporales Differenzlernen

🔹 Beispiel: Wettervorhersage

Q-Learning

Q-Learning

🔹 Grundidee

Author

Mathäus

Informationen