Was versteht man unter den Bgeriff bestärkendes Lernen(Reinforcement Learning)?
Den Prozess des Lernens durch Belohnung bei richtigen Entscheidungen sowie Strafe bei Fehler
Im Allgemeinen gibt es beim maschinellen Lernen drei Techniken, um ein bestimmtes Lernmodell zu trainieren:
Benenne diese.
Überwachtes Lernen
Unüberwachtes Lernen
Bestärkendes Lernen
Was versteht man unter Überwachten Lernen?
Die Maschine bekommt viele Beispiele, bei denen die richtigen Antworten schon bekannt sind.
Sie lernt daraus, wie man von den Eingaben zu den richtigen Ausgaben kommt.
Beispiel:
Du zeigst der Maschine viele E-Mails, die als „Spam“ oder „nicht Spam“ markiert sind.
Sie lernt daraus, wie sie neue E-Mails selbst richtig einordnen kann.
Nachteil: Man braucht viele gelabelte (also markierte) Daten, was viel Arbeit bedeutet.
Was versteht man unter Unüberwachten Lernen?
Hier bekommt die Maschine Daten ohne richtige Antworten.
Sie soll selbst Muster oder Gruppen (Cluster) darin erkennen.
Du gibst der Maschine Kundendaten, aber ohne Labels.
Sie erkennt selbst, dass es Gruppen von Kunden mit ähnlichem Verhalten gibt (z. B. „Schnäppchenjäger“ oder „Markentreue“).
So kann man große, unstrukturierte Datenmengen besser verstehen.
Was versteht man unter Bestärkendes Lernen?
Hier lernt die Maschine durch Ausprobieren.
Sie bekommt Belohnungen oder Strafen, je nachdem, wie gut sie etwas macht.
Ein Roboter probiert verschiedene Bewegungen aus.
Wenn er ein Ziel erreicht, bekommt er eine „Belohnung“.
Mit der Zeit merkt er, welche Aktionen zum Erfolg führen, und verbessert sich ständig.
Vorteil: Keine fertigen Trainingsdaten nötig — die Maschine lernt aus Erfahrung.
Grundbegriffe des Bestärkenden Lernens
Wofür stehen folgenden Grundbegriffe?
Welche der folgenden Aussagen ist richtig?
Praktischer Exkurs: bestärkendes Lernen im Social-Media-Marketing
Ein Unternehmen möchte eine neue Social-Media-Kampagne starten, die ein großes Spektrum potenzieller Kundschaft erreichen soll. Allerdings ist das Werbebudget begrenzt. Folgende Fragen stellen sich:
Welche Zielgruppe soll angesprochen werden?
Welche Bilder und Texte eignen sich am besten?
Wann ist der ideale Zeitpunkt für die Anzeigen?
Anstatt jede Entscheidung manuell zu treffen, setzt das Unternehmen auf einen Algorithmus, der bestärkendes Lernen nutzt, um die Werbekampagne Schritt für Schritt zu optimieren.
Die KI-Werbeplattform agiert hierbei als Agent – ein lernender Algorithmus, der selbstständig herausfinden soll, welche Anzeigen die besten Ergebnisse liefern. Dabei interagiert sie mit der Umwelt, also den Social-Media-Nutzenden, die die Anzeigen sehen, sowie den Werbeplattformen (z. B. Instagram oder Facebook), die bestimmte Regeln für die Ausspielung festlegen.
#Jede Entscheidung basiert auf dem aktuellen Zustand der Kampagne. Der Algorithmus analysiert Daten in Echtzeit, darunter:
Wie viele Nutzende haben die Anzeige gesehen?
Wie hoch ist die Klickrate?
Gibt es bestimmte Uhrzeiten oder Wochentage, an denen die Anzeige besonders gut performt?
Welche Zielgruppen reagieren positiv oder negativ?
Basierend auf diesen Informationen führt die KI Aktionen aus, um die Performance zu verbessern, wie beispielsweise:
das Werbebudget anpassen → mehr Geld für erfolgreiche Zielgruppen investieren;
die Zielgruppe optimieren → Anzeigen verstärkt für Nutzende mit hoher Kaufwahrscheinlichkeit ausspielen; und
die Anzeige selbst verändern → unterschiedliche Texte, Bilder oder Farben testen, um herauszufinden, was positiv angenommen wird.
Nach jeder Aktion erhält die KI eine Belohnung, die zeigt, wie erfolgreich ihre Entscheidung war. Diese kann positiv sein (mehr Klicks, mehr Käufe) oder negativ (hohe Absprungrate, wenig Interaktion).
Erkläre folgende drei Begriffe:
Markov-Eigenschaft
MDP (Markov-Entscheidungsprozess)
Übergangswahrscheinlichkeit
Begriff
Bedeutung in einfachen Worten
Nur der aktuelle Zustand ist wichtig, die Vergangenheit spielt keine Rolle.
Ein Modell, in dem ein Agent in einer Umgebung Entscheidungen trifft, um Belohnungen zu maximieren.
Wie wahrscheinlich ist es, dass du mit einer bestimmten Aktion in den nächsten Zustand kommst?
Was ist die Wertfunktion?
Die Wertfunktion hilft dem Agenten (also der lernenden Maschine), zu verstehen:
„Wie gut ist es, in einem bestimmten Zustand zu sein?“ oder „Wie gut ist es, in diesem Zustand eine bestimmte Aktion auszuführen?“
Sie sagt also, wie lohnenswert ein Zustand oder eine Aktion ist, wenn man an die zukünftigen Belohnungen denkt.
Gib ein Beispiel aus der Praxis in denen eine Wertfunktion angewendet werden könnte.
Stell dir vor, ein Roboter läuft durch ein Labyrinth:
In manchen Feldern gibt es Belohnungen (z. B. den Ausgang finden).
In anderen gibt es Strafen (z. B. gefährliche Felder).
Die Wertfunktion sagt dem Roboter:
„Wie gut ist es, gerade hier zu stehen?“ „Wie gut wäre es, jetzt nach rechts zu gehen?“
So kann der Roboter lernen, welche Wege langfristig am besten sind, um die höchste Belohnung zu bekommen.
Was ist der Diskontuerungsfaktor?
Der Diskontierungsfaktor (oft als γ ausgesprochen „Gamma“) ist eine Zahl zwischen 0 und 1. Er zeigt, wie stark der Agent zukünftige Belohnungen bewertet:
Wenn γ nahe bei 1 ist → Der Agent denkt langfristig. Zukünftige Belohnungen zählen fast genauso viel wie sofortige.
Wenn γ kleiner ist → Der Agent denkt kurzfristig. Er will lieber sofortige Belohnungen.
Was ist das Ziel eines Agenten in einem MDP?
Das Ziel eines Agenten in einem MDP ist es, die Gesamtbelohnung zu maximieren.
Welche Informationen benötigt die Übergangsfunktion, um die nächste Aktion zu bestimmen?
Was ist TD-Lernen?
Das temporale Differenzlernen (TD-Lernen) ist eine Methode, mit der eine Maschine aus Erfahrung lernt, ohne ein genaues Modell der Umgebung zu kennen. Man sagt deshalb: Es ist ein modellfreier Ansatz.
Das bedeutet: Der Agent (z. B. ein Computerprogramm) lernt direkt aus dem, was passiert, anstatt vorher genau zu wissen, wie die Welt funktioniert.
Die Maschine vergleicht ihre Vorhersage von heute mit der Vorhersage von morgen und passt ihre Schätzung an, wenn sie merkt, dass sie gestern falsch lag.
Gib ein Beispiel aus der Praxis in dem das Temporale Diferenzlernen zur Anwendung kommt.
Stell dir vor, eine Maschine soll das Wetter vorhersagen:
Beim überwachten Lernen würde man jeden Tag warten, bis man das tatsächliche Wetter kennt, um die Vorhersage zu verbessern. → Beispiel: Am Dienstag weiß man, ob die Montag-Vorhersage richtig war.
Beim TD-Lernen vergleicht man die Vorhersage von Montag mit der Vorhersage von Dienstag, bevor man das echte Wetter kennt. → So kann die Maschine sofort aus ihren eigenen Schätzungen lernen, statt auf das Endergebnis zu warten.
Bitte markiere die richtige Aussage.
Was ist Q-Learning?
Q-Learning ist eine Methode des bestärkenden Lernens (Reinforcement Learning).
Der Agent (also das lernende System oder Programm)
lernt durch Ausprobieren und Bewerten seiner Aktionen, ohne vorher zu wissen, wie die Umgebung funktioniert.
Wie arbeitet der Agent die einzelnen Schritte beim Q-Learning ab?
Der Agent:
Startet zufällig und führt verschiedene Aktionen aus.
Bekommt eine Belohnung oder Strafe für jede Aktion.
Speichert, wie gut jede Aktion in einem bestimmten Zustand war.
Lernt, welche Aktionen langfristig die höchste Belohnung bringen.
Die q-Tabelle (oder Q-Matrix)
Das Herzstück von Q-Learning ist die Q-Tabelle.Diese Tabelle enthält für jeden Zustand und jede mögliche Aktion einen Q-Wert:
Zuletzt geändertvor 15 Tagen