Klassische Konditionierung
keine Kontrollierbarkeit: Reize werden unabhängig von Reaktionen dargeboten
passiver Erwerb
Kontingenz und Kontiguität bestimmen Wahrscheinlichkeit der CR bei AUftreten des CS
Bsp.: -Geschmacksaversion - Angstkonditionierung - positive Reaktion auf einen Song
Operante Konditionierung
assoziative Lernformen: Erwerb von Assoziationen zwischen mehreren Stimuli
• Kontrollierbarkeit: REaktion des Organismus bestimmt, ob Reiz erscheint
-Erwerb von zielgerichteten und damit instrumentellem Verhalten:
Konsequenz einer Handlung bestimmt Wahrscheinlichkeit, mit der diese in Zukunft gezeigt wird
-Bsp.: - Kind darf spielen, wenn Zimmer aufgeräumt
-Hund bekommt Futter, wenn an der Straße gewartet
Erste Experimente von Edward Thorndike (1898)
• zum Öffnen benötigte Zeit (Latenz, y-Achse) verringert sich bei Wiederholung
• nach vielen Durchgängen ist erste Handlung das Öffnen des Käfigs
• insgesamt langsame und scheinbar irreguläre Veränderung
• Schlussfolgerung: Tiere lernen nach Versuch und Irrtum (Trial and Error)
Thorndikes “Law of Effect”
• Thorndikes Beobachtungen:
o Verbindung zwischen einer Reizsituation und einem Verhalten / Reaktion wird verstärkt, wenn Verhalten/Reaktion belohnt wird
o Verbindung zwischen einer Reizsituation und einem Verhalten/Reaktion wird geschwächt, wenn auf Verhalten negative Konsequenz hat (z.B. Bestrafung)
• Thorndike (1927) stellte mehrere Lerngesetze auf:
o Gesetz der Bereitschaft
o Gesetz der Übung
o Gesetz der Wirkung (Law of Effect):
➢ positive Konsequenzen (z.B. Futter) stärken die Verknüpfung zwischen Situation (im Käfig eingeschlossen sein) und Reaktion (Pedale drücken)
➢ negative Konsequenzen (z.B. Elektroschock) schwächen die Verknüpfung zwischen Situation und Reaktion
Primäre, sekundäre und generalisierte Verstärker
• Gemäß dem Law of Effekt wird die Wahrscheinlichkeit eines Verhaltens in einer Situation erhöht, wenn dies zu positiven Konsequenzen führt
o Primäre positive Verstärker sind Reize, die ohne vorherige Lernvorgänge verstärkend wirken, z.B. Nahrung, Flüssigkeit, sexuelle Aktivität
o Sekundäre positive Verstärker sind ursprünglich neutrale Reize, die mit primären Verstärkern zusammen präsentiert wurden und dadurch
ebenfalls verstärkend wirken (bunte Papierscheine → Geld → Nahrung…)
o Generalisierte Verstärker sind verstärkende Reize, die auf eine Vielzahl von Verhaltensklassen modifizierend einwirken können (z. B. Geld, soziales Prestige etc.)
• nicht nur Objekte können als Verstärker genutzt werden:
o häufig gezeigtes Verhalten kann weniger häufiges Verhalten verstärken: Premack-Prinzip („Wenn du heute joggst, schaue wir danach deine Lieblingsserie “)
Studien von Skinner
• Burrhus F. Skinnner (1904–1990) griff Arbeiten von Pawlow und Thorndike auf und unterschied zwischen respondentem (KK) und operantem Verhalten (OK).
• Skinner entwickelte sogenannte SkinnerBox, um den Erwerb und die Löschung von operantem Verhalten systematisch als Funktion von Verstärkungsart und Verstärkungsplan zu studieren.
Verstärkerpläne
• Phasen von Erwerb und Löschung auch bei OK:
o Anwesenheit von Verstärkung führt zum Erwerb: Anstieg der Auftretenswahrscheinlichkeit
o Abwesenheit von Verstärkung zur Löschung: Abnahme der Auftretenswahrscheinlichkeit
• Verlauf der Verhaltensänderung ist vom Verstärkerplan abhängig:
o Verstärkung nach bestimmter Zeit (Intervall) oder nach bestimmter Häufigkeit des Verhaltens (Quote)
o Verstärkung nach festem oder variablen Prinzip
Feste vs. variable Verhältnis-/Quotenpläne
Feste vs. variable Intervallpläne
Optimale Verstärkerpläne
• Verhältnis-/Quoten-Pläne führen zu höheren Verhaltensraten als Intervallpläne
o schneller Erwerb
• Variable Pläne im Vergleich zu festen Plänen führen zu
o kontinuierlich gezeigtem Verhalten
o höherer Löschungsresistenz
Generalisierung und Diskrimination
• Tendenz zur Generalisierung auf ähnliche Situationen (ähnliche Hinweisreize) und die Fähigkeit zur Diskrimination zw. Hinweisreizen) auch bei OK
• Diskrimination ist nur nach zusätzlichen Lerndurchgängen möglich
o Es wird gelernt, unter welchen Bedingungen ein Verhalten erfolgreich ist
Kann neues Verhalten erlernt werden?
• Grundidee bei Thorndike: Verhalten kann nur dann verstärkt werden, wenn es zufällig gezeigt wird
• um Versuchstieren neue Verhaltensweisen beizubringen, braucht es speziellen Versuchsplan: Methode des Shapings - stufenweise Annäherung des Verhaltens
o zuerst wird Verhalten belohnt, das grob in Richtung des gewünschten Verhaltens weist
o danach sukzessive Anpassung des Verstärkungskriteriums: Verhalten muss dem Gewünschten immer ähnlicher werden, um verstärkt zu werden
• weiterer Ansatz ist die Kombination von KK und OK: Erwerb von Verhaltensketten
o belohntes Verhalten wird durch Paarung mit Verstärker zum sekundären Verstärker, das ermöglicht Kettenkonditionierung (Chaining)
• nach Skinner erklären Shaping und Chaining den Erwerb aller komplexer Verhaltensweisen
o Ansatz gilt heute als widerlegt
Was wird gelernt: Dreifachkontingenz
• Operantes Konditionieren führt zum Erwerb von Dreifachkontingenzen
o zentral ist Zusammenhang zwischen einer Reaktion (R), einer bestimmten Situation, gekennzeichnet durch einen diskriminativen Hinweisreiz, und einer Konsequenz (C)
o wird gelernt, dass ein Stimulus (z.B. Licht an, Eltern gestresst) eine Situation kennzeichnet, in der ein Verhalten (z.B. Hebeldruck, quengeln) zu einer bestimmten Konsequenz führt (z.B. Futter, Schokolade)
Kausales Lernen?
• OK erweckt den Eindruck, dass Lebewesen den kausalen Zusammenhang zwischen ihren Reaktionen und den mögl. Konsequenzen erlernen
• Wassermann et al. (1993) zeigten, das dies möglich ist: menschliche Vpn sollten Taste (R) drücken
o manchmal ging dadurch Licht (O) an [P(O/R)]
- UV 1: P(O|R) zwischen 0 und 1
o manchmal Licht (O) ohne Tastendruck [P(O/¬R]
- UV 2: P(O|¬R) zwischen 0 und 1
o AV: Einschätzung ob eigene Reaktion Licht hervorbringt (positiver Werte) oder verhindert (negative Werte)
→ Einschätzungen der Vpn hängen von beiden UVs ab
→ Indiz für kausale Einsicht
Lernen ist damit nicht nur der Aufbau von Assoziationen sondern auch der Erwerb von Wissen über instrumentelle Mittel-Zweck-Relationen.
Negative Verstärkung und Bestrafung
• Law of Effect macht Aussagen zur Wirkung positiver und negativer Konsequenzen
o Positive Konsequenz: Zunahme der Auftretenswahrscheinlichkeit
o Negative Konsequenz: Abnahme der Auftretenswahrscheinlichkeit
Belohnung vs. Bestrafung
• Wirkung von Belohnung vs. Bestrafung auf Verhalten beim impliziten Lernen:
Untersuchung durch Paradigma der Serial Reaction Time Task (SRT)
• Wächter et al. (2009) kombinierten SRT mit Belohnung (gelb, +4 Cent bei schnellerer RT) und Bestrafung (blau, -4 Cent bei langsamerer RT)
o Implizites Lernen in „sequential blocks“
o Belohnung führt zu schnelleren RTs
o unmittelbare Wirkung von Bestrafung stärker: schnellerer Abfall der RTs
• Wächter et al. (2009) untersuchten auch längerfristige Effekte: Testphase ohne Belohnung oder Bestrafung
o nur Belohnungsgruppe zeigt stärkeren Abfall der RTs in „sequential–block“ als Kontrollgruppe
o nur Belohnung aber nicht Bestrafung verbesserte das implizite Lernen
• Weitere MRT-Studien zeigen unterschiedliche neuronale Grundlagen für Belohnung vs. Bestrafung
Dopamin, Belohnung und Lernen
• Dopamin spielt entscheidende Rolle bei Wirkung von Belohnung
• ist wichtige Grundlage unserer Lernfähigkeit: Dopaminerger Vorhersagefehler (Schultz et al., 1997)
o dopaminerge Zellen reagieren nicht auf Belohnung selbst
➢ am Anfang löst Belohnung starke Aktivität aus
➢ über die Zeit verlagert sich die Aktivierung: nicht mehr die Belohnung selbst, sondern der Stimulus der Belohnung ankündigt, ist mit höchster Aktivität verbunden
o dopaminerges System arbeitet nach Prinzip der Vorhersage
➢ repräsentiert den Unterschied zwischen erwarteter und tatsächlichen Belohnung
➢ positive Abweichung (= positive prediction error) führt dazu, das Verhalten häufiger gezeigt wird
• Idee der zentralen Rolle der Vorhersage wird im Rahmen der Theory of predicted processing (Clark 2013, Friston 2010) als generelle Grundlage für perzeptuellen und kognitiven Prozesse gesehen
Wann hilft Bestrafung?
• Wirkung von Bestrafung von mehreren Einflüssen abhängig:
o wirkt wenn negativ, unmittelbar und begründet (kontingent)
• Bestrafung führt zu schneller Abnahme der Verhaltenshäufigkeit
o Intensität der Bestrafung korreliert positiv mit Abnahme
o Steigerung der Intensität ist weniger effektiv
• Bestrafung führt zu oft ungewollten Konsequenzen:
o Generalisierung, also Übertragung auf Situationen, in denen Verhalten eigentlich erwünscht
o Diskrimination, also Abnahme oft nur in spezifischen Situationen
o Bestrafung führt zu negativen Emotionen gegenüber strafender Person
o Korrelation zw. Bestrafung und aggressivem Verhalten beobachtet
• Bestrafung führt nur zur Unterdrückung unerwünschten Verhaltens in spezifischen Situationen
• Abbau unerwünschten Verhaltens ist besonders erfolgreich, wenn gleichzeitig alternatives Verhalten positiv verstärkt wird
Vermeidungslernen
• basiert auf negativer Verstärkung:
o Verhalten bewirkt, dass ein negativer Reiz verschwindet
o negative Verstärkung führt zu Steigerung der Auftretenswahrscheinlichkeit
o Lernen durch negative Verstärkung ist Vermeidungslernen
• Solomon, Kamin, & Wynne (1953): Hunde sprangen weiter in sichere Kammer, auch wenn kein Schock mehr erfolgte
o Vermeidungsverhalten ist oft sehr löschungsresistent
o Vermeidung verhindert zu erfahren, das negative Konsequenz ausbleibt
Erlernte Hilflosigkeit
• Ablauf von Studien zur erlernten Hilflosigkeit (z.B. Overmier & Seligman, 1967; Hiroto & Seligman, 1975)
o Phase 1: Kontrollgruppe: Reiz gefolgt von negativer Konsequenz → kann durch eigenes Verhalten vermieden werden Experimentalgruppe: Vermeidung nicht möglich
o Phase 2: Vermeidungstraining
o Ergebnis: Kontrollgruppe lernte Vermeidungsverhalten Experimentalgruppe zeigte negative Emotionen, aber kein Vermeidungsverhalten
• „Erlernte Hilflosigkeit“ ist nach Seligman die Erfahrung, dass Bestrafung nicht durch eigenes Verhalten beeinflusst werden kann
o erschwert den (weiteren) Erwerb und/oder Ausführung instrumenteller Reaktionen
o es wird gelernt, dass eigenes Verhalten keinen Effekt hat
Biologische Einschränkungen
• Mittels OK neu erlernte Verhaltensweisen verändern sich:
o Instinktiver Drift: Eindringen von adaptiven Verhaltensweisen in neu konditioniertes Verhalten
• nicht alles Verhalten gleich gut als Vermeidungsverhalten geeignet:
Bsp. Tauben: sollen lernen Elektroschock durch Verhalten zu beenden
➢ geht gut durch Schlagen der Flügel
➢ geht schlecht durch Picken auf Taste
• nicht alle Reize eignen sich gleich gut als diskriminative Hinweisreize
o Lebewesen haben biologische Prädispositionen für bestimmte Reize
• neues Verhalten kann auch ohne direkte Verstärkung erworben werden:
o siehe Studien zum latenten Lernen und Beobachtungslernen
o Belohnung ist wichtig beim Ausführen/Anwenden von Verhaltensweisen, der Erwerb kann auch ohne Belohnung erfolgen
• Operantes Konditionieren kann durch kognitive Prozesse beeinflusst werden
Last changed2 months ago