Overconfidence
tritt auf als:
Überschätzung der eigenen Leistung (ggü. sich selbst und im Vergleich zu anderen)
Overprecision bei der Einschätzung des eigenen Wissens (z.B. hinsichtlich dessen Korrektheit und Aktualität)
Synonyme für Overconfidence
Selbstüberschätzung
Hybris
Vermessenheitsverzerrung
Experimentelles Design mit 98%-Konfidenzintervall WS 24
Beispiel 1:
„Ich bin zu 98% sicher, dass die gemessene Entfernung zwischen New Delhi und Peking zwischen x und y Kilometern liegt” - 3768 km
41% falsche Antworten
bei einem 98%-Intervall sind jedoch nur 2% falsche Antworten erlaubt
Beispiel 2:
A) in welchem Intervall liegt mit 98%iger Konfidenz die Wahrscheinlichkeit einer HIV-Infektion bei einem einzelnen ungeschützten Geschlechtskontakt unter Heterosexuellen, von denen einer infiziert ist? - Frau: 0.15%; Mann: 0.6%
untere Grenze: 84% drüber
obere Grenze: 2% drunter
B) Wie hoch ist diese Wahrscheinlichkeit bei Verwendung eines Kondoms? - 0.02%
untere Grenze: 63%
obere Grenze: 5%
Beispiel 3:
Wie alt wurde Charlie Chaplin? - 88
untere Grenze: 2%
obere Grenze: 55%
Beispiel 4:
Wann wurde Napoleon geboren? - 1769
untere Grenze: 17%
obere Grenze: 14%
Beispiel 5:
Wie hoch ist das Brandenburger Tor? – 26 m
untere Grenze: 13%
obere Grenze: 29%
Beispiel 6:
Wann landete die erste Sonde auf dem Mars? - 1976
untere Grenze: 34%
obere Grenze: 16%
Insgesamte Leistung WS 24 bei 98%-Konfidenzintervallen
Andere Beispiele zu Overconfidence in der Literatur
Bis wann wird Ihre Hausarbeit fertig?
Mit einer Wahrscheinlichkeit von 50%: 87% lagen drüber
Mit einer Wahrscheinlichkeit von 75%: 81% lagen drüber
Mit einer Wahrscheinlichkeit von 99%: 55% lagen drüber
Wie lange wird Ihre derzeitige Beziehung noch halten? (Buehler, Griffin & Ross, 1995)
mindestens 6 Monate
mittlere Konfidenz: 77%
tatsächlich: 65%
mindestens 2 Jahre
mittlere Konfidenz: 56%
tatsächlich: 43%
-> prädiktive Validität der Vorhersagen: ca. r = 0.4 (nicht sehr schlecht)
Kontrollillusion: eingebildete Kontrolle über Zufallsereignisse
Typischer Befund bei Overconfidence
unzureichende Diskrimination zwischen 30%- und 98%-Konfidenzintervallen
Anzahl der Misses bleibt trotz verschiedener Niveaus gleich
im Mittel ca. 70%
Typische Kalibrierungskurve bei Novizen
Kalibrierung hier = wie gut geschätzte Wahrscheinlichkeit mit tatsächlicher zusammenhängt
Unterschätzung kleiner %
Überschätzung großer %
Vergleich der Kalibrierung in verschiedenen Bereichen
Bridge-Spieler: sehr gute Kalibrierung
Wettervorhersage: sehr gute Kalibrierung
Ärzte: schlechte Kalibrierung
% Lungenentzündung
Gründe für unterschiedlich gute Kalibrierung
Novizen (in fast jeder Domäne) tendieren zur Overconfidence
mangelnde Berücksichtigung von Gründen, die gegen die eigene Einschätzung sprechen
gute Kalibrierung als Voraussetzung für Bridge
außerdem direktes Feedback; Strafe für schlechte Kalibrierung
professionelle Wettervorhersager bekommen detailliertes Feedback und berechnen routinemäßig ihre Trefferquote
Ärzte erhalten oft gar kein Feedback und müssen ihre Diagnose nicht in Wahrscheinlichkeiten ausdrücken
außerdem evtl. größere Konsequenzen, wenn eine Lungenentzündung übersehen wird
-> kein Feedback = keine Verbesserung
Auswirkungen von Overconfidence
1. Weltkrieg
Vietnam-Krieg
Entscheidung gegen Impfung
leichtsinniges Verhalten nach Impfung
Better than average – Illusory Superiority
68% der Dozenten der University of Nebraska glaubten, hinsichtlich ihrer Lehrfähigkeit zum besten Viertel zu gehören
94% der Dozenten derselben Universität glaubten, oberhalb des Mittelwerts zu liegen
93% der Studierenden glaubten in einer Studie in den USA, hinsichtlich ihrer Fähigkeiten als Autofahrer oberhalb des Mittelwerts zu liegen
25% der Studierenden glaubten in einer Studie in den USA, hinsichtlich ihrer Fähigkeit, gut mit anderen klarzukommen, zu den besten 1% zu gehören
Hypothese des depressiven Realismus
Depressive tendieren weniger zu Overconfidence
“sadder but wiser”
-> Overconfidence als wichtiger Mechanismus (Motivation, Optimismus)
Regression zur Mitte
statistisches Phänomen
≠ psychologisch
hat jedoch häufig Urteilsfehler zur Folge
Warum sind die meisten Traits normalverteilt?
Francis Galton (1822-1911) lieferte erste gute Erklärung
Galton-Brett als Modell für die Normalverteilung
viele Traits von Zufallsfaktoren abhängig
sehr viele Wege, um in die Mitte zu fallen
wenige Wege, um nach links oder rechts zu fallen - viele Faktoren müssen zusammenkommen
-> Regression zur Mitte
Errungenschaften von Francis Galton
Galton-Brett als Modell um die Normalverteilung zu verstehen
Anthropometrisches Labor
Hundepfeife (Frequenzen, die nur Hunde hören können)
Fingerabdrücke als Klassifikationssystem
Maß für Langeweile in Vorlesungen (Winkel zur Senkrechten)
Isobarenkarte
Gebiete gleichen Luftdrucks
Grundlage der heutigen Wettervorhersage
Weisheit der Vielen ("wisdom of the crowd”)
Kuchen schneiden
Kuchen schneiden (Francis Galton)
Beispiele für Regression zur Mitte
Fond-Rankings
Filmfortsetzungen
Trainerwechsel
Wahlergebnisse
israelische Luftwaffe
Therapieinterventionen
Radarfallen bei Unfallhäufung
Sophomore Slump
Sports Cover Illustrated Jinx
Erfolge von Geldanlagen
Rankings, wer am besten abschneidet
diejenigen die in einem Jahr den Markt am besten „vorhergesagt“ haben, konnten es in den folgenden Jahren nicht mehr
Affen sind genauso gut wie Finanzexperten
-> Markt kann nicht vorhergesagt werden, da von Zufallsfaktoren abhängig
Nützlichkeit von Trainerwechseln
Borussia Mönchengladbach (Saison 2015/16)
jede Mannschaft hat Leistungsschwankungen
nach einem Tief kommt jedoch meist wieder ein Hoch
-> Regression zur Mitte als Vorteil des Trainerwechsels interpretiert
viele Zufallsereignisse, die Wahlergebnisse beeinflussen
Skandale und Trends
unwahrscheinlich, dass glückliche Zufälle bei der nächsten Wahl wieder zusammenkommen (vice versa)
sehr gute Wahlergebnisse sind schwer zu verteidigen
absolute Mehrheiten sind die absolute Ausnahme
Beispiel: Wahlergebnisse der FDP
Bundestagswahl 2005: 9.8%
Bundestagswahl 2009: 14.6%
Bundestagswahl 2013: 4.8%
Bundestagswahl 2017: 10.7%
Bundestagswahl 2021: 11.5 %
Das Problem der israelischen Luftwaffe
Instruktoren der israelischen Luftwaffe lernen, dass man in der Pilotenausbildung bei guten Landungen loben soll und bei schlechten Landungen kritisieren
sie sind jedoch nach einer Weile oft der Meinung, dass nur die Kritik nach schlechten Landungen etwas nütze, während Lob nach guten Landungen eher zu einer Verschlechterung führe
Scheinbare Remission bei Therapieintervention
Therapieinterventionen meist bei Tiefständen
Peak durch Regression zur Mitte als Therapieeffekt interpretiert
schlechte Versuchsdesigns:
Messung erst ab Zeitpunkt X
keine Kontrollgruppe
-> nicht feststellbar, ob eine Verbesserung nur aufgrund der Regression von extremen Merkmalsträgern
Radarfallen werden meist dann aufgestellt, wenn viele Unfälle passieren oder sich Menschen über zu schnell fahrende Autos beschweren
Anzahl der Geschwindigkeitsüberschreitungen gehen zurück
wird als Erfolg der Radarfalle interpretiert
Regressionseffekt bei Pretest-Posttest-Untersuchungen
wählt man 10 Leute mit einem Score von 100 aus, so verteilen sie sich im Posttest um einen Score von 87,5 herum
Regressionseffekt bei Längsschnittuntersuchungen mit anfänglich gematchten Stichproben aus Populationen mit unterschiedlichen Mittelwerten
Beispiel:
2 Gruppen: advantaged und disadvantaged neighborhood
Intervention: z.B. schulische Zusatzförderung
im Pretest wird ein gleicher Mittelwert zwischen den Gruppen angestrebt (Matching)
in der advantaged Gruppe eher unterdurchschnittliche Werte
in der disadvantaged eher überdurchschnittliche Werte
-> diese Werte jedoch höchstwahrscheinlich durch Zufallseffekte zustande gekommen
im Posttest dann Diskrepanz der Mittelwerte
Interventionseffekt wird als differentiell interpretiert
Zuletzt geändertvor 8 Monaten