Was ist Evaluationsforschung?
Evaluationsforschung befasst sich – als Teilbereich der empirischen Forschung –mit der Bewertung von Maßnahmen, Programmen, Interventionen, Personen oder Strukturen.
Sie ist keine eigenständige Disziplin, sondern eine Anwendungsvariante wissenschaftlicher Forschungsmethoden auf eine spezielle Gruppe von Fragestellungen
Grundlagenforschung
Entwicklung von Theorien und deren Überprüfung mit dem Ziel zu beschreiben, erklären und vorherzusagen (z.B. Formen und Ursachen von Depression)
Interventionsforschung
Entwicklung und Überprüfung von Theorien, die auf zielgerichtete Veränderungen (Interventionen) abzielen (z.B. Therapieansätze und –techniken für Depression)
Evaluationsforschung
explizite Verwendung wissenschaftlicher Forschungsmethoden und –techniken (primär psychologische und sozialwissenschaftliche) für den Zweck der Durchführung einer Bewertung. Evaluationsforschung betont die Systematik und Wissenschaftlichkeit der Herangehensweise anstelle der reinen Behauptung bzgl. des Wertes und Nutzens einer bestimmten Aktivität.
Was sind allgemeine Merkmale der Evaluationsforschung
Evaluation bedeutet “Bewerten”, dient als Planungs- und Entscheidungshilfe und hat somit etwas mit der Bewertung von Handlungsalternativen zu tun.
Evaluation ist ziel- und zweckorientiert. Sie hat primär das Ziel, praktische Maßnahmen zu überprüfen, zu verbessern oder über sie zu entscheiden.
Evaluationsforschung soll dem aktuellen Stand wissenschaftlicher Techniken und Forschungsmethoden angepasst sein.
Als typisch wissenschaftliche Auftragsforschung im Praxisfeld hängen oft weitreichende Entscheidungen von ihr ab (z.B. Weiterführung einer Bildungsmaßnahme, Schließung einer sozialen Einrichtung, Änderung eines Gesetzes)
Evaluation (Bewertung)
Prozess der Beurteilung des Wertes eines Produktes, Prozesses oder eines Programmes, was nicht notwendigerweise systematische Verfahren oder datengestützte Beweise zur Untermauerung einer Beurteilung erfordert
Beispiele für Evaluationsforschung
Evaluation von Selbsthilfegruppen
Evaluation von Gesundheitskampagnen
Evaluation der Wirkung von Videoüberwachung in Parkhäusern
Evaluation eines Hospizes
Evaluation eines Computerlernspiels für Vorschulkinder zum Brandschutz
Anwendungsfelder der Evaluationsforschung
A&O-Psychologie: Effektivität eines Programms zur Verbesserung des Organisationsklimas
Forensische Psychologie: Auswirkungen von Befragungstechniken auf eine valide Erschließung des Tathergangs
Klinische Psychologie: Wirksamkeit von therapeutischen Ansätzen für eine Behandlung von Jugendlichen mit ADHS-Symptomatik
Pädagogische Psychologie: Wirksamkeit der Ganztagsschule auf die Ausbildung des selbstgesteuerten Lernens bei Schülern
Verkehrspsychologie: Beeinträchtigung des Fahrverhaltens von Kraftfahrzeugführern durch Handynutzung
Welche Funktionen haben Evaluationen?
Erkenntnisfunktion
Wissenschaftliche Erkenntnisse über Eigenschaften und Wirkungen von Evaluationsgegenständen, die das Wissen der Beteiligten und Betroffenen erweitern. Erfordert konkrete und messbare Ziele.
Lern- und Dialogfunktion
Verschiedene Beteiligtengruppen treten während der Evaluation in Kontakt zueinander und Dialog miteinander. Erfordert, dass die relevanten Stakeholder aktiv miteinbezogen werden.
Optimierungsfunktion
Zielgerichtete Verbesserung des Evaluationsgegenstandes: “evaluation’s most important purpose is not to prove, but to improve (Stufflebeam, 2003, S.4). Erfordert, dass konkrete und umsetzbare Verbesserungsvorschläge erarbeitet werden.
Entscheidungsfunktion
Evaluationsergebnisse sind oft entscheidungsrelevant (z.B. welche Psychotherapieverfahren durch die Krankenkassen bezahlt werden sollen). Erfordert klare Praxisempfehlungen, auch wenn die Entscheidung selbst üblicherweise nicht dem Evaluationsteam obliegt, sondern es nur relevante Entscheidungshilfen liefert.
Legitimationsfunktion
Durchführung und Befunde der Evaluation tragen dazu bei, Maßnahmen zu kontrollieren und nach außen zu legitimieren (z.B. Verwendung öffentlicher Gelder oder Maßnahmen). Erfordert Transparenz und Überparteilichkeit.
Evaluationsgegenstand
Untersuchungsgegenstand (evaluation object), auf den sich die Evaluation bezieht:
EinzelneInterventionsmaßnahmen (z.B. psychotherapeutische, pädagogische oder medizinische Verfahren)
größer angelegte Programme (z. B. Förder-, Weiterbildungs-, Gleichstellungs-, Integrationsprogramme), die auf individuelle, institutionelle oder gesellschaftliche Veränderungen abzielen.
Beispiele:
Institutionen und öffentliche Einrichtungen (z.B. Hochschulen)
Personen (z.B. Personal einer Organisation wie Lehrende an Hochschulen)
Unterricht und akademische Lehre (z.B. Studiengänge)
Interventionsmaßnahmen (z.B. Wirkung von psychotherapeutischen oder pädagogischen Verfahren)
Politikfelder und -system (z.B. Evaluation der Bildungs- oder Familienpolitik)
Präventionsmaßnahmen (z.B. Gesundheitskampagnen)
Infrastruktureinrichtungen (z.B. Zuverlässigkeit und Sicherheit ÖPNV)
Produkte (z.B. Medikamente, Holzschutzmittel, Usability technischer Geräte)
Anspruchsgruppen (stakeholder)
Da Evaluationen eine Vielzahl praktischer Konsequenzen haben können, ist die Berücksichtigung der Betroffenen und Beteiligten und ihrer Sichtweisen wichtig.
Zielgruppe: Kunden, Patienten, Teilnehmer, Angehörige, Freunde, ...
Beteiligte: Produkt- und Maßnahmeentwickler, Verantwortliche, Personal, Entscheidungsträger, ...
Evaluationsklienten
Beteiligte und Betroffene, die die Evaluation in Auftrag geben
Evaluationsrespondenten
Betroffene und Beteiligte, die direkt an der Datenerhebung teilnehmen (z.B. Fragebögen, Interviews, Gruppendiskussionen etc.)
Was sind Evaluationskriterien
Vorher: Kriterien zur Bewertung des Konzeptes einer Maßnahme
Im Vorfeld einer möglichen Realisierung einer Intervention soll das Konzept bzgl. Umsetzbarkeit und Durchführbarkeit evaluiert werden: Erwartete Kosten, erwarteter Nutzen, technische Realisierbarkeit, Personalaufwand, Bedarf und Größe der Zielgruppe, etc.
Währenddessen: Kriterien zur Bewertung der Durchführung einer Maßnahme
Die Maßnahme wird Zuge einer Prozess- oder Implementierungsevaluation (process evaluation, implementation evaluation) bewertet, z. B. mit Blick auf mögliche Anpassungen. Veränderungsbedarf: Intensität und Art der Nutzung, Zusammensetzung und Größe der tatsächlich erreichten Zielgruppe, Zufriedenheit der Zielgruppen, Zeit- und Kostenaufwand etc.
Nachher: Kriterien zur Bewertung der Ergebnisse einer Maßnahme
Wirksamkeit, Effizienz, Zufriedenheit, Akzeptanz, Sicherheit, Nützlichkeit, Nachhaltigkeit, unerwünschte Wirkungen. Bei der Ergebnisevaluation wird besonders häufig die Effektivität (Wirksamkeit) als Kriterium herangezogen (z. B. Lernfortschritt, Heilerfolg, Umsatzsteigerung). Ergänzt durch Effizienz, d.h. in welcher Relation Kosten und Nutzen der Maßnahme stehen.
Zielorientierte Evaluation (goal-based evaluation)
Die für eine spezifische Evaluation relevanten Kriterien und Zielsetzung können auf unterschiedlcihe Weise festgelegt werden und verschiedene Kriterien umfassen (ökonomische, ökologische, psychologische, soziale, ethische, ...) Beispiel:
Durch Auftraggeber:innen festgelegte Kriterien (z.B. ökonomische Kriterien)
Aus Programmzielen abgeleitet (z.B. Verbesserung der Depressionssymptomatik)
Abgeleitet aus den Bedürfnissen, Erwartungen und Anforderungen der Stakeholder
Etablierte und/oder existierende Qualitätsstandards (Ergonomie von Arbeitsplätzen,Umweltverträglichkeit von Bauprojekten, Barrierefreiheit von Bildungseinrichtungen, ...)
Expertenurteil (z.B. wissenschaftlicher Fachbeirat, Berufungskommission)
Wie sollten gute Ziele sein?
Gute Ziele sollten SMART sein:
Spezifisch – klar umrissen
Messbar
Ansprechend – Ziele müssen erstrebenswert sein
Realistisch - Ziele müssen erreichbar sein
Terminiert – Es muss ein klares Ende geben
Nicht-intendierte Wirkungen
Neben den intendierten Wirkungen, die durch die zielgerichtete Evaluation erfasst werden, sollten in umfassenden Evaluationen auch nicht-intendierte (positive oder negative) Nebenwirkungen erfasst werden.
Beispiel:
In einem strukturschwachen Wohngebiet wird ein kommunales Internetcafé eingerichtet, dass Bewohner für die Arbeitsplatzsuche nutzen können.
Es stellt sich heraus, dass das Internetcafé v.a. für Online-Chats, Social Media etc. verwendet wird.
Im Sinne einer zielorientierten Evaluation wäre die Bewertung negativ, da das intendierte Ziel (Online-
Jobsuche) verfehlt wurde.
Eine positive (aber nicht-intendierte) Wirkung könnte aber die soziale Integration sein
Insbesondere qualitative Methoden können gut geeignet sein, nicht-intendierte Wirkungen aufzudecken und zu erfassen.
Typen von Evaluationsstudien
Verteilung der Rollen: Fremd- und Selbstevaluation
Institutionelle Zugehörigkeit: Interne und externe Fremdevaluation
Evaluationsfunktion: Formative und summative Evaluation
Zeitpunkt: Konzept-, Prozess- und Ergebnisevaluation
Verwendete Methoden: Quantitative, qualitative oder beide Methoden (mixed methods)
Bei der Fremdevaluation sind die Evaluierenden nicht an der Maßnahme beteiligt (d.h. sind keine stakeholder), sondern Evaluierende und Evaluierte sind unterschiedliche Personen.
Bei der Selbstevaluation sind die Maßnahmenbeteiligten bzw. Praktiker diejenigen, die über die Ziele, Durchführung, Datenanalyse und Verwendung der Ergebnisse entscheiden.
Interne und externe Fremdevaluation
Bei der internen Fremdevaluation kommen die Evaluierenden aus derselben Einrichtung.Beispiel: Die Lehrenden der MSB werden durch Rektorat und Qualitätsmanagement evaluiert.
Bei einer externen Fremdevaluation kommen die Evaluierenden aus einer anderen Institution.
Beispiel: Ein Studiengang wird durch externe Gutachter evaluiert oder eine Forschungseinrichtung wird durch einen wissenschaftlichen Beirat evaluiert.
Formative (prozessbegleitende) Evaluation
Wird begleitend zu einer Maßnahme durchgeführt, d.h. die Maßnahme wird in regelmäßigen Abständen untersucht und Zwischenresultate erhoben. Dies geschieht (auch) mit dem Ziel, die laufende Maßnahme anzupassen und zu optimieren. Diese neuen Maßnahmen können wiederum evaluiert werden; zusätzlich besteht die Möglichkeit, subjektive Eindrücke von Betroffenen ohne retrospektive Verzerrungen zu erhalten
Summative (zusammenfassende) Evaluation
Ergebnisbewertende, d. h. nach dem Abschluss einer Maßnahme stattfindende Evaluation. Dies ermöglicht, die Wirksamkeit einer Maßnahme zusammenfassend zu bewerten und kann sich auf Konzeption, Durchführung, Wirksamkeit und Effizienz beziehen.
Quantitative Evaluation
Erhebung und Analyse quantitativer Daten.
Qualitative Evaluation
Erhebung und Analyse qualitativer Daten.
Mixed Methods
Sowohl quantitative als auch qualitative Methoden und Daten werden verwendet.
In den meisten Evaluationsstudien werden sowohl quantitative als auch qualitative Methoden und Daten verwendet.
Verschiedene Kriterien durch die Evaluationsansätze unterschieden werden können
Wirksamkeitsorientierte Modelle: Fokus auf Wirksamkeit (Effektivität) einer Maßnahme bzgl. eines oder mehrerer Kriterien
Effizienzorientierte Modelle: Bewerten das Verhältnis von Kosten und Nutzen einer Maßnahme (Effizienz).
Kosten-Effektivitäts-Analyse (cost effectiveness analysis, CEA)
Kosten-Nutzwert-Analyse (cost utility analysis, CUA)
Kosten-Nutzen-Analyse (cost benefit analysis, CBA)
Wie prüft man die Wirksamkeit?
Eingruppen-Posttest-Design (one-shot-case study)
Evaluation nach der Maßnahme (z.B. Abfrage rheumatischer Symptome)
Problem: Kein Vergleichsmaßstab / Kontroll- bzw. Vergleichsgruppe
Eingruppen-Prä-Posttest-Design
Vergleich vor Kur vs. nach Kur (pre-treatment vs. post-treatment)
Problem: Zwischenzeitliche Einflüsse oder andere Störfaktoren könnten Besserung verursacht haben
Prä-Post-Kontrollgruppen-Design
Vorher-Nachher-Vergleich in Experimental- und Kontrollgruppe
Probanden in Gruppen sollten randomisiert und/oder parallelisiert werden bzgl. potentiell relevanter Merkmale (Alter, Geschlecht, Schwere der Symptomatik etc.)
Kontrollgruppe bekommt keine oder erst später Behandlung ➝ Warte-Kontrollgruppe
Scheinintervention /-kontrolle (sham intervention)
tatt keine Maßnahme sollte Kontrollgruppe möglichst ähnlich behandelt werden, mit dem
Ziel der Isolierung des angenommenen Wirkmechanismus.
Medizin: Scheinoperationen, Placebo-Studien, Scheinakupunktur an ”unwirksamen” Punkten.P
ädagogische Psychologie: Kontrollgruppe bekommt unspezifischen Förderunterricht.
Solomon-4-Gruppen-Design
Vortest alleine kann schon Auswirkungen haben (z.B. wenn der schulische Leistungsstand durch einen Vortest gemessen wird).
Unterscheiden sich Gruppe 1 vs. 2 im Nachtest, kann das auf den Vortest zurückgeführt werden (oder präexperimentelle Unterschiede). Die gleiche Logik für Vergleich Gruppe 3 versus Gruppe 4.
Unterscheiden sich Gruppe 1 und 3 im Nachtest, aber nicht im Vortest, kann das auf die Wirksamkeit der Intervention zurückgeführt werden. Ähnlich können Unterschiede zwischen Gruppe 2 und 4 auf die Intrevention attribuiert werden (allerdings nur eingeschränkt, da mögliche Prä-Test-Unterschiede nicht erfasst werden)
Alternativen und Varianten zu Kontrollgruppendesigns
Vergleich mehrerer Maßnahmen (z.B. verschiedene Instruktionen für Handhabung eines Computerprogramms)
Mehrfache Anwendung der Maßnahme (z.B. Spendenaufrufe zu verschiedenen Jahreszeiten oder Ereignissen)
Gezielte Variation der Intensität einer Maßnahme (z.B. unterschiedliche Dosierungen von Medikamenten)
Natürliche Variation der Intensität einer Maßnahme (z.B. vergleichende Analyse der Wirkung einer Werbung in Abhängigkeit von Exposition)
Vergleiche mit Normen (z.B. Vergleich der Kalorienaufnahme nach Diät mit statistischen Durchschnittswerten)
Verschiedene Ansätze zur Bewertung der Effizienz einer Maßnahme:
Kosten werden an “natürlichem Wirkungsparameter” normalisiert.
Beispiel Adipositas-Therapie zur Gewichtsreduktion:
Therapie A ist effektiver als Therapie B, weil größere Gewichtsreduktion. Therapie B ist effizienter als Therapie A – 50€ pro Kilogramm versus 60€ pro Kilogramm.
Konstruierter Nutzwertparameter (utility) wird als Mess- und Vergleichseinheit verwendet. Erfordert, dass verschiedene Kriterien auf derselben Skala abgebildet werden können (z.B. Gewichtsreduktion in kg und subjektives Wohlbefinden)
Nutzwerte können sich zwischen Stakeholder-Gruppe unterscheiden (z.B. Patienten, Ärzte, Krankenkassen, Arbeitgeber, ...)
Qualitätskorrigiertes Lebensjahr (
als Maß für Effizienz in der gesundheitsökonomischen Evaluation; kombiniert Lebensdauer T (objektiv gemessen) und Lebensqualität Q (subjektiv gemessen; üblicherweise zwischen 0 und 1):
QALY = 1 entspricht einem Lebensjahr in voller Gesundheit; QALY = 0 bedeutet versterben
𝑄𝐴𝐿𝑌 = 𝑇 ∙ 𝑄
Beispiel: Chemotherapie verlängert Lebensdauer um 3 Monate (0,25 Jahre), führt wegen Nebenwirkungen aber zu Einbußen in der Lebensqualität, die Patient mit 0,8 bewertet.
QALY der Therapie wäre 𝑄𝐴𝐿𝑌 = 0,25 ∙ 0,8 = 0,2
Kosten von Maßnahmen werden an dem ebenfalls monetär gemessen Nutzen relativiert. Herausforderung:
Umrechnung in monetären Nutzen:
Monetärer Wert eines Menschenlebens oder eines QUALY? Monetärer Wert einer vom Aussterben bedrohten Tierart? Monetärer Wert eines Hochschulstudiums?
Willingness to pay und willingness to accept
Erhebung der (willingness to pay): Stakeholder werden nach ihrer subjektiven Zahlungsbereitschaft befragt, d.h. wie viel Geld sie für positive Effekte bereit wären zu zahlen (z.B. Reduktion von Rückenschmerzen, Verbesserung der Wasserqualität des örtlichen Sees).
Willingness to accept: Wieviel müsste man zahlen, damit negative Effekte (z.B. gesundheitliche Einschränkungen, Umweltbelastungen) in Kauf genommen werden?
Problem: Potentiell abhängig von Stakeholdergruppe, Einkommen etc.
Last changeda year ago