undefined

Buffl

Evaluation

von Marie F.

Definition: Evaluation

Der Prozess und das Ergebnis einer Beurteilung des Wertes eines Produkts. Prozesses oder eines Programms

Definition Evaluationsforschung

Prozess bei dem nach zuvor festgelegten Zielen und explizit auf den Sachverhalt bezogenen und begründeten Kriterien ein Evaluationsgegenstand bewertet wird
Mithilfe von sozialwissenschaftlicher Methoden
Produkt des Prozess besthet in Rückmeldung verwertbarer Ergebnisse in Form von Beschreibungen, begründeten Interpretationen und Empfehlungen

Was können Evaluationsgegenstände sein?

fast alle Aktivitäten und Stukturen können evaluiert werden
im psychologischen Kontext: Projekte, Programe, Therapien, Interventionen

Was sind typische Evaluationskriterien

Wirksamkeit ( Effektiviät)
Transfererfolg
Kosten-Nutzen-Bilanz (Effizienz)
Bedarf
Qualität des Interventionskonzepts
Qualität der Einführung und Implementation
Akzeptanz
Nachhaltigkeit
State of Art

Evaluationskriterien - Wirksamkeit (Effektivität)

Was wird darunter verstanden?

erwartete Wirkungen?
unerwartete Neben- oder Folgewirkungen?
Ist Wirkung von Maßnahme A besser als die von Maßnahme B?
Wirkungen langfristig messbar?

Evaluationskriterien - Transfererfolg

Was wird darunter verstanden?

Situationstransfer = Inhalte von einer Situation in einer anderen fremden übertragen
Anforderungstransfer= Wissen von einem Beispiel auf ein anderes Kontextähnliches übertragen

Evaluationskriterien - Kosten Nutzen Bilanz (Effizienz)

Was wird darunter verstanden?

steht wirksamkeit in angemessenen verhältnis zu den Kosten?
wie hoch sind tatsächliche Kosten der Maßnahme
Wie hoch betrieb. / volkswirtschaftlicher Nutzen
Ist Kosten-Nutzen Bilanz von Maßnahme a besster als von Maßnahme B?

Evaluationskriterien - Bedarf

Was wird darunter verstanden?

soziales Problem das einführung einer Intervention rechtfertigt/erfordert?
Wie ist unerwünschter Zustand?
Wer hält den zustand für unerwünscht? In welchem Ausmaß?

Evaluationskriterien - Qualität des Interventionskonzepts

Was wird darunter verstanden?

Wie ist die Intervention Konzipiert?
Welches Wirkmodell
basieren die expliziten/implizierten Annahmen die der Interventionskonzeption zugrunde liegen, auf plausiblen und empirisch bestätigt Theorien

Evaluationskriterien - Qualität der Einführung und Implemantation

Was wird darunter verstanden?

Rahmenbedingungen für erfolgreiche Umsetzung gegeben?
SInd alle Beteiligten informiert?
Wird Maßnahme so umgesetzt wie vorgesehen?

Evaluationskriterien - Akzeptanz

Was wird darunter verstanden?

Wird Maßnahme angenommen? Zufriedenheit der Teilnehmer?

Evaluationskriterien - Nachhaltigkeit

Was wird darunter verstanden?

Sind Konzeption einer Maßnahme und die Evaluation der Wirksamkeit auf Nachhaltigkeit ausgelegt?

Evaluationskriterien - State of Art

Was wird darunter verstanden?

Orientiert sich die Konzeption, die Implementierung und Evaluation einer Maßnahme an allgemeinen Standarts?

Arten von Evaluationsforschung

Welche Rahmenbedingungen gibt es?

Feld vs Labor
Parteiliche vs objektive/überparteiliche Evaluation ( parteilich= nicht wissenschaftlich)
geschlossene vs offene ( wie konkret ist Auftrag?)
vertrauliche vs. öffentliche ( Ergebnisse öffentlich zugäglich?)

Arten von Evaluationsforschung

Welche Evaluationsmodelle gibt es ?

Praxisorientiert
Entwicklungsorientiert ( verbesserung ähnlicher maßnahmen in zukunft)
Theorieorientiert ( Testung theoretischer fundierung einer Maßnahme)

Arten von Evaluationsforschung

Wie/ Auf was kann Evaluation ausgerichtet sein?

Makroebene =Gesamtbewertung
Mikroebene=einzelne Aspekte
Programmevaluierung
Imputevaluation ( Ressourcen, Rahmenbedingungen / andere Imputs für Maßnahme)
Complianceevaluation= Mitarbeit der Klienten
Outputevaluation= Ergebnisbewertung

Arten von Evaluationsforschung

Verschiedene Zeitpunkte für Evaluation

Prognostische Evaluation = Waas wird sein/ wie wird es sich entwickeln?
Prospektive Evaluation= Wie würde sich die Maßnahme auswirken?
Prozessevaluation = Begleitend, Zwischenevaluationen
Ergebnisevaluation = Outputevaluation

Arten von Evaluationsforschung

Welche Durchführungsmodi gibt es?

Intrinsische vs extrinsische Evaluation = innere struktur der Maßnahme vs deren Wirkung
interne vs extrerne E. = Selbstevaluation vs externe E
Summative vs formative E = Bewertung im Nachinein vs Optimierung
Vergleichende vs nicht vergleichende E = einer Maßnahme oder Vergleich

Arten von Evaluationsforschung

Was sind Metaevaluation und Metaanalyse

Metaanalyse = summative Metaevaluation = systematische Zusammenfassung mehrerer Evalauationen gleicher Maßnahmen
Programm Design Evaluation = Erfahrungszusammenfassungen mehrerer Maßnahmen für zukünftige Durchführungen

Zielsetzungen von Evaluationsforschung

Zustandsevaluation
Veränderungsevaluation
Wirksamkeitsevaluation

Zielsetzungen von Evaluationsforschung - Zustandsevaluation - Was ist das?

Ermitteln aller Eigenschaften/Attribute die Evaluationsgegenstand definieren und abgrenzen
z.B. Erhebung der Wartezeit auf Therapieplatz

Zielsetzungen von Evaluationsforschung

Veränderungsevaluation - Was ist das?

Zustand des Evaluationsgegenstandes im zeitlichen Prozess
Diagnose:Veränderung über mehrere Erhebungen hinweg
Prognose: Aussagen über einen Zeitpunkt in der Zukunft
Retrognose: Aktuelle sutation wird mit Vergangenheit verglichen
Z.B. PISA

Zielsetzungen von Evaluationsforschung

Wirksamkeitsevaluation - Was ist das?

Evaluation der Folgen einer Intervention
z.B. Effektivität einer Therapie

Gütekriterien von Evaluationen

Allgemeine Gütekriterien - Komplexität eines Evaluationsgegenstandes

alltagspraktische Komplexität sollte abgebildet werden
muss sich in theorie und methodischem Zugang wiederspiegeln

Gütekriterien von Evaluationen

Allgemeine Gütekriterien - Gultigkeitsbereich einer Fragestellung

Gultigkeitsbereich & Anwendbarkeit muss klar definiert sein
bsp: LernApp für bestimmte Klassen/ Schulen / mit oder ohne Anleitung

Gütekriterien von Evaluationen

Allgemeine Gütekriterien - Objektivierbarkeit

Erkennbarkeit: muss empirisch erfasst sein
Bestammbarkeit : bestimmte Parameter müssen definiert werden
Dokumentierbarkeit: Beobachtungen müssen dokumentiert werden
BSP: Lehrqualität vs. Bauchgefühl

Gütekriterien von Evaluationen

Allgemeine Gütekriterien - Transparenz

was auf welche Art beobachtet wurde muss Transparent werden

Gütekriterien von Evaluationen

Psychometrische Gütekrierien

Objektivität, Reliabilität, Validität
Skalierung und Normierung
Ökonomie
Nützlichkeit
Zumutbarkeit
Unverfälschbarkeit
Fairness

Gütekriterien von Evaluationen

Interne Validität

Hypothesenbasiertes Evaluationsdesign ist in der Lage eine eindeutige Aussage über die Annahme oder Ablehnung der entsprechenden Hypothese zu liefern

Gütekriterien von Evaluationen

Externe Validität

Es ist möglich die Ergebnisse auf andere Kontexte zu generalisieren

—> Interne Validität ist nicht hinreichend für externe Validität

Evaluationsstandards - Nützlichkeit

Identifiezierung der Beteiligten und Betroffenen
Klärung Evaluationszwecke
Glaubwirkeits/Kompetenz der Evaluatoren
Auswahl /Umfang der Infos
Transparenz der Werte
Vollständigkeit / Klarheit der Berichterstattung
Rechtzeitigkeit der Evaluation
Nutzen / Nutzung der Evaluation

Evaluationsstandards - Durchführbarkeit

Angemessene Verfahren = Praxisverträglich
Diplomatisches Vorgehen für hohe Akzeptanz
Effizienz= angemessenes Kosten-Nutzen Verhältnis der Studie

Evaluationsstandards - Fairness

Formale Vereinbarungen
Schutz individueller Rechte
Vollständige und Faire Überprüfung
Unparteiische Durchführung und Berichterstattung
Offenlegung der Ergebnisse

Evaluationsstandards - Genauigkeit

Eindeutige Beschreibung des Evaluationsgegenstandes
Kontextanalyse
Beschreibung von Zwecken/Vorgehen
Angabe von Infoquellen
Valide und reliable Infos
Systematische Fehlerprüfung
Begründete Schlussfolgerungen

Evaluationsmodelle

Evaluationsprozess nach Tyler (1949)

Schritte der Evaluation besodners im Bildungsbereich

Grundidee: Zielle—> Operationalisierung durch Verhalten —> Messung —> Inerpretation

7 Schritte

Darstellung in Tyler Matrix

Evaluationsmodelle

Evaluationsprozess nach Tyler (1949) die 7 Schritte

Formulierung allgemeiner Ziele
Klassifikation der Ziele
Beschreibung dieser Ziele durch geeignete Verhaltensbereiche
Identifikation von Situation und Bedingungen in denen das fragliche Verhalten gezeigt werden kann
Auswahl oder Entwicklung von wissenschaftlichen Messmethoden
Datengewinnung
Vergleich zwischen Ergebnissen und Zielen

Evaluationsmodelle

Evaluationsprozess nach Tyler (1949) - Die Tyler Matrix

In jeder Zelle werden spezifische Situationen und Bedingungen beschrieben, in denen das relevante Verhalten beobachtet werden könnte

Evaluationsmodelle

Bewertungsorientierte Ansätze nach Owen/Wolf

Idee: Evaluation ist wie die Urteilsbildung in einem gerichtsverfahren = Judical Evaluation Model

Zwei Evaluatoren mit teams die gegensätzliche Positionen vertreten

Jury aus Auftraggeber, Betroffenen , Beteiligten

Prozess mit Plädoyers, Zeugenanhärungen, Verhören, Diskussionen

Evaluationsmodelle

Nutzungsorientierte Ansätze nach Kirkpatrick(1959)

kategorien von Zielen und Kriterien für Evaluationen im Bildungsbereich

Evaluationsergebnisse auf unterschiedlichen Ebenen

Reaktionsebene (reaction,satisfaction)
Ebene des Lernerfolgs ( learning)
Verhaltensebene ( behavior)
Objektive Endergebnisse (results, outcome)

Evaluationsmodelle

Nutzungsorientierte Ansätze nach Kirkpatrick(1959)- Die erweiterung durch Schenkel (2000)

Produktebene : Qualität des Produkts
Reaktionsebene: Akzeptanz,Zufriedenheit,Nutzungsbereitschaft,Nützlichkeit
Lernebene: Erfolge auf Wissens-/Kompetenzebene
Handlungsebene: beobachtbares Verhalten z.b. Transfer
Erfolgsebene: Effizienz
Return on Investment Ebene (ROI) : Langfristige Gewinne

Evaluationsmodelle

Normative Ansätze nach Balzer (2005) - Rahmenschritte des Prozesses

Evaluationsbedarf
Evaluationsauftrag
Evaluationsgrundlagen (Mikromodell)
Rahmenbedingungen der Evaluation
Methodische Planungen
Durchführung der Evaluation
Datenauswertung
Präsentation und Berichtlegung
Dissemination der Ergebnisse
Nutzung der Ergebnisse
Bewertung der Evaluation

Evaluationsmodelle

Normative Ansätze nach Balzer (2005) - Aufsplittung des Schrittes Evaluationsgrundlagen = Mikromodell

Bestimmung des Evaluationsgegenstandes
Bestimmung der Akteure ( Auftraggeber, Entscheidungsträger, Evaluatoren etc)
Evaluationsziele und fragenbereiche
Bestimmung der Bewertungskriterien
Bestimmung theooretischer Grundlagen

Was wird unter einer quantitativen Metaanalyse verstanden ?

Besondere Form der Übersichtsarbeit
spezielle Forschungssynthese
Ziel: Zusammenfassung der Ergebnisse aus verschiedenen Primärstudien die sich mit der gleichen Forschungsfrage befasst haben zu einem Gesamteffekt (=Berechung eines gewichteten Mittelwerts aus Effektstärken der Primärstudien)
Einsatz vonstatistischen Verfahren
Keine einheitliche statistische Datenanalysemethode : Gruppen von Verfahren, unspezifisches Untersuchungsdesign
bestimmte Gewichtungen sowie Modellannahmen werden getroffen (Effektmodell)
Wahrscheinlichkeit ist wahren Populationswert aufzudecken bei Metaanalyse höher durch Teststärke, Konstruktvalidität, Interne/externe Validität
Verschiedene Einsatzbereiche/Themenfelder/Fragestellungen = Wissentransfer, Wirksamkeitsüberprüfung, Auswirkungen bestimmter Verhaltensweisen

Untersciedliche Ansätze von Metaanalyse -Welche gibt es?

Homogenitätsbasierte MA
Psychometrische MA
Bayes´sche MA

Aber: auch innerhalt eines Ansatzes unterschiede z.b. unterschiedliche strenge ein/ausschluss kriterien, verschiedene Annahmen zum Effektmodell

Probleme bei der Durchführung von Metaanalysen

Welche gibt es ?

Notwendige Mindestanzahl an Primärstudien
Publication Bia
Apfel/Birnen Problem
Garbage in Garbage Out Problem
Problem abhängiger Untersuchungsergebnisse
Missung Data Problem

Probleme bei der Durchführung von Metaanalysen

Was versteht man unter :

Notwendige Mindestanzahl an Primärstudien

Aussagekraft steigt mit steigender Anzahl Primärstudien
Relevanz davon abhängig von welchem modell ausgegangen wird
A priori Teststärkenanalyse kann dies berechnen aber sorgt für neue Probleme
Pragmatisch : erst ab best. Anzahl an Zusammenfassungen zielführend —> Themenabhängig
Bei neuen Forschungsfeld mit wenig Primärstudien sind prospektive kommulative MA denkbar

Probleme bei der Durchführung von Metaanalysen

Was versteht man unter :

Publication Bias

Tendenz: Theoriekonforme Befunde werden eher publiziert/ als publizierwürdig erachtet
File-drawer Problem
Würde MA nur mit veröffentlichten Primärstudien durchgeführt, Gefahr einer systematischen Verzerrung in Richtung signifikanter Ergebnisse
—>Gegenmaßnahmen: unpublizierte Primärstudien recherchieren, Verfahren, die Verzerrungen abschätzen bzw. korrigieren
im weiteren Sinne Language Bia, Citation Bias, Availability Bias

Probleme bei der Durchführung von Metaanalysen

Was versteht man unter :

Äpfel und Birnen Problem

Uniformitäts Problem
Gegenmaßnahmen: Kriterien, die Primärstudie für die Aufnahme in die Metaanalyse erfüllen muss
- Voraussetzung: Methodenwissen sowie inhaltliche Erfahrung im spezifischen Forschungsfeld
Prüfen, ob Ähnlichkeit einen Einfluss hat

Probleme bei der Durchführung von Metaanalysen

Was versteht man unter :

Garbage in Garbage out Problem

Wenn Primärstudien qualitativ wenig hochwertig sind ( Garbage in) dann kann das Ergebnis der MA auch nicht hochwertig werden ( Garbage out)
Gegenmaßnahme: Methodische Prüfung der Primärstudien, Statistisch prüfen ob methodische Quali der Primärstudien den Gesamteffekt unterschiedliche beeinflussen

Probleme bei der Durchführung von Metaanalysen

Was versteht man unter :

Problem abhängiger Untersuchungsergebnisse

i.d.r nicht nur eine Effektstärke in Primärstudie berichtet—> abhängige Ergebnisse sowie eine Mehrfachrepräsentation in MA stichprobe als folge
Gegenmaßnahmen: unterschiedlich z.b. Auswahl wichtigester Effektstärken

Probleme bei der Durchführung von Metaanalysen

Was versteht man unter :

Missing Data Problem

In Primärstudien werden Effektstärken nicht / unvollständig berichtet
Gegenmaßnahme: Anschreiben der Autoren

Durchführung einer Metaanalyse- die 9 Schritte

Forschungsfragen der MA formulieren
Primärstudien —> Literatursuche
Geeignete Primärstudien auswählen und kodieren
Metaanalystisches Modell
Primärstudien: einheitliche Effektstärkenberechnung
Gesamteffekt berechnen und Prüfung auf signifikanz
Homogenitätsprüfung
Heterogenität erklären : Moderatorvariablen und Subgruppenanalyse
Ergebnisse präsentieren und interpretieren

Durchführung einer Metaanalyse - 1. Forschungsfrage(n) der MA formulieren

Forschungsthema wählen
Forschungsproblem eingrenzen
konkrete Forschungsfragen und hypothesen ableiten
- vorraussetzung fragestellung wurde schon untersucht,
- identifikation& verdeutlichung von relevanten Fragestellungen des Forschungsfeldes statt generierung neuer Fragen
- abklärung relevanter konstrukte
entscheidung über aussagekraft der MA wird hier getroffen

Durchführung einer Metaanalyse - 2. Primärstudien:Literatursuche

Ergebnis der MA abhängig von Quantität & Qualität der Primärstudien
Ziel: alle geeigneten Arbeiten im Themenfeld vollständig erfassen
Elektronische Datenbanken oder Zitierte Literatur
Verhinderung von Publication Bias durch Einbeziehen nicht publizierter / künftig publizierter Literaut
- Grad der Verzerrung statistisch abschätzen durch Funnel Plot ,Fail-Safe-N, Trim-and-Fill-Prozedur

Durchführung einer Metaanalyse - 2. Primärstudien:Literatursuche

Was ist die Trim-and-Fill Prozedur

Imputationsverfahren
Ziel: Effektstärkenschätzung, die vom Publications Bias bereinigt wurde
Trim: iterativer Prozess= Kleine Studien mit extremen Effekten werden von der Gesamteffektberechnung ausgeschlossen, Endet, wenn der Funnel Plot Symmetrie aufweist
Neue Effektstärkenberechnung mit reduzierten Studienpool
Fill: eliminierte Effekte der Studie werden mit spiegelsymmetrischen Wert eingesetzt
- Erhöht Varianz, wobei neue Gesamteffekt unverändert bleibt
Starke Veränderung des Gesamteffektes durch diese Prozedur gelten als Hinweis auf Publication Bias
Stärke des Ausmaß der Fehleinschätzung des Populationseffekt wird deutlich

Durchführung einer Metaanalyse - 2. Primärstudien:Literatursuche

Was ist ein Funnel Plot

Weitgehend symmetrischer Trichter = unwahrscheinlich, dass Publication Bias vorliegt
Asymmetrie erkennbar = Publication Bias liegt nahe

Durchführung einer Metaanalyse - 2. Primärstudien:Literatursuche

Was ist Fail Safe N

Abschätzung, wie viele nichtsignifikante Studien eingehen müssen, die nicht publiziert wurden, um einen signifikanten Gesamteffekt statistisch auf einen nichtsignifikanten Gesamteffekt zu reduzieren
Einsatz fragwürdig: Methode wird als problematisch angesehen und deren Sinn diskutiert

Durchführung einer Metaanalyse - 3 Geeignete Primärstudien auswählen und kodieren

Sichtung der gefundenen Literatur nach inhaltlichen& methodischen Kriterien —> Ausschluss von ungeeigneten Studien
Entwicklung von theoretisch begründeten Ein- und Auschlusskriterien
- Inhaltliche Begründung durch Forschungshypothese
- MethodischeMindestanforderungen explizit erwähnt umd Grabage in/garbage Out problem vorzubeugen
- UV und AV sowie Kontrollvariablen untereinander vergleichbar sein
- Umgang mit mehreren Teilergebnissen an der gleichen Stichprobe
  - auswahl relevante Teilergebnisse
  - Selektion auf wenige Effektstärken
  - gesonderte univariate MA für interessierende Effektstärken
  - Multivariate MA
Studienanzahl die eingeschlossen werden kann stark variieren
Kodierung der eingeschlossenen Studien nach allen relevanten Merkmalen: Stichprobenumfang, Effekstärkenmaß, Moderatorvariablen, methodische Merkmale
Flussdiagramm PRISMA

Durchführung einer Metaanalyse - 4 Metaanalystische Modell

Abhängig on metaanalytischen Modell variiert Berechung der Gewichtungsfaktoren der Primärstudieneffektstärken aus denen Gesamteffekt geschätzt wird
Modelle sind Fixed Effect Modell, Random Effect Modell, Mixed Effect Modell

Durchführung einer Metaanalyse - 4 Metaanalystische Modell

Fixed Effect Modell

Annahme: alle Studien erfassen exakt denselben Populationseffekt
Quelle für unterschiedliche Effektstärken: Stichprobenfehler
- Studien mit geringen Stichprobenumfang weisen einen höheren Stichprobenfehler auf
Prüfung der Nullhypothese: geschätzte Populationseffekt jeder Primärstudie ist Null
Sinnvoll einsetzbar, wenn sich eingehende Studien nicht stark in der Operationalisierung unterscheiden
- Kann mit Homogenitätstest geprüft werden
- Bei vorliegender Heterogenität muss Unterschiedlichkeit durch Moderatorvariablenanalyse und Subgruppenbildung erklärt werden

Durchführung einer Metaanalyse - 4 Metaanalystische Modell

Random Effects Modell

Annahme: Primärstudien messen verschiedene Populationseffekte
- Quelle von Unterschieden in den Effektstärken Stichprobenfehler und systematische Unterschiede zwischen Primärstudien
Prüft Nullhypothese: Mittelwert der Effektstärkenschätzung der Primärstudien beträgt Null
Kann bei vorhandener Heterogenität angewendet werden und diese nicht vollständig durch die Moderatorvariablenanalyse aufgeklärt werden kann
Konfidenzintervalle breiter als bei Fixed Effect Modell

Durchführung einer Metaanalyse - 4 Metaanalystische Modell

Mixed Effect Modell

Kombination aus Fixed Effect Modell und Random Effects Modell
Modell kommt bei heterogenen Primärstudien imHinblick auf inhaltlicher konzeptioneller und statistischer Ebene zum Einsatz
Nur ein Teil der Heterogenität lässt sich durch Moderatorvariablenanalyse aufklären

Durchführung einer Metaanalyse- 5. Primärstudien: einheitliche Effektstärkenberechung

Um Gesamteffektschätzung zu machen müssen Effektstärken der Primärstudien in einheitliches Effektstärkenmaß transformiert werden
Effektstärkemaß abhängig von Ziel der Forschungshypothese z.b. Vergleich von Interventions- mit Kontrollgruppe —> standardisierte Gruppendifferenzmaße Cohens d oder Hedges g

Durchführung einer Metaanalyse - 6 Gesamteffekt berechnen und Prüfung auf Signifikanz

Zusammenfassung der Effektstärken in gewichteten Mittelwert
Gewichtung abhängig von MA modell

Durchführung einer Metaanalyse - 7 Homogenitätsprüfung

Durchführung einer Metaanalyse - 8 Heterogenität erklären: Moderatorvariablen und Subgruppenanalyse

Moderatorvariablen können theoretisch begründete ausgewählte Variablen sein
Überprüfung bsp mit Meta Regression —> bei signifikanten ß der Moderatorvariablen bildung von Subgruppen
Subgruppenanalyse beim Fixed Effect Modell —> Überprüfung der Bedeutsamkeit eines möglichen Moderators, Homogenitätsprüfung der durch Moderatorvariable gebildeten Subgruppen

Durchführung einer Metaanalyse - 9 Ergebnisse präsentieren & interpretieren

Tabellarische Darstellung der Ereignisse z.v. Forrest Plot
Genause Interpretation der Ergebnisse —> Theoretische Bedeutung, Praktische Bedeutung

Was ist Zustandsevaluation

Beschreibung und Bewertung des ISt- Zustands

Meist mit Ziel der Optimierungsbedürftigkeit —> Evaluation als Basis für Entscheidung ob Intervention Notwendig ist

Ziele und Funktionen der Zustandsevaluation

Ermittlung des Bedarfs für eine Intervention

Erfüllung gesetzlich vorgeschriebener Berichtspflicht ( z.b. Nachweis über Lehrdeputat)

Entscheidung über Fortführung einer Maßnahme

Beschreibung /Bewertung von Zuständen

Was ist Multimethodale Diagnostik

Wenn Variablen nicht direkt beobachtbar sind —> mehrere unterschiedliche Methoden nützlich

z.b. Unterschiedliche Datenquellen ( Perspektiven), Methoden der Datengewinnung (Leistungstests, Verhaltensbeobachtung, Textanalyse etc), Manifestationsebenen ( Kognition, Emotion,Verhalten)

Beschreibung /Bewertung von Zuständen

Was ist der Qualitative Ansatz

Ziel: Exploration eines Zustandes

Subjektivität erwünscht, Realität ist was Betroffene denken

Qualitätskriterium: Inhaltsvalidität

Flexible Datenerhebungsmethoden

Ausprägungsunterschiede zwischen Personen,Situationen und Zeitpunkten können verglichen werden mit “ anders als”

Beschreibung /Bewertung von Zuständen

Was ist der Quantitative Ansatz

Ziel: Messung der Merkmalsausprägungen

Objektivität ist Qualitätskriterium, Realität möglichst reliabl und valide abgebildet

Qualitätskriterien: Objektivität, Reliablilität, Validität

Datenerhebungsmethode mit Messmodell

Ausprägungsunterschiede sind “gleich” “mehr” oder “weniger”

Beschreibung /Bewertung von Zuständen

Gefahren bei Messungen - Was sind die typischen motivierten Verzerrungen& Verfälschungen die (auch) im Feld auftreten?

Selbstdarstellungstendenz, soziale Erwünschtheit
Aufforderungscharakter der Befragungssituation ( Erwartungen der Teilnehmer)
Hawthrone Effekt ( Teilnehmer wissen das sie beobachtet werden)
Rosenthal Effekt / Pygmalion Effekt

Beschreibung /Bewertung von Zuständen

Gefahren bei Messungen - Was sind die typischen unmotivierten Verzerrungen & Verfälschungen bei Fremdbeurteilungen die (auch) im Feld auftreten?

Primacy Effekt (erster Eindruck)
Recency Effekt (letzter Eindruck)
Halo Effekt (Überstrahlung)
Bestätigungsfehler
Assimilationsfehler (oberflächlich ähnliche Personen, werden ähnlich bewertet)

Kontrasteffekt

Beschreibung / Bewertung von Zustanden

Beschreibung der Häufigkeit - Schwierigkeiten bei Häufigkeitsmessungen

Zeitliche Fluktuation
Unmöglichkeit der Totalerhebung
Hellfeld vs Dunkelfeld

Beschreibung / Bewertung von Zustanden

Beschreibung der Häufigkeit - Epidemiologie - Prävalenz und Prävalenzrate

Prävalenz = Anzahl der Erkrankten

Prävalenzrate= Anteil der Erkrankten

Beschreibung / Bewertung von Zustanden

Beschreibung der Häufigkeit - Epidemiologie - Lebenszeit Prävalenz und Inzidenz

Lebenszeitprävalenz= Wahrscheinlichkeit der Erkrankung über die Lebensspanne

Inzidenz : Neuerkrankungen innerhalb eines Zeitraumes

Beschreibung / Bewertung von Zustanden

Strategien der Stichprobenziehung

Probabilistische vs. nicht probabilistische Stichproben ( Wahrscheinlichkeit der Auswahl bekannt)
Stratifizierung ( geschichtete Stichprobe)
- A priori Stratifizierung: Zufallsauswahl nach Schicht z.b. Geschlecht
- Ex Post Stratifizierung : Gewichtung der Ergebnisse im Nachinein
Quotenstichprobe: wie Stratifzierung aber Auffüllen der Schicht statt Zufallsauswahl

Beschreibung / Bewertung von Zustanden

Vergleichskriterien - Welche Möglichkeiten um Ist- Zustand zu bewerten?

Normative Vergleiche
- Idealnorm ( 600 PISA Punkte)
- Kriterale Normen ( Klausur bestehen)
- Realnorm ( Durchschnittswerte haben)
Empirische Vergleiche
- sozialer Vergleich z.b. Gruppen oder Regionen
- Temporaler Vergleich

Beschreibung / Bewertung von Zustanden

Statistische Signifikanz - Hypothesen Testung

Wahrscheinlichkeit das die vorliegende Stichprobe aus einer Population mit bestimmten Eigenschaften stammt z.b. mit ANOVA, z Test etc

Beschreibung / Bewertung von Zustanden

Statistische Signifikanz - Praktische Bedeutsamkeit

bedeutet nicht gleich praktische bedeutsamkeit
Effektstärkemaß zur Abschätzung z.b. Cohens d
Empfehlungen zur Bewertung dieser Effektstärkemaße, z. B. Cohens d=0.5 entspricht einem „mittelgroßem “ Effekt

Zustandsevaluation PISA

Wofür steht PISA und was wird da gemacht?

PISA = Programme for International Student Assessment

Vergleichsstudie der OECD

Datenerhebung alle 3 Jahre seit 2000

Hauptfragestellung: Wie gut sind 15 Jährige auf die Anforderungen in einer Wissensgesellschaft vorbereitet

Hauptziel: Feststellen, wie gut Jugendliche ihr in der Schule gelerntes Wissen in alltäglichen Situationen anwenden können

Bewertet Mathe, Naturwissenschaften, Lese Kompetenzen

Zustandsevaluation PISA

Deutsche Beteiligung

Alle 16 Bundesländer
Schüler in Testgruppen unterteilt.
In Deutschland insgesamt 12300 Schüler—> Pro schule 30 und zusätzlich 15 ( nationaler vergleich) der 9. Klasse
Unterschiedliche Schüler bekommen unterschiedliche Auswahl an Fragenpools
ca 2 Stunden

Zustandsevaluation PISA

Wie läuft die Kompetenzmessung und wann gilt Kompetenz als erreicht

Unterschiedliche Itemschwierigkeiten
Kompetenzstufe erreicht wenn Aufgaben dieser Schwierigkeit mit hinreichender Sicherheit gelöst werden

Zustandsevaluation PISA

Kompetenzmessung - Lesekompetenz/ mathematik und Naturwissenschaften

Lese: Verstehen und Nutzen von texten sowie Reflexion, Lesekompetenz sehr breit und komplex
Mathe: Grundbildung, Aus alltag bekannte begriffklickeiten, Entnahme von Infos aus Tabellen etc
Naturwissenschaften: Wissen anwenden. Eigenschaften der NW als eine Form emnschenlichen Wissens und Forschens verstehen

Zustandsevaluation PISA

Kritik

Nicht rein wissenschaftlich z.b. Items werden geheim gehalten, Daten nicht mehr veröffentlicht
Utilitarisches Bildungsziel
Qualität der Aufgaben z.b. unterschiedliche Kompetenzen je nach Lösungsweg
Mangelnde interkulturelle Vergleichbarkeit z.b. Übersetzungsprobleme, Textlänge, Vertrautheit mit Aufgabenformat
Testung einer Alterskohorte statt einer Klassenstufe—> benachteiligung bei späterer Einschulung oder Wiederholung
Anlage vs. Umwelt gehen unterschiede wirklich auf Scule zurück?
Schule vs außerschulische Bildung
“Sehr aufwändige IQ messung”

Beschreibung und Bewertung von Veränderungen

Veränderungen - Was kann Sich verändern? Mit Beispielen

Quantitative Veränderung ( “mehr” oder “weniger” stark ausgeprägt)
- Investitionen, Prävalenz von Depression
Qualitative Änderung ( Andersartigkeit)
- neue Formen von Gewalt, Kommunikationskanäle von Schulern
Mischformen
- neue Kommunikationskanäle dazu gekommen und Nutzungsgrad hat sich verändert
Unterschiedliche Analyseeinheiten wie Individuum, Gruppe, eine Sache
- Individuum: Therapieverbesserung
- Gruppe : Nutzung von Öffis
- Sache: Ausstattung von Schulen in PISA

Beschreibung und Bewertung von Veränderungen

Welche Veränderungsmaße gibt es

Differenzmaße auf Einzelfallebene ( Punkte einer Person haben sich reduziert ) und Gruppenebene ( Belastung durch Depression während Covid hat in bevölkerung zugenommen) —> Relativierung mithilfe von Merkmal. Standartabweichung wichtig
Häufigkeitsveränderungen auf Populationsebene
Trendanalyse
Zeitreihenanalyse

Beschreibung und Bewertung von Veränderungen

Maße auf Einzelfallebene - Was ist die Standardisierte Differenz und Klinische Signifikanz?

Standardisierte Differenz: Individuelle Differenz relativiert an der Standardabweichung des Merkmals

Klinische Signifikanz: Reliable Change Index (RCI), Individuelle Differenz relativiert an der Standardabweichung der Veränderung

Beschreibung und Bewertung von Veränderungen

Maße auf Gruppenebene

Was ist die Durchnittliche intraindividuelle und interindividuelle Veränderung?

Durschnittliche intraindividuelle Veränderung = Veränderung der gleichen Personen über die Zeit ? Messwiederholung
Durchschnittliche Interindividuelle Veränderung = Vergleich unterschiedlicher Personen über die Zeit

Beschreibung und Bewertung von Veränderungen

Häufigkeitsveränderungen

auf Populationsebene?

auf Populationsebene : Prävalenz , Inzidenz

Chi Quadrat Test bei Kontingenztabellen

Bezugssystem wichtig

Beschreibung und Bewertung von Veränderungen

Trendanalyse

oft mithilfe von Regressionsmodellen mit Zeit als Prädiktor

Lineare oder quadratische Trends oder Trends höherer Ordnung

Beschreibung und Bewertung von Veränderungen

Zeitreihenanalysen - Was ist das

Verfahren zur Analyse von intraindividuellen Veränderungen in bezug auf Trends oder z.b. saisonale Veränderungen
Vorhersage von Verkäufen mit saisonaler Schwankung und Konfidenzintervallen

Beschreibung und Bewertung von Veränderungen

Methode Probleme - Welche können auftreten?

Direkte vs indirekte Messung der Veränderung
Verzerrungen und Verfälschungen
Änderungssensitiviät
Regressionseffekt

Beschreibung und Bewertung von Veränderungen

Methode Probleme - Direkte vs indirekte Messung

Indirekte Messung = zwei Messzeitpunkte z.b. Vorher nacher Messung
- Pro = weniger anfällig für absichtliche Verzerrungen, guter indikator für objektivierbare Veränderungen
- Con= Anfällig für Effekte die mit echter Veränderung nichts zutun haben , Gefahr der selketiven Drop outs
Direkte messung= subjektive veränderung im Rückblick
- Pro= ökonomisch weil nur ein Messzeitpunkt, guter indikator für subjektive Veränderung
- Con=Anfällig für absichtliche Verzerrungen wie Konfirmationseffekt, selektive Gedächtniseffekte ; hoher Aufforderungscharakter

Beschreibung und Bewertung von Veränderungen

Methode Probleme - Verzerrungen und Verfälschungen

bei indirekter Messung

Errinerungseffekte = VP weiß noch was beim ersten mal geantwortet wurde
Testübung = Test bei wiederholung leichter
Sensibilität für Fragestellung
Zwischenzeitliches Geschehen z.b. wirtschaft hat sich verändert
Response shift: subjektiver Maßstab bei Rating kann sich verändern

Beschreibung und Bewertung von Veränderungen

Methode Probleme - Verzerrungen und Verfälschungen

bei direkter Messung

Konfirmationseffekt = Endergebnis bekannt daraum selektive oder verzerrte Erinnerung
Selektive Gewichtung von Infos z.b. recency effect
Assimilations und KOntrasteffekte = abweichungen werden über oder unterschätzt

Beschreibung und Bewertung von Veränderungen

Methode Probleme - Änderungssensitivität

Messinstrument muss in der Lage sein die Veränderung auch zu messen
Probleme : zu hohe oder geringe psychometrische Schwierigkeit
Messung von stabilen Eigenschaften ( traits) statt von zustanden (states)

Beschreibung und Bewertung von Veränderungen

Methode Probleme - Regressionseffekt

“regression zur Mitte”
Statistischer effekt durch Untersuchung einer Extremgruppe
Tritt immer auf wenn Autokorrelation <1 und identische Varianzen der Messzeitpunkte da sind

Beschreibung und Bewertung von Veränderungen

Was ist eine Moderatorvariable

Zusammenhang zweier Variable wird durch eine dritte Variable Verändert

Beschreibung und Bewertung von Veränderungen

Moderatoren von Veränderungen

Kann wichtig sein zu analysieren wovon Veränderung abhängt oder unter welchen Bedingungen sie auftritt
z.b.
- Subgruppen wie Geschlecht/ Alter
- Kontextbedingungen wie Region/ Schultyp
- Zeitpunkte wie Training nur im Winter effektiv
BSP= Therapeierfolg bei Depressionen durch Moderator Therapeutenbeziehung beeinflusst

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Unterschied Wirksamkeit und Wirkung

Wirksamkeit= die durch eine Maßnahme verursachten beobachteten Konsequenzen ( Effekte)
Wirkung= die modelltheoretisch angenommenen Mechanismen ( Prozesse) die zu den Beobachteten Effekten geführt haben

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Welche Gründe gibt es für Wirksamkeitsforschung?

Optimierung der Maßnahme geht nur wenn Wirkmachanismus bekannt ist
Notwendige Bestandteile oder Durchführungsbedingungen können nur mit Wirkungsanalyse identifiziert werden
Kostenreduktion für Maßnahme nur möglich wenn Wirkmachanismus bekannt ist

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Wirkmodelle - Was ist die theoretische Basis der Wirkungsanalyse

Spezifikation der Prozesse
Begründung warum eine Maßnahme wirken sollte
Randbedingungen von denen die Wirkung abhängt

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Theorie und Wirksamkeit

Welche Ursachen gibt es für einen ausbleibenden Effekt?

Grundlagenebene = Theorie falsch, Randbedingungen nicht erfüllt
Technologische Ebene = Intervention nicht korrekt aus Grundlagentheorie abgeleitet
Implementationsebene= konkrete Umsetzung mangelhaft
Evaluationsebene= Effekt ist aufgetreten wurde von Evaluation aber nicht nachgewiesen z.b. durch mangelnde sensitivität oder ungeeignete Kriterien

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Welche Wirkzusammenhänge gibt es außer Ursache-Wirkung?

Multiple Ursachen
Multiple Auswirkungen
Moderatorvariable = Verändert zusammenhang zwischen zwei Variablen
Mediatorvariable= stellt zusammenhang zwischen zwei Variablen her

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Moderatorvariable Beispiel

Zusammenhang von “in einer Beziehung” und “Lebenszufriedenheit” unterscheidet sich in verschiedenen Altersgruppen —> Bei 35-39 mehr als bei 60+
Stat. analyse —> Nachweise meist über Interaktionseffekt in Regression bzw in der Varianzanalyse

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Mediatorvariable Beispiel

Kontakt mit einer Minderheit reduziert Angst. Weniger Angst fürt zu weniger Vorurteilen gegenüber Minderheit
Stat. Analyse—> Nachweis über Mediatoranalyse: Vergleich der direkten Regression mit den Teilregressionen

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Wie wird die Wirksamkeit gemessen

Festlegung von Wirkungsbereichen z.b. durch Ableitung aus Zielen, Ebenenmodell von Kirkpatrick
Operationalisierung festlegung
Datenquellen definieren ( z.B. Selbsteinschätzung, Fremdeinschätzung,Dokumentenanalyse)

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Welche Gütekriterien gibt es zusätzlich hierzu ?

Anlehnung an die Inhalte der Maßnahme
Neutralität gegenüber der Intervention
Angemessene Schwierigkeit

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Was ist Persistenz und wie wird die gemessen

= Effekte der Maßnahme ( z.b. Erwerb von Fähigkeiten) sollen dauerhaft seon ( Nachhaltig)
Messung durch Follow up ein oder mehrfach
Unterschiedliche Zeitverläufe möglich z.b. stabile Wirksamkeit, Wirksamkeitsverlust, Wirksamkeitsgewinn ( Persistenzgradient

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Was ist Transfer ? Welche zwei Arten von transfer gibt es?

=Effekte der Maßnahme sollen auch in Kontexten außerhalb der Maßnahme verhaltenswirksam sind
Arten: Situationstransfer = ANwendung auf gleichartige Situationen; Anforderungstransfer= das gelernte hilft auch neue anforderungen besser zu meistern

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Was ist transfer aus psychologischer Sicht

Überführung von deklarativen Wissen in prozedurales Wissen
Vermittlung metakognitiver Strategien
Nutzung von Prinzipien studierten Lernen

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Bedingungen für erfolgreichen Transfer

Variation von Praxisbedingungen
Kontextuelle Interferenz, komplexes Lernumfeld
Verteiltes Lernen
Eingeschränktes Feedback —> erst viel dann weniger
weniger lernen mehr abrufen

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Neben und Folgewirkungen

Nebenwirkungen= Wirkungen, die paralell zur Wirksamkeit verlaufen aber nicht intendiert und Einfluss auf die Wirkung haben —> positiv und negativ

Folgewirkungen= Wirkungen die sich erst später manifestieren aber auf die Intervention zurückzuführen sind —> positiv und negativ

Evaluation der Wirkung und Wirksamkeit einer Maßnahme

Robustheit was ist das

Idealerweise generalisiert die Wirkung über Kontexte, Personen, Zeitpunkte und Evaluationsstudien
Spezifikation von Moderatorvariablen hilft Randbedingungen zu erkennen
MA als stat. Mittel zur Überprüfung der Robustheit

Evaluation des Nutzen und der Kosten einer Maßnahme

Entscheidung über Maßnahmen - welche Kriterien gibt es dazu ?

Anhang absoluter Kosten = Was ist günstigste Maßnahme unabhängig von der Wirksamkeit
Allein anhand Wirksamkeit= Was ist effektivste Maßnahme unabhängig der Kosten
Anhand Wirksamkeit im verhältnis zu den Kosten = Was ist die effizienteste Maßnahme ?

Evaluation des Nutzen und der Kosten einer Maßnahme

Quantifizierung von Kosten - Verscheidene Kostenarten

Manifeste Kosten ( tatsächlich gezahlt) z.b. Planungskosten oder Materialkosten
Latente Kosten z.b. staatliche Versorgungsmaßnahmen, volkswirtschaftlichen Schaden
Opportunitätskosten: entgangener Nutze durch nicht wahrgenommene Möglichkeiten

Evaluation des Nutzen und der Kosten einer Maßnahme

Nutzen - Was ist das

Nutzen belegt Wirksamkeit mit einem Wert
Nutzen = Wirksamkeit x Wert

Evaluation des Nutzen und der Kosten einer Maßnahme

Nutzen - Besonderheiten und Schwierigkeiten

Quantifizierung sozialer Werte, z. B. Leben, Krankheit, verhinderter Unfall
Quantifizierung von Neben und Folgewirkungen: nicht immer bekannt
Zeitpunkt und zeitliche Dynamik der Wirksamkeit (vgl. Persistenzgradienten ): wenn sich die Wirksamkeit verändert, muss das auch bei der Nutzenbewertung berücksichtigt werden
Wirkungs-Nutzen Relation: Zusammenhang von Wirkung und Nutzen nicht immer linear
Perspektivenabhängigkeit: Wert und Nutzen kann für unterschiedliche Beteiligte stark variieren; Beispiel: Kosten für einen Gefangenen aus Sicht des Anstaltsleiters vs. Gesellschaft
Multivariate Nutzenfunktionen

Evaluation des Nutzen und der Kosten einer Maßnahme

Wirkungs-Nutzen-Relation erklären an Beispiel

Jede verhinderte HIV Infektion erhöht den Nutzen (1)
Steigerung der Absatzzahl bringt dem Unternehmen ab einem bestimmten Punkt durch höhere Kosten keinen Vorteil mehr (2)
Erhöhung der sozialen Kompetenz wird erst ab einer bestimmten Effektgröße sichtbar(3)
Übermäßige Gewichtsabnahme ist schädlich (4)

Evaluation des Nutzen und der Kosten einer Maßnahme

Nutzen , Besonderheiten& Schwierigkeiten

Perspektivenabhängigkeit - mögliches Vorgehen

getrennte Kosten Nutzen Analysen für

Perspektive des Individuums
Perspektive des Geldgebers/Sponsors
Perspektive der sozialen Gemeinschaft

Evaluation des Nutzen und der Kosten einer Maßnahme

Modelle der Effizienzanalyse

Wie Sollen kosten und Nutzen miteinander verechnet werden?

Kosten Nutzen Analyse
Kosten Effektivitäts Analyse

Evaluation des Nutzen und der Kosten einer Maßnahme

Modelle der Effizienzanalyse - Kosten Nutzen Analyse Kennwerte

Nettonutzen NN = Differenz von Nutzen und Kosten NN= N-K

Nutzenquotient= Verhältnis von Nutzen zu Kosten

Profitrate PR = Verhältnis vom Nettonutzen zum Nutzen

Evaluation des Nutzen und der Kosten einer Maßnahme

Modelle der Effizienzanalyse - Kosten Effektivitäts Analyse

Nutzen nicht immer in Geld ausdrückbar

Stattdessen Vergleich von Maßnahmen über Wirkungseinheiten

bsp Kosten pro erfolgreich behandelter Person

Evaluation des Nutzen und der Kosten einer Maßnahme

Nutzenschwelle

Break Even Point= ab welchem Punkt entsprechen sich Kosten und Nutzen?
bsp: Mindestabsatz, Mindeszahl zu erreichender Personen durch Präventionskampange