1.1 Multivariate Analysemethode: Grundlagen
1.1.1 Empirische Untersuchungen und quantitative Datenanalyse
Ziele
—> Beschreibung Wirklichkeit (deskriptive Analyse)
—> Prüfung theoretisch entwickelten Aussagen, Hypothesen (konfimatorische Analyse)
—> Entwicklung von (bisher unbekannten) Zsm.hangen mit Datensatz (explorative Analyse)
Datenbasis
= Stichprobe (Teilmenge größerer Grundgesamtheit)
—> erhobene Daten beziehen sich auf verschiedene Merkmale + Ausprägung
Variable
Variable = numerisch kodierte Merkmale von Objekten, Darstellung als Buchstabe
—> Werte = Eigenschaften von Objekten
manifeste (direkt messbar, beobachtbar, z.B. Geschlecht, Größe)
—> latente (nicht direkt beobachtbar, Zsm.hang mit manifesten, z.B. Vertrauen, Intelligenz)
—> Messung latente Variable = Operationalisieren nötig , z.B. kompositionelle Ansätze
geteilte Variablen
geteilte (eine AV + 1 bis mehrere UV, wenn Merkmale durch Beobachtung erklärt werden)
—> Dependenzanalyse (Regressions-, Varianz-, Diskriminanzanalyse)
—> Unabhängigkeit und linker Verknüpfung der UV wichtig
—> ungeteilte Variablenmenge = Interdependenzanalyse (Faktoren-, Clusteranalyse)
Skalenniveau der Variablen
UV, AV
UV = x-Variable, erklärende Variable, Prädiktor-Variable, Kovariate
AV = Y-Variable, erklärte Variable, Response-Variable
1.1.2 Skalenniveau von Daten und besondere Typen von Variablen
Querschnitts-, Längsschnittdaten
Querschnittdaten = an einem Punkt, in einem Zeitintervall Daten gesammelt
—> Zeitreihendaten/ Längsschnittdaten = Daten in regelmäßigen Zeitabständen erhoben
—> Kombi beider Arten möglich
Beobachtungsdaten
Beobachtungsdaten = Umfragen, durch Befragten gewonnen, Anwender hat keinen Einfluss auf Antwort
—> experimentelle Daten = Anwender manipuliert UV’s + beobachtet AV
Skalenniveau empirischer Daten
Messen = Eigenschaften (Merkmale) von Objekten (Personen) numerisch ausdrücken
Skalenniveau nach Stevens
Nominalskala = Merkmalsausprägung (z.B. Geschlecht, Religion, Farbe)
—> Klassifizierung (z.B. rot = 1, gelb = 2 usw.), Wahl Zahl ist willkürlich
—> nur Häufigkeiten
Ordinalskala = Aufstellung Rangordnung, ohne Abstände, Rangwerte = 1,2,3
—> z.B. Bildungsstand, Produktqualität
—> Häufigkeiten, Median, Quantile
Intervallskala = gleich große Skalenabschnitte
—> z.B. Temperatur
—> Mittelwerte, Standardabweichungen, Korrelationen
Ratio-/ Verhältnisskala = höchstes Messniveau, hat natürliche Nullpunkt
—> bei physischen Merkmalen (z.B. Länge, Gewicht, Geschwindigkeit), Einkommen, Preis
—> Quotient, Verhältnis, Anwendung aller arithmetischen Operationen, statistischer Maße
Verwendung Ratingskalen in empirischen Untersuchungen
= v.a. bei verhaltenswissenschaftliche Studien
Einschätzung Aussagen mithilfe von Zahlenwerten
—> z.B. Bewertungsskalen, Wichtigkeitsskalen, Intensitätsskalen, Zustimmungsskalen
—> Praxis: meist 5-Punkt-Skalen
Binärvariable und Dummy Variable
dichotome Variable = nur zwei Kategorien:
—> Ja-Nein-Entscheidung, Test auf Krankheit (positiv/ negativ), Münzwurf, Geschlecht
—> Kodierung 0 und 1 = Dummy Variable/ Binärvariabel
Nominalvariablen mit mehr als 2 Kategorien = nicht metrisch behandeln
Dummy Variablen = wie metrische Variablen behandelt
—> Korrelation mit metrischen Variablen berechnet = punkt-piserielle Korrelation
—> Spezialfall Bravis-Pearson-Korrelation
1.1.3 Klassifikation multivariater Analysemethoden
Struktur prüfende Verfahren
Ziel: Überprüfung Zsm.hänge zwischen Variable
—> kausale Abhängigkeit von interessierender Variable von UV (Einflussfaktoren)
z.B. Regressionsanalyse, Varianzanalyse (ANOVA), Diskriminanzanalyse, logistische Regression
Kausalanalysen (wie stark z.B. Wetter auf Ernteertrag auswirkt)
Voraussetzung: Anwender muss vorab gute Vorstellung über Kausalzsm-hang haben
—> Unterteilung in AV und UV
Struktur prüfende Verfahren: Tabelle AV, UV
Struktur prüfende Verfahren: Regressionanalyse
= Beschreibung/ Erklärung Zsm.hänge und Durchführung von Prognosen
—> Wirkungsbeziehung zwischen AV und UV (quantifizierte, exakte Beschreibung möglich)
—> mit Hypothesen Wirkungsbeziehungen und Prognosen erstellen
—> z.B. wie Absatzmenge vom Preis, Werbeausgaben etc. abhängt
—> Prognosen = What-If-Analysen (z.B. wie sich Absatzmarkt verändert, wenn Preis verändert)
—> AV und UV müssen metrisch sein
Struktur prüfende Verfahren: Varianzanalyse
= UV nominal, AV metrisch
—> Analyse von Experimenten
—> z.B. welche Wirkung Verpackung oder Platzierung im Geschäft auf Absatzmenge hat
Struktur prüfende Verfahren: Diskriminanzanalyse
= AV nominal, UV metrisch
—> Analyse von Gruppenunterschieden oder Klassifizierung von Elementen
—> z.B. Unterschied Wählen nach soziodemografischen Hintergrund, Kreditwürdigkeit
Struktur prüfende Verfahren: logistische Regression
(binäre und multinominale)
—> Wahrscheinlichkeit Zugehörigkeit zu einer Gruppe in Abhängigkeit von UV
—> AV nur 2 Ausprägungen = binär-logistische Regression, mehr = mullnominale-logistische
—> UV kann nominal oder metrisch sein
—> z.B. Risiko Herzinfarkt in Abhängigkeit von Cholesterinspiegel, Alter
—> Basis: nichtlineares Modell
Struktur prüfende Verfahren: Kontingenzanalyse
… und Kreuztabellen =
Beziehung zwischen nominalskalierten Variablen
—> z.B. Beziehung zwischen Rauchen (ja/ nein) und Lungenkrebs (ja/ nein)
Struktur prüfende Verfahren: Conjoint-Analyse
(traditionelle und auswahlbasierte)
—> AV = ordinal (Präferenzen/ Wahlentscheidungen)
—> Ziel: Nutzenbeiträge Produkt und Ausprägung auf Gesamtnutzen zu bestimmen
—> experimentelle Studie, damit Präferenzen, Wahlentscheidungen gemessen
—> traditionell = Analyse Präferenzen Person, auswahlbasiert = leitet Präferenzen aus Wahl ab
Struktur entdeckende Verfahren
Ziel: Entdeckung Zsm.hang zwischen variablen oder Objekten
zu Beginn keine Vorstellung über Beziehungszusammenhang (keine AV/ UV)
z.B. Faktorenanalyse, Clusteranalyse
Struktur entdeckende Verfahren: Faktoranalyse
(explorativ)
—> wenn viele metrische Variablen vorhanden und diese reduzieren/ bündeln
—> Reduktion auf zentrale Faktoren
—> z.B. technische Eigenschaft von Fahrzeugen auf Leistung, Sicherheit reduzieren
—> Anzahl Faktoren aus Korrelatioxsmatrix extrahiert = explorative Faktorenanalyse (EFA)
—> Anzahl/ Beziehung Faktoren vorher festgelegt = konfirmatorische Faktorenanalyse (KFA)
Struktur entdeckende Verfahren: Clusteranalyse
= Verdichtung/ Bündelung von Objekten (Gruppen)
—> z.B. Persönlichkeitstypen
1.2 Statistische Basiskonzepte
Regressionanalyse
Varianzanalyse
Diskriminanzanalyse
logistische Regression
Kontingenzanalyse
Faktorenanalyse
Ermittlung Herzinfarktrisiko von Patienten in Abhängigkeit ihres Alters und Cholesterin
Zusammenhang rauchen und Lungenerkrankung
Verdichtung Vielzahl von eigenschaftsbeurteilunhek auf zugrunde liegende beurteilungsdimensionen
konfirmatorische Faktorenanalyse
Clusteranalyse
Conjoint-Analyse
MW
Varianz
Standardabweichung
Mittelwert = wahrer Mittelwert μ der Grundgesamtheit (N = Größe Stichprobe), Durchschnitt
Varianz = Schätzer der wahren Varianz σx2 in Grundgesamtheit
—> Mittel quadrierte Abweichung
Standardabweichung = Schätzung wahre SA σx in Grundgesamtheit (Wurzel aus Varianz)
—> misst auch Streuung, besser zu interpretieren, mit Mittelwert vergleichbar
1.2.1 Grundlegende statistische Kennwerte
Freiheitsgrade
df = Grundgesamtheit i.d.R. nicht bekannt (Daten aus Stichprobe geschätzt)
—> Stichprobenmittelwert = bester Schätzer, aber immer ein Fehler
—> Fehler abhängig von df (je größer df, desto kleiner Fehler)
—> Anzahl df = Anzahl Beobachtungen die frei variieren können
—> wenn mehrere Parameter bestimmt ist df = Differenz Anzahl Beobachtung + Anzahl geschätzter Parameter in Statistik
standardisierte Variable
= für Vergleichbarkeit von Variablen
—> Differenz beobachteter Wert Variable und Mittelwert Variabel, dann Differenz durch SA
—> Mittelwert immer o, Varianz und SA immer 1
1.2.2 Kovarianz
Kovarianz
zwischen 2 Variablen, Produkt aus einfache Abweichung Variable von Mittelwert
negative und positive Werte (= = wenn sich negative/ positive Korrelationen auflösen)
—> statistisch unabhängig = aus Veränderung einer Variable, nicht auf andere schließen
1.2.2 Korrelation
Nachteil Kovarianz = Wert von Maßeinheit der Variablen beeinflusst (Interpretation schwierig)
Kovarianz durch SA der beiden Variablen dividiert
nach Bravais-Pearson
Darstellung in Korrelatioxsmatrix (Punkte in Diagramm, Streuung darstellt)
—> Wertebereich r zwischen -1 und +1
—> negative Korrelation (r < 0), positive Korrelation (r > 0), keine Korrelation (r = 0)
kann nur lineare Beziehungen messen
unterscheidet nicht zwischen AV und UV (symmetrisches Maß)
1.3 Grundlagen des statistischen Testens
Arten von Fehler
zufällige Fehler = unvorhersehbar, streuen um wahren Wert und folgen Normalverteilung
—> nicht vermeidbar, aber mit größeren Stichprobenumfang verringerbar
systematische Fehler = bei wiederholten Messungen, Bis (Verzerrungen), Über-/ Unterschätzung des wahren Wertes in Grundgesamtheit
—> nicht berechenbar und nicht verringerbar durch Erhöhung Stichprobe
—> bei sorgsamer Durchführung vermeidbar
1.3.1 Mittelwertes (zweiseitig)
Testen unter Verwendung eines kritischen Testwertes
Formulierung Hypothesen
—> Aufstellung von 2 konkurrierenden Hypothesen (Null-, Alternativhypothese)
—> Nullhypothese H0: μ = μ0 (kein Effekt) , Alternativhypothese H1: μ =/ μ0 (Effekt)
Berechnung Teststatistik
—> t-Statistik: dividiert Differenz zwischen beobachten/ hypothetischen Mittelwert durch Standardfehler des Mittelwertes
Auswahl Fehlerwahrscheinlichkeit a (Signifikanzniveau)
—> Irrtumswahrscheinlichkeit für Ablehnung Nullhypothese (alpha)
—> z.B. 5% (am häufigsten), 1% oder 0,1%
Ableitung kritischer Testwert
—> Schwellenwert für Beurteilung Testergebnisse
—> a/2 auf jeder Seite = Ablehnungbereich, Fläche dazwischen = Akzeptanzbereich H0
Vergleich Teststatistik mit kritischen Testwert —> wenn H0 abgelehnt = Ergebnis statistisch signifikant
Interpretation = Nullhypothese nur als Bezugspunkt zu Beurteilung statistische Ergebnisse
Testen unter Verwendung des p-Wertes
statt kritischer Wert, p-Wert nutzen (einfacher, flexibler)
Wahrscheinlichkeit, einen t-Wert zu Beobachter, der weiter von H0 entfernt ist als t empirisch
auch empirisches Signifikanzniveau (v.a. in SPSS)
gibt an wie hoch Signifikanznivau Teststatistik ist
—> großer p-Wert unterstützt H0, kleiner p-Wert Wahrscheinlichkeit H0 abgelehnt/ falsch
Maß für Plausibilität = wenn p klein, dann Plausibilität von H0 gering
Fehler 1. und 2. Art
Testergebnis
Realität
H0 ist wahr
H0 ist falsch
H0 wird akzeptiert
Richtige Entscheidung 1−α
Fehler zweiter Art ß
H0 wird abgelehnt
Fehler erster Art α
Signifikanzniveau
Richtige Entscheidung 1−β
Trennschärfe
Fehler 1. Art = Ablehnung Nullhypothese, obwohl wahr
Fehler 2. Art = falsche Nullhypothese akzeptiert
Trennschärfe (Stärke, power) = Wahrscheinlichkeit (1-ß), dass falsche H0 abgelehnt
—> je niedriger a, desto desto kleiner Trennschärfe
Auswahl a = nicht berechenbar, statistisch begründbar
—> wenn Fehler 1. Art hoch sind, dann a klein machen (Risiken/ Chancen)
Einseitige Mittelwerttests
= einseitiger t-Test (hat größere Trennschärfe)
kleine Abweichungen von 0 sind signifikant, Risiko Fehler 2. Art verringert
wenn Testergebnis je nach Richtung Abweichung unterschiedlich Konsequenzen hat
einseitiger p-Wert = beträgt nur Hälfte des zweiseitigen p-Wertes
1.3.2 Durchführung Test für Anteilswerte
inkl. Spezifität, Sensitivität
da bei nominalen Variablen Mittelwert unzulässig, ähnlich Mittelwert
Faustregel: absoluter Wert >2 Teststatistik, bei a = 5% signifikant
Genauigkeitsmaße von binären Klassifikationstests
—> bei medizinischen Tests (gesund/ krank) oder Qualitätskontrollen (korrekt, nicht korrekt)
—> Sensitivität = wahr positiv (Test ist positiv, wenn Patient krank), korrekt erkannt
—> Spezifität = wahr negativ (Test ist negativ, wenn Patient nicht krank), korrekt abgelehnt
Spezifität, Sensitivität
1.3.3 Intervallschätzung (Konfidenzintervall)
Intervallschätzung für Mittelwert
—> Punktschätzung des wahren Mittelwertes μ (aber unbekannt), Schätzwert
—> Intervall angeben, innerhalb dessen wahrer Mittelwert mit Irrtumswahrscheinlichkeit a
—> je kleiner Irrtumswahrscheinlichkeit, desto größer muss Intervall sein
Intervallschätzung für Anteil
—> Konfidenzintervall für Anteilswert schätzen
1.4 Kausalität
= Beziehung, die Richtung aufweist (Ursache X hat Effekt Y) —> wenn sich X ändert, ändert sich auch Y
wenn X einzige Ursache für Veränderung ist = dann monokausale Beziehun
1.4.1 Kausalität und Korrelation
Kausalität nicht allein durch statistische Analyse von Daten beweisbar
—> Information über Entstehung Daten und kausale Überlegungen nötig
—> Schlussfolgerung, durch statistische Methoden nur unterstützt
Scheinkorrelation = hohe Zusammenhänge, aber keine Kausalität
—> z.B. Lesefähigkeit und Schuhgröße, Anzahl Störche und Geburtenrate
1.4.2 Test auf Kausalität
Bedingung: Korrelationskoeffizient
—> sollte erwartetes Vorzeichen aufweisen, signifikante Größe haben (Prüfung mit t-, F-Test)
Bedingung: zeitliche Abfolge der Ereignisse korrekt (X vor Y)
—> Prüfung durch Korrelation, Experimente
Bedingung: Fehlen von 3.-variablen (confounders), die Scheinkorrelationen erzeugen
—> Prüfung durch Erfahrung, logisches Denken, kontrollierte Experimente
1.5 Ausreißer und fehlende Werte
1.5.1 Ausreißer
= entsprechen nicht Normalfall, verzerren Beobachtungen
Gründe: Zufall, Fehler bei Messung/ Datenausgabe, ungewöhnliche Ereignisse
Identifikation
mühsam bei großen Datensatz
mithilfe von numerischen und/ oder grafischen Methoden (grafisch = einfach, effizient)
—> grafisch: z.B. Histogramm, Boxplots, Scatterplots
—> numerisch: Standardisierung von Daten (z-Wert)
Boxplots = basieren auf Perzentuellen (Maximum, 75%, 50%, 25% Perzentile, Minimum)
Streudiagramme = wenn Beziehung zwischen zwei oder mehr Variablen analysiert wird
Behandlung
Ausreißer beibehalten (z.T. korrigierbar)
wenn zufällig = kein Problem, nicht eliminieren
weglassen = Art der Manipulation (doch, dann dokumentieren)
1.5.2 Fehlende Werte (missing values)
unvermeidbares Problem bei Durchführung von empirischen Untersuchungen
Gründe: vergessen Frage zu beantworten, können/ wollen nicht antworten, Antwort außerhalb definiertes Antwortintervall
kann zu Verzerrungen führen, auch Aussagekraft eingeschränkt, Informationsverlust
SPSS
SPSS = berücksichtigt diese Werte
—> System missing values = Daten als Leerzeichen codiert und als fehlender Wert ersetzt
—> User missing values = durch Anwender selbst kodieren (z.B. 9999 oder 0000)
Missing values in SPSS
1. Werte fallweise ausgeschlossen = gesamte Beobachtung ausgeschlossen (listenweise)
2. Werte variable ausgeschlossen (paarweise ausschließen) = nur Paare mit Wert eliminiert
3. Fehlende Werte als Durchschnittswerte (Ersetzen durch Mittelwert) eingefügt
Methoden und Optionen
Zuletzt geändertvor einem Jahr