1. Extraktion von Faktoren
Muster von Variablen-Korrelationen
Je 5 Items von 2 Skalen:
· Present- Hedonistic (PH)
· Future-Oriented (Fo)
· Items sind jeweils in ihrer Gruppe korreliert
· Zwischen Items verschiedener Gruppen kaum Korrelationen
· Muster deutet auf 2 Faktoren hin,die kaum korreliert sind
-> Faktorenanalyse kann Aufschluss liefern
Fundamentaltheorem der Faktorenanalyse
- Annahme, dass die beobachtete standardisierte Messung zvi der Person v in Item i in eine Linearkombination aus den k=1,….,q mit den Faktorladungen λik gewichteten Faktorwerten fkv und einer Fehlerkomponente εvi zerlegt werden kann:
- Für die standardisierte Variable zi ergibt sich demnach die Linearkombination:
- Bei orthogonalen (unkorrelierten) Faktoren lässt sich Varianz jeder Variablen zi als Summe der quadrierten Faktorladungen und der Variant der Fehlerkomponente darstellen:
Ladungen, Eigenwerte, Kommunalitäten
(aufgeklärte Varianz)
Aufgeklärte Varianz=
= Summe aller Eigenwerte
= Summe aller Kommunilitäten
Eigenwert und Kommunalität
Eigenwert
- Spaltensumme: Varianzen in den Variablen die durch einen Faktor erklärt werden
Kommunalität
- Zeilensumme: erklärte varianz in einer variablen durch (berücksichtigte Faktoren)
Faktoranalytische Methoden
Anliegen, Annahjmen/Voraussetzungen
Anliegen
Sollen Korrelationen zwischen beobachtbaren Variablen durch sparsame Anzahl von Faktoren/Komponenten „erklärt“ werden
Annahmen/Voraussetzungen
Multinormalverteilung der Variablen
Erwartungswert der Faktoren und Residuen ist null: E(ηj) = E(εi) = 0
Residualvariablen (εi) unkorreliert
Fakoren sind mit Residualkomponenten unkorreliert
Anfangslösung, Rotation von Faktoren
Anfangslösung
- Faktoren sind standardisiert (Var=1) und unkorreliert (Cov=0)
- Erste Faktor erklärt so viel Varianz wie möglich
- Dann wird jeweils nächste Faktor so bestimmt, dass er maximal viel der verbleibenden Varianz erklärt, usw.
Rotation der Faktoren
- Später können ausgewählten Faktoren rotiert werden, um Interpretation zu erleichtern
Hauptkomponentenanalyse (Principal Components Analysis; PCA)
Anliegen/Idee
- Traditionell am häufigsten angewandte exploratorische Methode der statistischen Datenreduktion (in SPSS implementiert),.. aber keine echte Faktorenanalyse
Vorgehen
- Sukzessiv maximale Varianzerklärung der jeweiligen Komponenten
- Erklärung der Variablen (Z) durch die Hauptkomponenten (H)
Z1 = λ11+H1 + λ12+H2
Z2 = λ21+H1 + λ22+H2
- Erklärung der Hauptkomponenten (H) durch Variablen (Z)
H1 = γ11*Z1+ λ12 *Z2
H2 = γ21*Z1+ λ22 *Z2
- Bei gleicher Anzahl von Faktoren wie Variablen lassen sich beide perfekt durch Linearkombination aus dem anderen „erklären“ (Beispiel: 2 Items und 2 Faktoren)
Wie groß sollte die Stichprobe sein?
Empfehlungen für die absolute Stichprobengröße
- N=100, falls die Struktur „klar“ ist
- Schlecht: N=100, gut: N=300; exzellent: N ≥1000
- N=300; oder weniger, wenn die Korrelationen hoch sind
Empfehlungen pro Variable
- N=10-15 pro Variable
- N=10 pro Variable
- Das Größere von entweder N=5 pro Variable oder N=100 insgesamt
- N=2 pro Variable
Empfehlungen pro Faktor
- N=20 pro Faktor
-> Bei Faktoranalytische Analyse: kommt drauf an: aber man muss es an Dingen fest machen (Empfehlung)
-> Hängt von Komplexität ab, je mehr Variablen, desto komplexer, desto größer N
Empfehlungen für das N bei homogen und hohen Kommunalitäten
Simulation: empirische Ladungsstruktur vs. Populationsladungsstruktur
- Je mehr Items man hat, desto weniger Personen brauch man -> trait of: viele items oder viele probanden
2. Bestimmung der Anzahl von Faktoren
Theoretische Erwartung
- Gibt es eine Theorie, die eine starke Erwartung bzgl. Der Anzahl der Faktoren macht?
- Hilft auch bei Interpretation der Faktoren
- Auch wenn es „empirisch“ mehr Faktoren gibt, können im Rahmen der Itemselektion Items so ausgewählt werden, die auf die vorausgesagtem Faktoren laden
- Nicht jeder Faktor ist inhaltlich bedeutsam.
- Einige Faktoren entstehen auch aufgrund von Methodenartefakten (Emergente Faktoren): ähnliche Formulierung, spezifischer Item-Inhalt…
1. Bestimmung der Anzahl von Faktoren
Kaiser-Guttman-Kriterium: Eigenwerte>1
o Die FA ist ein datenreduktionistisches Verfahren: Jeder Faktor soll mehr erklären, als ein Item:
o Standardisierten Items haben eine Varianz von 1
o Werden nur Faktoren akzeptiert, die Eigenwert von >1 haben, also mehr erklären als ein Item
o Gefahr der Überschätzung der Faktorenzahl: Bei vielen Items führt dieses Kriterium zur Annahme vielen Faktoren, die oft nicht sinnvoll interpretiert werden können.
Scree-Kriterium: Knick in Eigenwerte Kurve
o Werden nur Faktoren vor dem Knick in Eigenwerte-Kurve akzeptiert
o Führt auch bei vielen Items zu sparsamen Anzahl von Faktoren
o Ist für orthogonale Faktoren gedacht: Bei obliquen Faktoren kann Anzahl unterschätzt werden
Parallelanalyse
- Frage: Sind Faktoren relevant oder ggf. durch zufällige Kovariation der Items entstanden?
- Werden mindestens 100 Stichproben der Größe wie beim Datensatz aus einem Set unkorrelierter Variablen gezogen, die nur zufällig kovariieren
- Werden jeweils EW bestimmt und dann gemittelt
- Werden nur so viele Faktoren akzeptiert, wie in vorliegenden Stichprobe über den mittleren EW der Zufallszahlen-Matrizen liegen
Beispiel mit allen Entschiedungskriterien
3. Rotationsmethoden
Rotationsmethoden
Anliegen der Faktorenrotation
Orthogonal vs. oblique
Erreichen einer Einfachstruktur der Itemladungen auf Faktoren für eine leichtere Interpretation der Faktoren
Verteilen der Varianzen über die (angenommenen) Faktoren, sodass diese vergleichbare Aufklärung haben (anstelle, dass der erste ganz viel und alle folgenden immer wenigere erklärt)
Orthogonale Rotation
Faktoren behalten Unabhängigkeit auch nach Rotation
Z.b. Varimax, Quartimax, Equamax, Parsimax, Geomin
Oblique Rotation
Faktoren sind nach Rotation korreliert
Interpretationsprobleme bei zu hoher Korrelation, daher in Praxis auf moderate Korrelation beschränkt
Z.b. Promax, quartimin, Oblimin
-> davor entscheiden was ich brauche oblique oder orthogonal je nach was ich rechne und habe
-> bei PCA und FA kann roitert werden, nur bei einem Faktor wird nicht rotiert
Einfachstruktur (Simple Structure)
Kriterien für Ladungsmatrix
Jede Zeile enthält mindestens eine Null
Bei m Faktoren enthält jede Spalte mindestens m Nullen (z.B. bei 5 Faktoren mindestens 5 Nullen pro Faktor)
Kriterien für jedes Paar von Faktoren (Spalten)
Gibt mehrere Items mit Einträgen nahe Null in einer Spalte aber hohen Einträgen in einer anderen Spalte
Meisten Items sollten Einträge um Null haben
Nur wenige Items sollten Einträge haben, die von der Null abweichen
Vereinfachte Kriterien für Einfachstruktur
Jedes Item lädt nur hoch auf einen Faktor
Jeder Faktor hat hohe Ladungen nur von einigen Items
Varimax
Ziel: Faktoren sollen mit einige manifesten Variablen hoch und mit einigen manifesten Variablen niedrig zusammenhängen. Augenmerk liegt also auf dem Faktor: Welche Variablen gehören zu dem Faktor?
Quartimax
Ziel: Maximieren der Differenzen zwischen Ladungen verschiedener Faktoren für eine bestimmte Variable. Augenmerk auf Variablen: Zu welchem Faktor gehört Variable?
Vorgehen: Maximierung der Summe der vierten Potenzen der Faktorladungen. Führt eher zu einem starken Faktor
Equamax
Ziel: Kompromiss zwischen Varimax und Quartimax
Weitere orthogonale Rotationen
Biquartimax, Orthomax, Parsimax, Geomin (Werden selten genutzt)
Vor- und Nachteile der orthogonalen Rotation
Pro: Summenscore der Indikatoren (=Testwert) kann klar im Sinne des Faktors interpretiert werden. Andere Faktoren sollten ja null-korreliert sein.
Contra: Wenn Faktoren in Wirklichkeit schiefwinklig sind, kann es schwierig sein, eine Einfachstruktur im Ladungsmuster zu erkennen
Oblique (schiefwinklige) Rotation
Promax
Zunächst wird orthogonale Rotaion durchgeführt
Faktorladungen werden dann mit Exponenten kappa (K) potenziert, mit dem Ziel, den Unterschied zwischen großen und kleinen Ladungen zu verstärken.
Exponent kappa (K) steuert Rotation und beeinflusst Korreliertheit der Faktoren. Standardmäßig wird oft mit einem K von 4 gestartet.
(direkte) Oblimin
Kommt ohne vorherige orthogonale Rotation aus. Stattdessen werden Kreuzprodukte der ursprünglichen Faktorladungen minimiert.
Parameter delta (δ) steuert Höhe der Korrelation zwischen Faktoren.
Standardmäßig hat delta (δ) den Wert 0, kann aber auch negative und positive Werte annehmen: Bei negativem δ sind Faktoren fast orthogonal, bei positivem δ sind Faktoren stark korreliert.
Vor- und Nachteile der obliquen Rotation
Pro: Kann ein klareres Muster von Einfachstruktur erreicht werden. Erleichtert das Zuordnen von Indikatoren zu Faktoren
Contra: Interpretierbarkeit des Testwertes wird erschwert, wenn es hoch korrelierte andere Faktoren gibt, die auch das Abschneiden erklären können
Ergebnismatrizen bei Obliquer Rotation
Strukturmatrix (Factor Structure Matrix)
Korrelationen der Items mit dem Faktor
Berücksichtigt nicht Interkorrelationen der Faktoren
Mustermatrix (Factor PatternMatrix)
Ladungen der Items (=semipartielle standardisierte Regressionsgewichten der Items auf den Faktor):
Geben die unique Relation eines Items mit einem Faktor an, wenn Faktoren korreliert sind (analog Regressionsgewichte in der multiplen Regression).
Wird normalerweise als Ladungsmatrix interpretiert, da klarere Einfachstruktur als Strukturmatrix
Matrix der Faktorkorrelationen
Gibt Relationen der Faktoren an
Zielrotation (Procrustes Rotation)
Wird eine (theoretisch motivierte) Zielmatrix definiert: Nullen und Einsen, die das ideale, erwartete Ladungspattern anzeigen
Faktoren werden so rotiert, dass sie möglichst gering von der Zielmatrix abweichen
Methode wird heute selten eingesetzt, da theoretische Annahmen über Ladungsmuster besser mittels CFA abgesichert werden können
4. Selektion von Variablen
Selektion nach Einfachstruktur
Möglichst hohe Ladung auf einen Faktor (entsprechen theoretischer Erwartung)
Möglichst geringe Sekundärladungen auf andere Faktoren
Demnach möglichst Pattern der Art:
Eine sehr hohe Ladung nahe 1
Viele sehr geringe Ladungen nahe 0
Selektion bei Orthogonaler vs. Obliquer Rotation
Insgesamt ergibt sich bei obliquen Rotation ein etwas klareres Ladungsmuster als bei der orthogonalen Rotation
Trotzdem weisen einige Items Sekundärladungen oder geringe Hauptladungen auf:
Dies würde man bei Skalenkürzung ausschließen
Schrittweise Item-Selektion
Prozedere
Durchführen einer Faktorenanalyse
Ausschluss des ungüsntigen Items nach Einfachstrulkturregeln
Erneutes Durchführen einer Faktorenanalyse und Ausschluss ungünstiger Items, usw.
Grund für schrittweises Vorgehen
Nach Ausschluss eines Items sollte die FA erneut gerechnet werden, da die Faktoren dann jeweils neu rotiert werden. Es könnten sich dann andere Items als ungünstig herausstellen
Veränderung von interner Konsistenz
Bei jedem Schritt können Veränderungen in den psychometrischen Eigenschaften der resultierenden Skala dokumentiert werden, z.b. Interne Konsistenz
1. Überblick Faktoranalytische Methoden
Übersicht über „faktoranalytischen Methoden“
Vgl. Hauptkomponentenanalye vs. Echte Faktorenanalyse
PCA:
Stärker datengetrieben
Maximale Erklärung der beobachteten (Co-) Varianzen durch die Hauptkomponenten.
Optimierung: Varianzmaximierung der Hauptkomponenten.
FA:
- Stärker theoriegeleitet
Kommunalitätenbasiertes Vorgehen: Es kann maximal die reliable Varianz einer Variablen erklärt werden
Optimierung: Erklärung der Kovarianzen der beobachteten Variablen.
Hauptkomponentenanalyse (PCA)
Vorgehen ist stark datengetrieben: Die Komponenten lassen sich rechnerisch exakt als Linearkombination (gewichtete Summe) der beobachtbaren Indikatoren erzeugen
Vor dem Ausschluss von Komponenten entspricht die Anzahl der Komponenten der Anzahl der Items
Auch nach Ausschluss von Komponenten, lassen sich die verbleibenden Faktoren als Linearkombination der Items erzeugen.
Prinzipiell kann auch „Spezifität“ eines Indikators zur Komponente beitragen. Daher „erklärt“ der PCA-Ansatz i.d.R. mehr von der beobachteten Gesamtvarianz.
Echte Faktorenanalyse
Faktoren sind i.d.R. aus einer Theorie abgeleitet. Betrifft deren Anzahl und Relationen.
Höhe der (Co-)Varianzen und Ladungen werden aus den Daten geschätzt (gegeben das spezifizierte Modell); Optimierungskriterium ist eine minimale Abweichung der vorausgesagtem Relationen von empirischen Relationen
Für jede beobachtbare Variable werden 2 latente Faktoren als Variaznquellen spezifiziert: theoretische Faktor und eine Spezifität der Variablen (Messfehler bzw. inhaltliche Spezifität)
Faktoren sind kommunalitätenbasiert, erklären also maximal die geteilte Varianz beobachtbarer Indikatoren. Insgesamt wird also weniger von der Gesamtvarianz durch Faktoren erklärt.
Erklärung der Varianz bei PCA und FA
Hauptachsenmethode
Kompromiss: Keine echte FA, aber Annäherung
Anliegen ist auch Erklären der kommunalen (geteilten) Varianz, nicht der vollständigen Varianz (wie bei PCA), welche ja auch Indikator-Spezifität bzw. Fehler enthält
Iteratives Vorgehen
In Korrelationsmatrix werden in Hauptdiagonalen die multiplen Korrelationen der Variablen mit allen anderen Variablen abgetragen.
Dies ist ein plausibler Ausgangswert für den Anteil der geteilten Varianz mit anderen Variablen (Kommunalitäten!).
Dann durchführen einer PCA
Erneutes Ersetzen der Diagonalen durch multiple Korrelationen
Solange wiederholen, bis die Unterschiede in den Kommunalitätenschätzungen in 2 sukzessive Durchgängen kleiner sind als ein festgelegtes Kriterium.
Zuletzt geändertvor 5 Monaten