Exploratorische Fakotrenanalyse

Buffl

Testen und Entscheiden

by Greta R.

1. Extraktion von Faktoren

Muster von Variablen-Korrelationen

Je 5 Items von 2 Skalen:

· Present- Hedonistic (PH)

· Future-Oriented (Fo)

· Items sind jeweils in ihrer Gruppe korreliert

· Zwischen Items verschiedener Gruppen kaum Korrelationen

· Muster deutet auf 2 Faktoren hin,die kaum korreliert sind

-> Faktorenanalyse kann Aufschluss liefern

Fundamentaltheorem der Faktorenanalyse

- Annahme, dass die beobachtete standardisierte Messung zvi der Person v in Item i in eine Linearkombination aus den k=1,….,q mit den Faktorladungen λik gewichteten Faktorwerten fkv und einer Fehlerkomponente εvi zerlegt werden kann:

- Für die standardisierte Variable zi ergibt sich demnach die Linearkombination:

- Bei orthogonalen (unkorrelierten) Faktoren lässt sich Varianz jeder Variablen zi als Summe der quadrierten Faktorladungen und der Variant der Fehlerkomponente darstellen:

Ladungen, Eigenwerte, Kommunalitäten

(aufgeklärte Varianz)

Aufgeklärte Varianz=

= Summe aller Eigenwerte

= Summe aller Kommunilitäten

Eigenwert und Kommunalität

Eigenwert

- Spaltensumme: Varianzen in den Variablen die durch einen Faktor erklärt werden

Kommunalität

- Zeilensumme: erklärte varianz in einer variablen durch (berücksichtigte Faktoren)

Faktoranalytische Methoden

Anliegen, Annahjmen/Voraussetzungen

Anliegen

Sollen Korrelationen zwischen beobachtbaren Variablen durch sparsame Anzahl von Faktoren/Komponenten „erklärt“ werden

Annahmen/Voraussetzungen

Multinormalverteilung der Variablen
Erwartungswert der Faktoren und Residuen ist null: E(ηj) = E(εi) = 0
Residualvariablen (εi) unkorreliert
Fakoren sind mit Residualkomponenten unkorreliert

Faktoranalytische Methoden

Anfangslösung, Rotation von Faktoren

Anfangslösung

- Faktoren sind standardisiert (Var=1) und unkorreliert (Cov=0)

- Erste Faktor erklärt so viel Varianz wie möglich

- Dann wird jeweils nächste Faktor so bestimmt, dass er maximal viel der verbleibenden Varianz erklärt, usw.

Rotation der Faktoren

- Später können ausgewählten Faktoren rotiert werden, um Interpretation zu erleichtern

Hauptkomponentenanalyse (Principal Components Analysis; PCA)

Anliegen/Idee

- Traditionell am häufigsten angewandte exploratorische Methode der statistischen Datenreduktion (in SPSS implementiert),.. aber keine echte Faktorenanalyse

Vorgehen

- Sukzessiv maximale Varianzerklärung der jeweiligen Komponenten

- Erklärung der Variablen (Z) durch die Hauptkomponenten (H)

Z1 = λ11+H1 + λ12+H2

Z2 = λ21+H1 + λ22+H2

- Erklärung der Hauptkomponenten (H) durch Variablen (Z)

H1 = γ11*Z1+ λ12 *Z2

H2 = γ21*Z1+ λ22 *Z2

- Bei gleicher Anzahl von Faktoren wie Variablen lassen sich beide perfekt durch Linearkombination aus dem anderen „erklären“ (Beispiel: 2 Items und 2 Faktoren)

Wie groß sollte die Stichprobe sein?

Empfehlungen für die absolute Stichprobengröße

- N=100, falls die Struktur „klar“ ist

- Schlecht: N=100, gut: N=300; exzellent: N ≥1000

- N=300; oder weniger, wenn die Korrelationen hoch sind

Empfehlungen pro Variable

- N=10-15 pro Variable

- N=10 pro Variable

- Das Größere von entweder N=5 pro Variable oder N=100 insgesamt

- N=2 pro Variable

Empfehlungen pro Faktor

- N=20 pro Faktor

-> Bei Faktoranalytische Analyse: kommt drauf an: aber man muss es an Dingen fest machen (Empfehlung)

-> Hängt von Komplexität ab, je mehr Variablen, desto komplexer, desto größer N

Empfehlungen für das N bei homogen und hohen Kommunalitäten

Simulation: empirische Ladungsstruktur vs. Populationsladungsstruktur

- Je mehr Items man hat, desto weniger Personen brauch man -> trait of: viele items oder viele probanden

2. Bestimmung der Anzahl von Faktoren

Theoretische Erwartung

- Gibt es eine Theorie, die eine starke Erwartung bzgl. Der Anzahl der Faktoren macht?

- Hilft auch bei Interpretation der Faktoren

- Auch wenn es „empirisch“ mehr Faktoren gibt, können im Rahmen der Itemselektion Items so ausgewählt werden, die auf die vorausgesagtem Faktoren laden

- Nicht jeder Faktor ist inhaltlich bedeutsam.

- Einige Faktoren entstehen auch aufgrund von Methodenartefakten (Emergente Faktoren): ähnliche Formulierung, spezifischer Item-Inhalt…

1. Bestimmung der Anzahl von Faktoren

Kaiser-Guttman-Kriterium: Eigenwerte>1

o Die FA ist ein datenreduktionistisches Verfahren: Jeder Faktor soll mehr erklären, als ein Item:

o Standardisierten Items haben eine Varianz von 1

o Werden nur Faktoren akzeptiert, die Eigenwert von >1 haben, also mehr erklären als ein Item

o Gefahr der Überschätzung der Faktorenzahl: Bei vielen Items führt dieses Kriterium zur Annahme vielen Faktoren, die oft nicht sinnvoll interpretiert werden können.

2. Bestimmung der Anzahl von Faktoren

Scree-Kriterium: Knick in Eigenwerte Kurve

o Werden nur Faktoren vor dem Knick in Eigenwerte-Kurve akzeptiert

o Führt auch bei vielen Items zu sparsamen Anzahl von Faktoren

o Ist für orthogonale Faktoren gedacht: Bei obliquen Faktoren kann Anzahl unterschätzt werden

Parallelanalyse

- Frage: Sind Faktoren relevant oder ggf. durch zufällige Kovariation der Items entstanden?

- Werden mindestens 100 Stichproben der Größe wie beim Datensatz aus einem Set unkorrelierter Variablen gezogen, die nur zufällig kovariieren

- Werden jeweils EW bestimmt und dann gemittelt

- Werden nur so viele Faktoren akzeptiert, wie in vorliegenden Stichprobe über den mittleren EW der Zufallszahlen-Matrizen liegen

Beispiel mit allen Entschiedungskriterien

3. Rotationsmethoden

Rotationsmethoden

Anliegen der Faktorenrotation

Orthogonal vs. oblique

Anliegen

Erreichen einer Einfachstruktur der Itemladungen auf Faktoren für eine leichtere Interpretation der Faktoren
Verteilen der Varianzen über die (angenommenen) Faktoren, sodass diese vergleichbare Aufklärung haben (anstelle, dass der erste ganz viel und alle folgenden immer wenigere erklärt)

Orthogonale Rotation

Faktoren behalten Unabhängigkeit auch nach Rotation
- Z.b. Varimax, Quartimax, Equamax, Parsimax, Geomin

Oblique Rotation

Faktoren sind nach Rotation korreliert
Interpretationsprobleme bei zu hoher Korrelation, daher in Praxis auf moderate Korrelation beschränkt
- Z.b. Promax, quartimin, Oblimin

-> davor entscheiden was ich brauche oblique oder orthogonal je nach was ich rechne und habe

-> bei PCA und FA kann roitert werden, nur bei einem Faktor wird nicht rotiert

Einfachstruktur (Simple Structure)

Kriterien für Ladungsmatrix

Jede Zeile enthält mindestens eine Null
Bei m Faktoren enthält jede Spalte mindestens m Nullen (z.B. bei 5 Faktoren mindestens 5 Nullen pro Faktor)

Kriterien für jedes Paar von Faktoren (Spalten)

Gibt mehrere Items mit Einträgen nahe Null in einer Spalte aber hohen Einträgen in einer anderen Spalte
Meisten Items sollten Einträge um Null haben
Nur wenige Items sollten Einträge haben, die von der Null abweichen

Vereinfachte Kriterien für Einfachstruktur

Jedes Item lädt nur hoch auf einen Faktor
Jeder Faktor hat hohe Ladungen nur von einigen Items

Orthogonale Rotation

Varimax

Ziel: Faktoren sollen mit einige manifesten Variablen hoch und mit einigen manifesten Variablen niedrig zusammenhängen. Augenmerk liegt also auf dem Faktor: Welche Variablen gehören zu dem Faktor?

Quartimax

Ziel: Maximieren der Differenzen zwischen Ladungen verschiedener Faktoren für eine bestimmte Variable. Augenmerk auf Variablen: Zu welchem Faktor gehört Variable?
Vorgehen: Maximierung der Summe der vierten Potenzen der Faktorladungen. Führt eher zu einem starken Faktor

Equamax

Ziel: Kompromiss zwischen Varimax und Quartimax

Weitere orthogonale Rotationen

Biquartimax, Orthomax, Parsimax, Geomin (Werden selten genutzt)

Vor- und Nachteile der orthogonalen Rotation

Pro: Summenscore der Indikatoren (=Testwert) kann klar im Sinne des Faktors interpretiert werden. Andere Faktoren sollten ja null-korreliert sein.
Contra: Wenn Faktoren in Wirklichkeit schiefwinklig sind, kann es schwierig sein, eine Einfachstruktur im Ladungsmuster zu erkennen

Oblique (schiefwinklige) Rotation

Promax

Zunächst wird orthogonale Rotaion durchgeführt
Faktorladungen werden dann mit Exponenten kappa (K) potenziert, mit dem Ziel, den Unterschied zwischen großen und kleinen Ladungen zu verstärken.
Exponent kappa (K) steuert Rotation und beeinflusst Korreliertheit der Faktoren. Standardmäßig wird oft mit einem K von 4 gestartet.

(direkte) Oblimin

Kommt ohne vorherige orthogonale Rotation aus. Stattdessen werden Kreuzprodukte der ursprünglichen Faktorladungen minimiert.
Parameter delta (δ) steuert Höhe der Korrelation zwischen Faktoren.
Standardmäßig hat delta (δ) den Wert 0, kann aber auch negative und positive Werte annehmen: Bei negativem δ sind Faktoren fast orthogonal, bei positivem δ sind Faktoren stark korreliert.

Vor- und Nachteile der obliquen Rotation

Pro: Kann ein klareres Muster von Einfachstruktur erreicht werden. Erleichtert das Zuordnen von Indikatoren zu Faktoren
Contra: Interpretierbarkeit des Testwertes wird erschwert, wenn es hoch korrelierte andere Faktoren gibt, die auch das Abschneiden erklären können

Ergebnismatrizen bei Obliquer Rotation

Strukturmatrix (Factor Structure Matrix)

Korrelationen der Items mit dem Faktor
Berücksichtigt nicht Interkorrelationen der Faktoren

Mustermatrix (Factor PatternMatrix)

Ladungen der Items (=semipartielle standardisierte Regressionsgewichten der Items auf den Faktor):
Geben die unique Relation eines Items mit einem Faktor an, wenn Faktoren korreliert sind (analog Regressionsgewichte in der multiplen Regression).
Wird normalerweise als Ladungsmatrix interpretiert, da klarere Einfachstruktur als Strukturmatrix

Matrix der Faktorkorrelationen

Gibt Relationen der Faktoren an

Zielrotation (Procrustes Rotation)

Wird eine (theoretisch motivierte) Zielmatrix definiert: Nullen und Einsen, die das ideale, erwartete Ladungspattern anzeigen
Faktoren werden so rotiert, dass sie möglichst gering von der Zielmatrix abweichen
Methode wird heute selten eingesetzt, da theoretische Annahmen über Ladungsmuster besser mittels CFA abgesichert werden können

4. Selektion von Variablen

Selektion nach Einfachstruktur

Möglichst hohe Ladung auf einen Faktor (entsprechen theoretischer Erwartung)
Möglichst geringe Sekundärladungen auf andere Faktoren
Demnach möglichst Pattern der Art:
- Eine sehr hohe Ladung nahe 1
- Viele sehr geringe Ladungen nahe 0

Selektion bei Orthogonaler vs. Obliquer Rotation

Insgesamt ergibt sich bei obliquen Rotation ein etwas klareres Ladungsmuster als bei der orthogonalen Rotation
Trotzdem weisen einige Items Sekundärladungen oder geringe Hauptladungen auf:
Dies würde man bei Skalenkürzung ausschließen

Schrittweise Item-Selektion

Prozedere

Durchführen einer Faktorenanalyse
Ausschluss des ungüsntigen Items nach Einfachstrulkturregeln
Erneutes Durchführen einer Faktorenanalyse und Ausschluss ungünstiger Items, usw.

Grund für schrittweises Vorgehen

Nach Ausschluss eines Items sollte die FA erneut gerechnet werden, da die Faktoren dann jeweils neu rotiert werden. Es könnten sich dann andere Items als ungünstig herausstellen

Veränderung von interner Konsistenz

Bei jedem Schritt können Veränderungen in den psychometrischen Eigenschaften der resultierenden Skala dokumentiert werden, z.b. Interne Konsistenz

1. Überblick Faktoranalytische Methoden

Übersicht über „faktoranalytischen Methoden“

Vgl. Hauptkomponentenanalye vs. Echte Faktorenanalyse

PCA:

Stärker datengetrieben
Maximale Erklärung der beobachteten (Co-) Varianzen durch die Hauptkomponenten.
Optimierung: Varianzmaximierung der Hauptkomponenten.

FA:

- Stärker theoriegeleitet
Kommunalitätenbasiertes Vorgehen: Es kann maximal die reliable Varianz einer Variablen erklärt werden
Optimierung: Erklärung der Kovarianzen der beobachteten Variablen.

Hauptkomponentenanalyse (PCA)

Vorgehen ist stark datengetrieben: Die Komponenten lassen sich rechnerisch exakt als Linearkombination (gewichtete Summe) der beobachtbaren Indikatoren erzeugen
Vor dem Ausschluss von Komponenten entspricht die Anzahl der Komponenten der Anzahl der Items
Auch nach Ausschluss von Komponenten, lassen sich die verbleibenden Faktoren als Linearkombination der Items erzeugen.
Prinzipiell kann auch „Spezifität“ eines Indikators zur Komponente beitragen. Daher „erklärt“ der PCA-Ansatz i.d.R. mehr von der beobachteten Gesamtvarianz.

Echte Faktorenanalyse

Faktoren sind i.d.R. aus einer Theorie abgeleitet. Betrifft deren Anzahl und Relationen.
Höhe der (Co-)Varianzen und Ladungen werden aus den Daten geschätzt (gegeben das spezifizierte Modell); Optimierungskriterium ist eine minimale Abweichung der vorausgesagtem Relationen von empirischen Relationen
Für jede beobachtbare Variable werden 2 latente Faktoren als Variaznquellen spezifiziert: theoretische Faktor und eine Spezifität der Variablen (Messfehler bzw. inhaltliche Spezifität)
Faktoren sind kommunalitätenbasiert, erklären also maximal die geteilte Varianz beobachtbarer Indikatoren. Insgesamt wird also weniger von der Gesamtvarianz durch Faktoren erklärt.

Erklärung der Varianz bei PCA und FA

Hauptachsenmethode

Kompromiss: Keine echte FA, aber Annäherung
Anliegen ist auch Erklären der kommunalen (geteilten) Varianz, nicht der vollständigen Varianz (wie bei PCA), welche ja auch Indikator-Spezifität bzw. Fehler enthält

Hauptachsenmethode

Iteratives Vorgehen

In Korrelationsmatrix werden in Hauptdiagonalen die multiplen Korrelationen der Variablen mit allen anderen Variablen abgetragen.
Dies ist ein plausibler Ausgangswert für den Anteil der geteilten Varianz mit anderen Variablen (Kommunalitäten!).
Dann durchführen einer PCA
Erneutes Ersetzen der Diagonalen durch multiple Korrelationen
Solange wiederholen, bis die Unterschiede in den Kommunalitätenschätzungen in 2 sukzessive Durchgängen kleiner sind als ein festgelegtes Kriterium.

Join Course

Preview

Author

Greta R.

Information

Last changed
2 years ago

Report course