Was ist das Ziel der PCA (Principal Component Analysis)?
- Reduktion der Dimensionalität eines Datensatzes, während möglichst viel Varianz erhalten bleibt./Ermöglicht einfachere Visualisierung und Interpretation hochdimensionaler Daten.
Was sind Hauptkomponenten?
- Neue, orthogonale Achsen, die lineare Kombinationen der ursprünglichen Variablen sind und die maximale Varianz beschreiben.
Was bedeutet Orthogonalität bei PCA?
- Jede Hauptkomponente ist unkorreliert (orthogonal) zu den anderen → keine Redundanz zwischen Achsen.
Was misst die Varianz in PCA?
- Die Streuung der Daten entlang einer Hauptkomponente./Je größer die Varianz, desto mehr Information wird durch diese Komponente erklärt.
Was ist die Kovarianzmatrix?
- Matrix, die die Kovarianzen zwischen allen Variablen enthält./Zeigt, wie stark zwei Variablen gemeinsam variieren.
Was bedeutet eine hohe Kovarianz?
- Die beiden Variablen ändern sich im gleichen Trend (steigend/steigend oder fallend/fallend).
Was bedeutet eine niedrige oder negative Kovarianz?
- Schwacher oder entgegengesetzter Zusammenhang zwischen Variablen.
Was ist ein Eigenvektor?
- Eine Richtung im Datenraum, entlang derer eine lineare Transformation die Daten nur streckt oder staucht, aber nicht dreht.
Was ist ein Eigenwert?
- Maß für die Stärke (Varianz) entlang des zugehörigen Eigenvektors./Je größer der Eigenwert, desto wichtiger die Hauptkomponente.
Was bedeutet die Eigenzerlegung der Kovarianzmatrix?
- Zerlegung Σ = VΛVᵀ in Eigenvektoren (Richtungen) und Eigenwerte (Varianzanteile)./Grundlage der PCA.
Was ist der erste Hauptkomponent (PC1)?
- Die Richtung im Datenraum, entlang der die größte Varianz der Daten liegt.
Was ist der zweite Hauptkomponent (PC2)?
- Die Richtung mit der zweitgrößten Varianz, orthogonal zu PC1.
Was bedeutet Projektion in PCA?
- Abbildung der Originaldaten auf die neuen Hauptkomponentenachsen./Reduziert Dimension, erhält Hauptvarianz.
Was ist die „explained variance“?
- Anteil der Gesamtvarianz, der durch eine oder mehrere Hauptkomponenten erklärt wird./Summe aller Anteile = 100 % der Varianz.
Was ist eine Scree-Plot?
- Diagramm, das Eigenwerte (Varianzanteile) der Hauptkomponenten zeigt./Hilft bei Auswahl sinnvoller Anzahl von PCs.
Was ist ein Biplot?
- Darstellung von Beobachtungen und Variablen im Raum der ersten zwei PCs./Zeigt Richtung und Stärke der Variablenbeiträge.
Was ist Datenzentrierung?
- Subtraktion des Mittelwerts jeder Variablen → neue Mittelwerte = 0./Verhindert Verschiebung der PCA-Achsen.
Was ist Skalierung (Standardisierung)?
- Division jeder Variable durch ihre Standardabweichung → alle Variablen gleiche Gewichtung./Wichtig, wenn Variablen unterschiedliche Einheiten haben.
Was passiert, wenn man nicht standardisiert?
- Variablen mit größeren Skalen dominieren die PCA-Ergebnisse.
Was ist die geometrische Interpretation der PCA?
- PCA findet neue orthogonale Achsen, die Datenrotation und Streckung so anpassen, dass maximale Varianz auf wenigen Achsen liegt.
Was bedeutet „Lineare Kombination“ in PCA?
- Jede Hauptkomponente ist eine gewichtete Summe der Originalvariablen (z. B. PC₁ = a₁X₁ + a₂X₂ + … + aₙXₙ).
Was ist der Unterschied zwischen PCA und Rotation?
- PCA dreht das Koordinatensystem in Richtung der größten Varianz./Keine Änderung der relativen Positionen im Raum.
Was ist Dimensionalitätsreduktion?
- Auswahl nur der ersten k Hauptkomponenten, die den Großteil der Varianz abbilden./Reduziert Komplexität bei minimalem Informationsverlust.
Wann ist PCA sinnvoll?
- Wenn viele korrelierte Variablen existieren und man Redundanz reduzieren oder Struktur visualisieren möchte.
Wann ist PCA nicht sinnvoll?
- Wenn Variablen kategorisch oder nichtlinear abhängig sind.
Was ist die Beziehung zwischen Kovarianzmatrix und PCA?
- PCA basiert auf der Eigenzerlegung der Kovarianzmatrix → deren Eigenvektoren = Richtungen der PCs.
Was ist der Unterschied zwischen Kovarianz- und Korrelations-PCA?
- Kovarianz-PCA: ohne Skalierung (Einheiten wichtig)./Korrelations-PCA: standardisierte Variablen → alle gleich gewichtet.
Was ist die „loading matrix“?
- Matrix der Eigenvektoren → zeigt, wie stark jede Variable zu einer Hauptkomponente beiträgt.
Was ist der Unterschied zwischen Loadings und Scores?
- Loadings = Gewichtung der Variablen pro Komponente./Scores = projizierte Werte der Beobachtungen auf diese Komponenten.
Was ist die Gesamtvarianz?
- Summe aller Eigenwerte der Kovarianzmatrix → entspricht Varianz aller Variablen zusammen.
Was bedeutet ein hoher Eigenwert?
- Die zugehörige Hauptkomponente erklärt viel Varianz → relevant für die Datenstruktur.
Was ist das Ziel bei der Auswahl der PCs?
- So wenige PCs wie möglich behalten, die dennoch einen Großteil (>80–90 %) der Gesamtvarianz erklären.
Wann verwendet man PCA in Genexpressionsdaten?
- Wenn man Tausende korrelierte Gene auf wenige Hauptachsen reduzieren möchte, um Muster (Cluster) sichtbar zu machen.
Was kann PCA in biologischen Daten aufdecken?
- Ähnliche Proben (z. B. Tumorarten) gruppieren sich automatisch im PC-Raum → zeigt biologische Verwandtschaften.
Was ist der Unterschied zwischen PCA und Clustering?
- PCA → Dimensionsreduktion (Achsen finden),/Clustering → Gruppenzuordnung (Objekte trennen).
Was ist die Limitation der PCA?
- Nur lineare Zusammenhänge, empfindlich gegenüber Ausreißern und Skalierung.
- Wenn viele Variablen korreliert sind und man Muster oder Hauptquellen der Varianz erkennen möchte./Typisch in Genexpressions-, Umwelt- oder Bilddaten.
Wann ist PCA nicht geeignet?
- Wenn Variablen kategorial sind oder nichtlinear abhängen./Alternativen: t-SNE, UMAP oder MCA.
Wann sollte man standardisieren (scale.=TRUE)?
- Wenn Variablen unterschiedliche Einheiten oder Größenordnungen haben./Beispiel: Länge [cm] und Gewicht [kg].
Wann sollte man keine Skalierung verwenden?
- Wenn alle Variablen in derselben Einheit gemessen werden und absolute Unterschiede relevant sind.
Wann ist die erste Hauptkomponente (PC1) besonders wichtig?
- Wenn sie einen hohen Varianzanteil erklärt (z. B. >50 %)./Beschreibt Haupttrends im Datensatz.
Wann sollte man nur wenige PCs behalten?
- Wenn kumulative Varianz ≥ 80–90 % erreicht wird./Reduziert Rauschen, erhält Informationskern.
Wann ist ein Scree-Plot nützlich?
- Zur Bestimmung sinnvoller Anzahl von PCs./„Knickpunkt“ → abnehmender Informationsgewinn.
Wann ist ein Biplot hilfreich?
- Wenn man sowohl Beobachtungen als auch Variablenbeiträge gemeinsam darstellen möchte./Pfeile zeigen Variableinfluss auf PCs.
Wann ist PCA vor Clustering sinnvoll?
- Wenn viele redundante Variablen existieren → PCA reduziert Dimensionalität für stabileres Clustering.
Wann kann PCA Cluster verdecken?
- Wenn Hauptvarianz nicht mit der Gruppentrennung übereinstimmt → Cluster nur in höheren PCs sichtbar.
Wann ist PCA robuster als Korrelationsanalyse?
- Wenn viele Variablen gemeinsam variieren und man Gesamtmuster statt paarweiser Beziehungen sucht.
Wann kann PCA durch Ausreißer verzerrt werden?
- Wenn einzelne Beobachtungen extreme Werte besitzen → beeinflussen Varianzachsen stark.
Wann ist zentrieren (center=TRUE) Pflicht?
- Immer, da PCA auf Mittelwert = 0 basiert./Ohne Zentrierung dominiert Achsenlage der Mittelwert.
Wann ist PCA auf Kovarianzmatrix sinnvoller als auf Korrelationsmatrix?
- Wenn Variablen gleiche Skala haben und absolute Varianz wichtig ist.
Wann ist Korrelations-PCA besser?
- Wenn Variablen unterschiedliche Skalen oder Einheiten besitzen → gleiche Gewichtung durch Standardisierung.
Wann kann PCA Rauschen entfernen?
- Wenn wenige PCs Großteil der Struktur beschreiben → restliche PCs enthalten meist Rauschkomponenten.
Wann ist eine starke Varianz in PC1 nicht immer wünschenswert?
- Wenn sie durch Artefakte (Batch-Effekte) statt echte biologische Variation entsteht.
Wann ist PCA geeignet für Genexpressionsdaten?
- Zur Reduktion von Tausenden korrelierten Genen auf wenige Achsen → Muster zwischen Tumortypen erkennbar.
Wann sind negative Loadings relevant?
- Sie zeigen inverse Beziehung einer Variable zur Hauptkomponente → negative Werte = gegensätzliche Richtung.
Wann interpretiert man Loadings und Scores gemeinsam?
- Wenn man erkennen will, welche Variablen bestimmte Probenpositionen im PC-Raum erklären.
Wann zeigen zwei Variablen hohe Korrelation im Biplot?
- Wenn ihre Pfeile in ähnliche Richtung weisen → gemeinsame Varianzquelle.
Wann zeigen zwei Variablen Unabhängigkeit im Biplot?
- Wenn Pfeile etwa orthogonal zueinander stehen.
Wann zeigen entgegengesetzte Pfeile im Biplot negative Korrelation?
- Wenn sie in entgegengesetzte Richtungen verlaufen.
Wann sollte man PCA vor Regressionsanalyse verwenden?
- Wenn starke Multikollinearität zwischen Prädiktoren besteht → PCA reduziert redundante Information.
Wann ist PCA-Regression (PCR) sinnvoll?
- Wenn man lineare Regression auf unkorrelierte Hauptkomponenten durchführen will.
Wann ist PCA für Vorhersagen weniger geeignet?
- Wenn PCs keine klare Beziehung zur Zielvariablen haben → unüberwachtes Verfahren.
Wann nutzt man PCA zur Visualisierung?
- Für 2D/3D-Darstellung hochdimensionaler Daten → z. B. Muster, Cluster oder Trends sichtbar machen.
Wann kann PCA bei Zeitreihen helfen?
- Wenn viele Sensoren ähnliche Muster zeigen → PCA extrahiert Hauptsignale.
Wann kann PCA in der Biologie Klassen trennen?
- Wenn Proben ähnlicher Genexpressionsprofile im PC-Raum nahe liegen (Clusterbildung).
Wann erkennt man Overfitting in PCA-Visualisierung?
- Wenn zu viele PCs verwendet werden und Rauschen interpretiert wird.
Wann zeigt ein Scree-Plot eine starke „Elbow“-Struktur?
- Wenn wenige PCs den größten Teil der Varianz erfassen → klare Strukturdominanz.
Wann kann PCA Batch-Effekte sichtbar machen?
- Wenn PC1 oder PC2 hauptsächlich technische Unterschiede statt biologische trennen.
Wann ist Interpretation einzelner PCs schwierig?
- Wenn viele Variablen ähnliche Beiträge leisten → keine klare Zuordnung zu bestimmten Merkmalen.
Wann kann PCA mit t-SNE kombiniert werden?
- Wenn PCA als Vorverarbeitung für t-SNE dient, um Rauschen zu reduzieren.
Wann ist PCA numerisch instabil?
- Wenn Datensatz fast singulär ist (mehr Variablen als Beobachtungen) → besser SVD-basiert (prcomp()) statt eigen().
Wann ist PCA auf normalisierten Daten besser interpretierbar?
- Wenn Werte in z-Scores vorliegen → Loadings zeigen reale Beitragstendenzen.
Wann ist die Gesamtsumme der Eigenwerte wichtig?
- Sie entspricht der Gesamtvarianz im Datensatz → Kontrolle, ob keine Information verloren ging.
Wann zeigen PCs Redundanz?
- Wenn Eigenwerte fast gleich → PCs beschreiben ähnliche Varianzrichtungen.
Wann kann PCA zur Feature-Selektion verwendet werden?
- Wenn Variablen mit hohem Beitrag zu PC1/PC2 beibehalten werden → reduzieren Datenmenge sinnvoll.
Last changed2 months ago