Womit befasst sich eine Regressionsanalyse?
Untersuchung und Quantifizierung von Abhängigkeiten zwischen metrisch skalierten Daten. Aufgabe: Lineare Funktion finden, die die Abhängigkeit der AV von einer oder mehreren UVs quantifiziert
Schätzt den Wert einer Variablen aufgrund der Kenntnisse des Wertes einer anderen Variable
Was sind Ziel und Methoden der deskriptiven Statistik?
Reduktion von Informationen durch übersichtliches und anschauliches aufbereiten
Methoden: Tabellenform, Grafiken, Berechnung des arithmetischen Mittels
Was sind Ziel und Methoden der Inferenzstatistik?
Ziel: Verlässliche Aussagen über Sachverhalte und Personengruppen zu machen, ohne diese in vollem Umfang untersucht zu haben (Induktiver Schluss)
Methoden: Schätzen von Parametern, Bestimmung von Konfidenzintervallen, Testen von Hypothesen
Was ist eine Faktorenanalyse? (+Voraussetzungen)
Großer Datensatz mit vielen Variablen. Korrelationen/Beziehungen zwischen Variablen zu untersuchen.
Sie ermöglicht es, eine große Anzahl von Variablen zu reduzieren und zugrunde liegende Faktoren zu identifizieren, die für die Beobachtungen verantwortlich sind.
Exploratorische FA
Konfirmatorische FA
Ziel: Variablen in Gruppen gliedern
Korrelation innerhalb der Gruppen hoch, zwischen den Gruppen gering
Faktor: Sowas wie eine verborgene Variable (nicht messbar), die mehrere Variablen beeinflusst
Voraussetzungen: Intervallskalenniveau, Daten müssen unabhängig sein, Stichprobe >=200, bedeutsame Korrelationen, Nur linerare Zusammenhänge
Erkläre die explorative Faktorenanalyse
Wird ohne vorherige Annahmen über die Anzahl oder Natur der Faktoren eine Struktur in den Daten gesucht. Es werden Korrelationen zwischen den Variablen berechnet und Faktoren extrahiert, die die größte Varianz in den Daten erklären. Dieser Ansatz wird verwendet, um neue Hypothesen zu generieren und mögliche Strukturen in den Daten zu entdecken.
Erkläre die konfirmatorische Faktorenanalyse
Werden vorab spezifizierte Hypothesen über die Anzahl und Natur der Faktoren getestet. Ein theoretisches Modell wird entwickelt und mit den Daten überprüft, um festzustellen, ob es die beobachteten Korrelationen zwischen den Variablen gut repräsentiert. Dieser Ansatz wird verwendet, um bestehende Theorien zu überprüfen und zu validieren.
Mit welchen Methoden kann man bestimmen wie viele Faktoren man benötigt?
Eigenwertmethode: Wie viele Eigenwerte sind größer als 1? = Anzahl der Faktoren
Scree-Test: Grafische Methode. Es wird geguckt wo sich in der Grafik ein Knick/Bogen befindet
Parallelanalyse: Vergleich der Eigenwerte mit dem Eigenwertverlauf von (simulierten) Zufallsvariablen. Einbezogen werden Faktoren mit einem Eigenwert, der über dem Zufallswert der simulierten Daten liegt
Was besagt, das Kriterium der Trennschärfe bei der Auswahl von Items?
Trennschärfe (korrigierte Item-Skala-Korrelation) als Korrelation eines Items mit der (Sub-)Skala Ausdruck dafür, wie sehr das Item eine Skala repräsentiert
Welche Voraussetzungen müssen für eine Faktorenanalyse gegeben sein?
Metrisch
Normalverteilt
Substantielle Korrelation unter den Daten
Stichprobengröße < 60
Vorteile einer multiplen Regression gegenüber mehreren bivariaten Korrelationen
Thema: Multiple Regression
Unter vielen Prädiktoren, kann man die herausfiltern, die einen substantiellen Einfluss auf das Kriterium haben
redundante Prädiktoren können rausgefiltert werden
Unterschiedliche Prädiktoren können hoch miteinander korrelieren, wodurch Redundanzen bestimmter Variablen auftreten können
Interaktionseffekte und Suppressionseffekte können identifizert und untersucht werden
Was sind die Unterschiede zwischen einer logistischen und einer linearen Regression? Nenne Beispiele
Bei linearer Regression werden die Werte der abhängigen Variable anhand der unabhängigen Variablen hervorgesagt -
Beispiel: Vorhersage des Datenverbrauchs - UV: Alter, Geschlecht, Anschluss - AZV: Menge der verbrauchten Daten
In logistischer Regression dagegen werden die Wahrscheinlichkeiten für die Kategorien der abhängigen Variable anhand der unabhängigen Variable modelliert -
Beispiel: Vorhersage von Kündigungen: AV aus 2 Gruppen (Vertrag gekündigt Ja/Nein), Einflussfaktoren: Alter, bisherige Vertragslaufzeit, Mindestvertragslaufzeit, Anschlussart
Was ist eine Logistische Regression?
Multivariates Analyseverfahren zur Analyse von dichotomen (zweiteiligen) abhängigen Variablen
Ermittlung der Eintrittswahrscheinlichkeit
Logistische Funktion = S-Förmig und nimmt nur Werte zwischen 0 und 1 an
Voraussetzung: AV ist binär (0-1 codiert), UV ist metrisch/kategorial oder dichotom, UVs korrelieren nicht hoch miteinander, Mindestens 25 Beobachtungen (aussagekräftig ab ca 100 pro Gruppe)
Was ist eine Clusteranalyse?
Die Clusteranalyse ist eine statistische Methode, die in der Datenanalyse verwendet wird, um ähnliche Objekte oder Datenpunkte zu gruppieren
Daten in homogene Gruppen, sogenannte Cluster, zu unterteilen, wobei Objekte innerhalb eines Clusters ähnlicher sind als Objekte zwischen verschiedenen Clustern.
Das Ziel der Clusteranalyse besteht darin, Muster oder Strukturen in den Daten zu identifizieren, ohne vorherige Annahmen über die Gruppierung zu machen.
In welchen Hauptarten kann die Clusteranalyse durchgeführt werden?
Hierarchische Clusteranalyse:
Objekte schrittweise in einem hierarchischen Baumstrukturdiagramm gruppiert. Der Prozess beginnt mit jedem Objekt als einzelnes Cluster und fährt fort, indem ähnliche Objekte zu größeren Clustern zusammengefasst werden. Dadurch entsteht eine Hierarchie von Clustern. Die Entscheidung über die Anzahl und Art der Cluster wird anhand der Höhe der Verzweigungen im Dendrogramm getroffen.
Partionierende Clusteranalyse:
bestimmte Anzahl von Clustern im Voraus festgelegt, und die Datenpunkte werden iterativ den Clustern zugewiesen, um die optimale Gruppierung zu erreichen
Was sind die Unterschiede zwischen einer Faktorenanalyse und einer Clusteranalyse (Ziel, Art der Variablen, Ergebnisse, Annahmen)
Ziele:
F: Faktoren identifizieren, die die Variation in den beobachteten Variablen erklären. Versucht Daten zu reduzieren und Muster/Strukturen zu identifizieren
C: Versucht ähnliche Objekte in homogene Gruppen (Cluster) zu gruppieren. Datei in Gruppen unterteilen
Art der Variablen:
F: i.d.R. auf metrischen oder ordinalen Variablen angewendet. Annalysiert Korrelationen zwischen den Variablen
C: Kann auf verschiedene Arten von Daten angewendet werden (metrisch, ordinal, nominal). Verwendet Ähnlichkeitsmaße um Datenpunkte zu gruppieren
Ergebnisse:
F: Liefert Infos über Faktoren, die Variation in den Daten erklärt. Gibt an wie stark jeder Faktor mit den Variablen korreliert
C: Infos über Gruppierung von Datenpunkten, Identifiziert Cluster und welche Objekte dazugehören
Annahmen:
F: Variablen durch kleine Anzahl von Faktoren erklärt werden können, Annahme dass die Faktoren unabhängig voneinander sind und dass es eine lineare Beziehung zwischen den Variablen und den Faktoren gibt haha
C: Keine spezifischen Annahmen über die Struktur der Daten. Keine spezifische Beziehung zwischen den Variablen vorausgesetzt
Was ist eine ANOVA?
ANOVA steht für "Analysis of Variance" und ist eine statistische Methode zur Analyse von Unterschieden zwischen Gruppen. Die ANOVA ermöglicht es, festzustellen, ob es signifikante Unterschiede zwischen den Mittelwerten mehrerer Gruppen gibt, basierend auf den Variationen innerhalb und zwischen den Gruppen.
Sie beantwortet die Frage, ob die Unterschiede zwischen den Gruppen größer sind als die Variation innerhalb der Gruppen. Die ANOVA beruht auf der Annahme, dass die Daten normalverteilt sind und die Varianzen in den Gruppen homogen sind.
Signifikanz = Mind. 2 Gruppen unterscheiden sich
Was sind die Voraussetzungen für eine ANOVA?
Daten metrisch skaliert
Gruppengröße >= 10
Normalverteilung (KS Test)
Varianzhomogenität (Levene Test)
Unterscheide die drei Typen der ANOVA mit Beispiel
Es gibt verschiedene Arten von ANOVA, je nach der Anzahl der unabhängigen Variablen und ihrer Kategorisierung:
Einfaktorielle ANOVA: Hier wird eine unabhängige Variable betrachtet, die in drei oder mehr Gruppen unterteilt ist. Beispiel: Der Einfluss von verschiedenen Düngemitteln auf die Pflanzenwachstumsraten.
Zweifaktorielle ANOVA: Hier werden zwei unabhängige Variablen betrachtet, die jeweils in mehreren Gruppen unterteilt sind. Beispiel: Der Einfluss von Geschlecht und Bildungsniveau auf die Leistung in einem Test.
Mehrfaktorielle ANOVA: Hier werden drei oder mehr unabhängige Variablen betrachtet. Beispiel: Der Einfluss von Trainingsart, Dauer und Ernährung auf die sportliche Leistung.
Welche sind die 7 Schritte einer Faktoranalyse?
z-Standardisierung der Daten
Erstellen von Interkorrelationsmatrix
1. Rotation
Erstellung der Landungsmatrix
2. Rotation
Benennen und Interpretieren der Faktoren
Was macht eine Interkorrelationsmatrix in der Faktorenanalyse?
Testet die Signifikanz der Korrelationen
Überprüft die Hypothese, die besagt dass die Variablen in der Grundgesamtheit unkolliert (Soll signifikant sein)
KMO: Kaiser-Meyer-Olkin Kriterium
Was sagen in einer Faktorenanalyse der KMO-Test und der Bartlett Test aus?
KMO: Ob die Daten für eine Faktorenanalyse geeignet sind, Wert sollte >0,5 sein, 1 = hervorragend
Bartlett: Ob die Daten stark genug miteinander korrelieren für eine Faktorenanalyee, Wert muss signifikant sein <0,05
Berechnet Chi-Quadrat Statistikwert und vergleicht ihn mit Chi-Quadrat Verteilung um die statistische Signifikanz zu bestimmen. Wenn Chi-Quadrat signifikant ist wird die Nullhypothese abgelehnt und es wird angenommen, dass die Korrelationsmatrix nicht sphärisch ist. Faktoranalyse ist also angemessen
Benenne die 7-Schritte einer Faktorenanalyse
Erstellen der Interkorrelationsmatrix
Der 1. Rotation
Erstellung der Ladungsmatrix
Zahl der Faktoren bestimmen
Die 2. Rotation
Benennen und Interpretation der Faktoren
Erkläre folgende Begriffe einer Faktorenanalyse:
Kommunalität
Eigenwert
Trennschärfe
Faktorladung
Kommunalität = Ausmaß, in dem eine Variable durch die Faktoren erklärt wird
Eigenwert = Wie viel der Gesamtvarianz erklärt ein Faktor?
Trennschärfe = Korrelation eines Items mit der Skala
Faktorladung = Korrelation zwischen Faktor und Variable
Was macht das k-Means Verfahren in einer Clusteranalyse?
Das k-Means-Verfahren ist ein Algorithmus für die Clusteranalyse, der eine Gruppe von Datenpunkten in k Cluster einteilt. Das k-Means-Verfahren versucht, die Datenpunkte so zu gruppieren, dass die ähnlichsten Punkte im selben Cluster landen und die Cluster untereinander möglichst unterschiedlich sind. Es ist wichtig zu beachten, dass die Ergebnisse des k-Means-Verfahrens stark von der Anfangswahl der Schwerpunkte abhängen können, da verschiedene Anfangspositionen zu unterschiedlichen Clusterzuordnungen führen können.
Das k-Means-Verfahren ist ein einfacher, effizienter und skalierbarer Algorithmus für die Clusteranalyse. Allerdings hat es auch einige Einschränkungen, wie z.B. die Abhängigkeit von der Wahl der Anzahl der Cluster k und die Annahme, dass die Cluster kugelförmig und gleich groß sind
Der k-Wert gibt die Anzahl der zu findenden Cluster an und muss im Voraus festgelegt werden.
Was ist der Zwischensubjektfaktor in SPSS?
ein Begriff, der in der statistischen Analyse von Designs mit wiederholten Messungen verwendet wird. Es handelt sich um eine Variable oder einen Faktor, der den Unterschied zwischen verschiedenen Teilnehmern (oder Subjekten) in einem Experiment beschreibt.
Der Zwischensubjektfaktor ermöglicht es, die individuellen Unterschiede zwischen den Teilnehmern zu kontrollieren und zu berücksichtigen, während man sich auf die Haupteffekte und Wechselwirkungen der anderen Faktoren konzentriert.
Beispiel: 2 Messzeitpunkte: Ergebnis vor und nach dem Training
Die Analyse berücksichtigt die individuellen Unterschiede zwischen den Sportlern und zeigt, dass der F-Wert für den Haupteffekt "Sportler" nicht signifikant ist (p >.05). Dies bedeutet, dass es keine signifikanten individuellen Unterschiede zwischen den Sportlern gibt.
Die Verwendung des Zwischensubjektfaktors ermöglicht es uns, die individuellen Unterschiede zu kontrollieren und den Fokus auf die anderen Effekte in der Analyse zu richten.
Was ist der Mauchly Test in SPSS?
Überprüft Spherizität. Die Sphärizität ist eine Annahme, die bei der Analyse von wiederholten Messungen (mindestens drei Messzeitpunkte) gemacht wird, um die Gültigkeit der Ergebnisse zu gewährleisten.
Der Mauchly-Test berechnet einen p-Wert, der angibt, ob die Sphärizitätsannahme verletzt ist. Wenn der p-Wert des Mauchly-Tests kleiner als das gewählte Signifikanzniveau (z. B. 0,05) ist, wird die Sphärizitätsannahme als verletzt angesehen und alternative Korrekturmaßnahmen müssen in Betracht gezogen werden.
Wird automatisch bei einer ANOVA Durchgeführt. Der Mauchly-Test ist wichtig, um sicherzustellen, dass die Sphärizitätsannahme erfüllt ist, da dies die korrekte Interpretation der Ergebnisse von Analysen mit wiederholten Messungen gewährleistet.
Was macht der Levene Test?
Homogenität der Varianzen zwischen verschiedenen Gruppen zu überprüfen. Der Test ist besonders nützlich, wenn eine Analyse wie die Varianzanalyse (ANOVA) durchgeführt werden soll, bei der die Annahme der Homogenität der Varianzen zwischen den Gruppen erfüllt sein sollte.
In SPSS wird der Levene-Test typischerweise durchgeführt, indem man eine Analyse wie eine ANOVA ausführt und die Option "Homogenität der Varianzen testen" auswählt. SPSS gibt dann einen p-Wert aus, der angibt, ob die Homogenitätsannahme erfüllt ist oder nicht. Wenn der p-Wert kleiner als das gewählte Signifikanzniveau (z. B. 0,05) ist, wird die Homogenitätsannahme als verletzt betrachtet.
Wenn die Homogenitätsannahme der Varianzen verletzt ist, kann dies Auswirkungen auf die Interpretation der Ergebnisse von Analysen wie ANOVA haben
Was ist ein Konfidenzintervall?
Bereich von Werten um einen Schätzwert herum anzugeben, innerhalb dessen ein Parameter mit einer bestimmten Wahrscheinlichkeit liegt. Ein Konfidenzintervall gibt Aufschluss über die Genauigkeit und Unsicherheit des Schätzwerts.
In SPSS können Konfidenzintervalle für verschiedene statistische Schätzwerte berechnet werden, wie zum Beispiel den Mittelwert, die Standardabweichung oder den Regressionskoeffizienten.
Die häufigste Art von Konfidenzintervall ist das Konfidenzintervall für den Mittelwert. Zum Beispiel kann ein 95%-Konfidenzintervall für den Mittelwert besagen, dass man mit 95%iger Wahrscheinlichkeit davon ausgehen kann, dass der wahre Mittelwert innerhalb dieses Intervalls liegt.
Kann in t-Test oder linearer Regression enthalten sein
Es ist wichtig zu beachten, dass ein Konfidenzintervall den Bereich von Werten um einen Schätzwert angibt und nicht das Vertrauensniveau für einzelne Werte. Das bedeutet, dass das Intervall den wahrscheinlichen Bereich enthält, in dem der Parameter liegt, aber nicht spezifisch angibt, ob ein bestimmter Wert innerhalb oder außerhalb des Intervalls liegt
Wie wertet man eine ANOVA in SPSS aus?
Beispiel:
Angenommen, wir haben eine Studie durchgeführt, um den Einfluss von drei verschiedenen Trainingsmethoden (A, B, C) auf die Leistung von Sportlern zu untersuchen. Wir haben 60 Sportler zufällig in drei Gruppen aufgeteilt, wobei jede Gruppe eine der drei Trainingsmethoden erhalten hat. Die abhängige Variable ist die erzielte Punktzahl bei einem sportlichen Test.
Datenimport: Importieren Sie Ihre Daten in SPSS und stellen Sie sicher, dass die Variablen korrekt kodiert und zugeordnet sind.
Durchführung der ANOVA: Gehen Sie zu "Analysieren" -> "Allgemeine Lineare Modelle" -> "Univariate…" und wählen Sie Ihre abhängige Variable aus. Geben Sie die unabhängige Variable (Trainingsmethode) als "Faktor" ein.
Überprüfung der Ergebnisse: Überprüfen Sie die Tabelle "Zusammenfassung" (Summaries) in der Ausgabe von SPSS. Hier finden Sie Informationen über die Haupteffekte und Wechselwirkungen.
Haupteffekte: Überprüfen Sie die Zeile "Sig." in der Spalte "F-Wert" (Signifikanz) für Ihre unabhängige Variable (Trainingsmethode). Ein niedriger p-Wert (< 0,05) zeigt an, dass es einen statistisch signifikanten Haupteffekt gibt, d.h. dass mindestens eine Trainingsmethode die Leistung signifikant beeinflusst.
Wechselwirkungen: Überprüfen Sie die Zeile "Sig." in der Spalte "F-Wert" für mögliche Wechselwirkungen zwischen den unabhängigen Variablen. Eine signifikante Wechselwirkung zeigt an, dass der Einfluss der Trainingsmethoden auf die Leistung von der Kombination der Trainingsmethoden abhängt.
Post-hoc-Analysen: Wenn es einen signifikanten Haupteffekt gibt, können Sie Post-hoc-Analysen durchführen, um spezifische Vergleiche zwischen den Trainingsmethoden zu machen und festzustellen, welche Methode die beste Leistung erzielt. In der Regel wird ein p-Wert angegeben, der angibt, ob der Unterschied zwischen den Mittelwerten statistisch signifikant ist oder nicht. Ein niedriger p-Wert (< 0,05) zeigt an, dass der Unterschied als signifikant angesehen wird.
Interpretation: Basierend auf den Ergebnissen der ANOVA können Sie feststellen, ob es einen statistisch signifikanten Unterschied in der Leistung zwischen den Trainingsmethoden gibt und ob Wechselwirkungen vorhanden sind. Sie können auch Post-hoc-Analysen verwenden, um genaue Vergleiche zu machen und Rückschlüsse auf die Leistungseffekte der verschiedenen Trainingsmethoden zu ziehen.
Zuletzt geändertvor einem Jahr