Was versteht man unter Korrelation?
Korrelation beschreibt den statistischen Zusammenhang zwischen zwei Variablen
Zeigt, ob sich zwei Merkmale gemeinsam verändern (nicht: ob eins das andere verursacht!)
Positive Korrelation: beide Variablen steigen
Negative Korrelation: eine steigt, die andere sinkt
Kein Zusammenhang: Korrelation ≈ 0
Wie erkennt man einen Zusammenhang zwischen zwei Variablen?
Zusammenhang bedeutet: Wenn sich eine Variable verändert, verändert sich auch die andere
Darstellung oft über ein Streudiagramm (Scatterplot)
Form des Zusammenhangs:
Linear: Punktwolke bildet eine annähernde Gerade
Nicht-linear: andere Muster (z. B. Kurven)
Richtung: positiv, negativ oder kein Zusammenhang
Was ist die Produkt-Moment-Korrelation nach Bravais & Pearson?
Misst den linearen Zusammenhang zwischen zwei metrischen Variablen
Wertebereich: −1 bis +1
+1: perfekter positiver Zusammenhang
−1: perfekter negativer Zusammenhang
0: kein linearer Zusammenhang
Voraussetzungen:
Intervallskalenniveau
Lineare Beziehung
Keine starken Ausreißer
Formel basiert auf Kovarianz & Standardabweichung
Was sind die Grenzen der linearen Korrelation?
Erfasst nur lineare Zusammenhänge – andere Muster bleiben unentdeckt
Ausreißer können den Korrelationswert stark verzerren
Eine hohe Korrelation bedeutet nicht, dass ein kausaler Zusammenhang besteht
Drittvariablen können Scheinkorrelationen erzeugen
Variablen müssen metrisch sein (mind. Intervallskala)
Was ist das Ziel der linearen Regression?
Ziel: Vorhersage oder Erklärung einer abhängigen Variable (y) durch eine unabhängige Variable (x)
Es wird eine lineare Gleichung gesucht, die den Zusammenhang möglichst gut beschreibt
Grundlage: Best-Fit-Gerade (Regressionsgerade) durch die Punktwolke
Form: y=a+b⋅xy = a + b \cdot xy=a+b⋅x
a = Achsenabschnitt
b = Regressionskoeffizient (Steigung)
Wie lautet die Regressionsgleichung und was bedeuten ihre Bestandteile?
y=a+b⋅x
y: vorhergesagter Wert der abhängigen Variable
a: Achsenabschnitt (wo die Gerade die y-Achse schneidet)
b: Regressionskoeffizient = Steigung der Gerade → zeigt, um wie viel sich y ändert, wenn x um 1 steigt
Die Gerade zeigt den besten linearen Zusammenhang zwischen x und y
Wie funktioniert eine Vorhersage mit der Regressionsgleichung?
Mithilfe der Gleichung y=a+b⋅x kann man für einen gegebenen x-Wert einen y-Wert vorhersagen
Die Vorhersage liegt auf der Regressionsgeraden
Nur sinnvoll, wenn:
Der Zusammenhang linear ist
Der x-Wert innerhalb des Datenbereichs liegt (→ keine Extrapolation!)
Interpretation von b (Steigung): „Wenn x um 1 steigt, steigt/sinkt y um b“
Wie bewertet man die Vorhersagegüte einer Regressionsanalyse?
Die Vorhersagegüte wird mit dem Bestimmtheitsmaß R² gemessen
R² gibt an, wie viel Prozent der Varianz von y durch x erklärt wird
Wertebereich: 0 bis 1
R² = 0 → x erklärt nichts
R² = 1 → x erklärt y vollständig
Achtung: Hoher R² ≠ Kausalität
Ergänzend auch Standardfehler der Schätzung beachten (je kleiner, desto besser)
Welche Voraussetzungen gelten für die einfache lineare Regression?
✅ Voraussetzungen:
Linearer Zusammenhang zwischen x und y
Metrisches Skalenniveau beider Variablen
Homoskedastizität: konstante Streuung der Residuen
Normalverteilung der Residuen
Unabhängigkeit der Beobachtungen
⚠️ Bei Verletzungen sind Ergebnisse evtl. nicht verlässlich
Was bedeutet die Standardisierung der Regressionsgeraden?
Bei Standardisierung werden x und y in z-Werte (Standardabweichungen) umgerechnet
Die Regressionsgleichung lautet dann: Zy= ß*Zx
Kein Achsenabschnitt (a = 0), da z-Werte Mittelwert 0 haben
Der Regressionskoeffizient β entspricht dem Korrelationskoeffizienten r → Dadurch sind Ergebnisse einfacher vergleichbar zwischen Studien/Messungen
Was ist das Ziel der multiplen linearen Regression?
Ziel: Einfluss mehrerer unabhängiger Variablen (x₁, x₂, …) auf eine abhängige Variable (y) untersuchen
Erweiterung der einfachen Regression: y = a + b1·x1 + b2·x2 + … + bk·xk
Zeigt, welche Variablen y wie stark beeinflussen, wenn alle anderen konstant gehalten werden
Anwendung z. B. in Marketing, Medizin, Sozialforschung
Wie interpretiert man die Regressionskoeffizienten in der multiplen Regression?
Jeder bᵢ-Koeffizient zeigt den Einfluss der jeweiligen xᵢ-Variable auf y
Interpretation: „Wenn xᵢ um 1 Einheit steigt, ändert sich y um bᵢ – unter Konstanthaltung aller anderen Variablen“
Vorzeichen von bᵢ zeigt Richtung des Einflusses (positiv/negativ)
Größe von bᵢ zeigt Stärke (aber abhängig von Maßeinheiten!)
Welche Ergebnisse liefert die multiple Regression?
Regressionskoeffizienten (b₁, b₂, …): Richtung und Stärke des Einflusses einzelner Variablen
Regressionskoeffizienten (b₁, b₂, …): zeigen Richtung und Stärke der Effekte
Bestimmtheitsmaß (R²): Anteil der durch alle x erklärten Varianz in y
Standardfehler der Schätzung: gibt Genauigkeit der Vorhersage an
t-Tests für einzelne Koeffizienten: prüfen, ob ein Prädiktor signifikant zur Vorhersage beiträgt → Signifikanter t-Wert → xᵢ hat signifikanten Einfluss auf y
Wie beurteilt man die Modellgüte in der multiplen Regression?
Die Modellgüte zeigt, wie gut das Regressionsmodell die abhängige Variable erklärt
Zentrales Maß: Bestimmtheitsmaß R²
Gibt den Anteil der durch das Modell erklärten Varianz in y an
Wertebereich: 0 (keine Erklärung) bis 1 (perfekte Erklärung)
Ergänzend: Standardfehler der Schätzung → je kleiner, desto genauer sind die Vorhersagen
Achtung: R² steigt mit mehr Prädiktoren → daher R² adjustiert zur fairen Bewertung mehrerer Modelle nutzen
Last changed13 days ago