1. Grundlagen der Linearen Regression
Frage: Was ist die Grundformel der linearen Regression?
Was ist die Grundformel der linearen Regression?
𝑌 = 𝑎+𝑏𝑋, wobei 𝑎 der Achsenabschnitt (Intercept) und 𝑏 die Steigung (Slope) ist.
Was beschreibt der Intercept (𝑎) in der linearen Regression?
Der Wert von 𝑌 (abhängige Variable), wenn 𝑋=0 (unabhängige Variable).
Der Achsenabschnitt (Intercept) beschreibt den vorhergesagten Wert, wenn alle Prädiktorvariablen 0 sind
Achsenabschnitt (Intercept, 𝑏0) = 101:
Der Achsenabschnitt ist der Punkt, an dem die Regressionsgerade die Y-Achse schneidet. In diesem Fall bedeutet 𝑏0=101, dass der vorhergesagte IQ 101 beträgt, wenn der Bierkonsum 0 Liter beträgt. Der Achsenabschnitt gibt den Wert von 𝑌 (IQ) an, wenn 𝑋 (Bierkonsum) gleich 0 ist.
Interpretation: Wenn eine Person auf dem Oktoberfest keinen Alkohol trinkt (Bierkonsum = 0), beträgt ihr vorhergesagter IQ 101.
Was beschreibt die Slope und wie wird sie interpretiert?
Was beschreibt das Residuum und wie ist seine Interpretation?
Was bedeutet ein kleines/großes Residuum?
Der Steigungsparameter gibt an, wie stark die Gerade steigt bzw. fällt. Die Steigung der Geraden ist an jeder Stelle konstant.
Steigungskoeffizient (Slope, 𝑏1) = -10.1:
Die Steigung beschreibt, wie sich 𝑌 (IQ) ändert, wenn 𝑋 (Bierkonsum) um eine Einheit (1 Liter) zunimmt. Der Wert 𝑏1=−10.1 bedeutet, dass für jeden zusätzlichen Liter Bier, den eine Person trinkt, der vorhergesagte IQ um durchschnittlich 10.1 Punkte sinkt.
Interpretation: Pro Liter Bier, den eine Person trinkt, sinkt ihr vorhergesagter IQ um 10.1 Punkte. Der negative Wert der Steigung zeigt eine negative Beziehung zwischen Bierkonsum und IQ.
Beispiel: wie stark sinkt der IQ im Mittel, wenn der Bierkonsum um eine Einheit zunimmt.
Beispiel: Jemand der 2 Maß mehr trinkt, hat im Mittel einen IQ, der um 20.2 Einheiten geringer ist.
__________________________________________________
Regressionsgleichung: 𝑌𝑖=𝛽0+𝛽1⋅𝑋𝑖+𝜀𝑖
Diese Gleichung stellt das lineare Regressionsmodell dar.
𝑌𝑖 = tatsächliche IQ einer Person,
𝛽0 = Achsenabschnitt (Intercept),
𝛽1 = Steigungskoeffizient,
𝑋𝑖 = Bierkonsum, und
𝜀𝑖 = Fehlerterm (Residuum): Unterschied zwischen dem vorhergesagten und dem tatsächlichen Wert.
Interpretation: Diese Formel sagt den IQ einer Person basierend auf ihrem Bierkonsum und dem durchschnittlichen Zusammenhang zwischen Bierkonsum und IQ vorher. Für jede Person, die eine bestimmte Menge Bier getrunken hat, kann mit Hilfe dieser Gleichung der vorhergesagte IQ berechnet werden.
Residuum (𝑒𝑖=𝑦𝑖−𝑦𝑖^)
Das Residuum ist die Differenz zwischen dem tatsächlichen Wert und dem vorhergesagten Wert
Es zeigt, um wie viel der tatsächliche Wert vom vorhergesagten Wert abweicht. Residuen können sowohl positiv als auch negativ sein.
Interpretation: Das Residuum gibt den Vorhersagefehler des Modells an. Ein kleines Residuum bedeutet, dass der vorhergesagte Wert sehr nah am tatsächlichen Wert liegt, während ein großes Residuum bedeutet, dass das Modell für diese Beobachtung weniger genau ist.
2. Modellspezifikation und Schätzung
Welche Annahmen müssen für eine lineare Regression erfüllt sein?
Linearität der Beziehung,
Unabhängigkeit der Residuen,
Normalverteilung der Residuen und
Homoskedastizität (konstante Varianz der Fehler).
Wie wird die "beste" Linie in der linearen Regression geschätzt?
Durch Minimierung der Residual Sum of Squares (RSS), d. h., der Summe der quadrierten Abweichungen der tatsächlichen Werte von den vorhergesagten Werten.
Was ist das Ziel der Methode der kleinsten Quadrate (Least Squares)?
Die Schätzung der Parameter (Intercept und Slope), sodass die Summe der quadrierten Fehler (RSS) minimiert wird.
Was ist Extrapolation?
3. Interpretation der Regressionskoeffizienten
Was zeigt der Koeffizient für eine unabhängige Variable in einem linearen Regressionsmodell an?
Den durchschnittlichen Effekt dieser Variable auf die abhängige Variable, wenn alle anderen Variablen konstant gehalten werden.
Was bedeutet es, wenn der Intercept in einem Modell signifikant ist?
Der Intercept unterscheidet sich statistisch signifikant von Null, was bedeutet, dass der vorhergesagte Wert von 𝑌 nicht Null ist, wenn alle 𝑋 Variablen gleich Null sind.
4. Kodierung von kategorialen Variablen
Was ist Dummy-Kodierung und wann wird sie verwendet?
Wie erfolgt die Kodierung?
Was beschreibt der Intercept?
Was beschreibt 𝛽2?
Eine Methode zur Umwandlung von kategorialen Variablen in numerische Form. Eine Kategorie wird als Referenz (0) gewählt, und die andere wird als 1 kodiert.
𝐼𝑄i= 𝛽0 + 𝛽1 ⋅ 𝐵𝑖𝑒𝑟i + 𝛽2 ⋅ 𝑀𝑢𝑐1 + 𝜀i
z.B.: keine Münchner*in = 0, Münchner*in = 1
Intercept = Achsenabschnitt der Referenzgruppe
Das Regressionsgewicht für muc ist der Unterschied im Intercept der anderen Gruppe im Vgl. zur Referenzgruppe
Interpretation der Dummy-Kodierung:
Intercept (𝑏0): Der Intercept repräsentiert den Mittelwert der abhängigen Variable 𝑌 (z. B. IQ) für die Referenzgruppe (hier: „keine Münchner*in“). Wenn alle Prädiktorvariablen (z. B. Bierkonsum) den Wert 0 haben, gibt der Intercept den vorhergesagten Wert für die Referenzgruppe an.
Beispiel: Wenn 𝑏0=102, bedeutet das, dass der durchschnittliche IQ für Personen, die keine Münchner*innen sind, 102 beträgt (bei einem Bierkonsum von 0).
Koeffizient für „Münchner*in“ (𝑏1): Der Koeffizient 𝑏1 für die Dummy-Variable „Münchner*in“ zeigt den Unterschied im Intercept (Mittelwert der abhängigen Variable) zwischen den beiden Gruppen an.
Beispiel: Wenn 𝑏1=8, bedeutet das, dass der durchschnittliche IQ von Münchnerinnen (Gruppe mit Wert 1) 8 Punkte höher ist als der von Nicht-Münchnerinnen (Referenzgruppe). Der neue Intercept für Münchner*innen wäre also 102+8=110
Steigung für Bierkonsum: Der Steigungskoeffizient für Bierkonsum (𝑏2) bleibt gleich, unabhängig davon, ob eine Person Münchner*in ist oder nicht, wenn keine Interaktion modelliert wird.
Beispiel: Wenn 𝑏2=−10, bedeutet das, dass für jede Einheit Bierkonsum der IQ um 10 Punkte sinkt, egal ob die Person Münchnerin oder keine Münchnerin ist.
Zusammenfassung der Dummy-Kodierung:
Der Intercept (𝑏0) ist der Wert der abhängigen Variable für die Referenzgruppe (keine Münchner*in).
Der Koeffizient 𝑏1 zeigt den Unterschied zwischen der Referenzgruppe und der Vergleichsgruppe (Münchner*in) im Mittelwert der abhängigen Variable an.
Der Effekt des Prädiktors (z. B. Bierkonsum) ist für beide Gruppen gleich, sofern keine Interaktion modelliert wird.
Was ist Effektkodierung?
Was beschreibt hier das Intercept?
Ein Kodierungsschema, bei dem die Gruppenwerte symmetrisch um Null verteilt werden (z. B. -1 und +1).
z.B.: keine Münchner*in = -1, Münchner*in = 1
Intercept = grand intercept, über beide Gruppen hinweg (ungewichtet falls ungleiche Gruppengrößen – d.h., der Mittelwert der beiden Gruppenmittelwerte, egal wie groß die Gruppen sind)
Das Regressionsgewicht für muc ist der Unterschied beider Gruppen (+ oder -) im Vergleich zum grand intercept.
Wie beeinflusst die Wahl der Kodierung die Interpretation der Regressionsergebnisse?
Die Interpretation der Regressionskoeffizienten hängt davon ab, wie die Gruppen kodiert sind (Dummy- vs. Effektkodierung).
Die Modelle sind mathematisch alle äquivalent, die Interpretation der Koeffizienten aber unterschiedlich!
5. Interaktionen zwischen Variablen
Was ist eine Interaktion in einer linearen Regression?
Eine Wechselwirkung, bei der der Effekt einer unabhängigen Variable auf die abhängige Variable von der Ausprägung einer anderen unabhängigen Variable abhängt.
Wie wird eine Interaktion in der Regression modelliert?
Durch Hinzufügen eines Interaktionsterms zur Regressionsgleichung, z. B.
6. Zentrierung von Prädiktorvariablen
Warum ist die Zentrierung von Prädiktorvariablen wichtig?
Sie erleichtert die Interpretation des Intercepts und kann die Multikollinearität zwischen Prädiktoren verringern.
Wie wird eine Variable zentriert?
Indem der Mittelwert der Variablen von jedem ihrer Werte abgezogen wird.
Welche Arten der Zentrierung gibt es?
Zentrierung auf den Stichprobenmittelwert,
Populationsmittelwert,
das Minimum,
den ersten Messzeitpunkt (bei Zeitreihen) oder
den semantischen Mittelpunkt (bei Likert-Skalen).
7. Modellanpassung: Overfitting und Underfitting
Was ist Overfitting?
Ein Modell ist zu komplex und passt sich zu stark an das Rauschen der Daten an, was die Generalisierbarkeit verschlechtert.
Was ist Underfitting?
Ein Modell ist zu einfach und kann die zugrunde liegenden Strukturen der Daten nicht erfassen.
Wie findet man die optimale Modellkomplexität?
Durch die Anwendung von Methoden wie Kreuzvalidierung und die Berücksichtigung von Kriterien wie dem AIC (Akaike Information Criterion).
8. Praktische Anwendungen und Modellvergleich
Warum ist "Ockhams Rasiermesser" relevant in der Modellwahl?
Es besagt, dass bei gleich guter Passung das einfachere Modell vorzuziehen ist, um Überanpassung zu vermeiden.
Was ist eine Residualanalyse und warum ist sie wichtig?
Eine Analyse der Fehlerterme zur Überprüfung der Annahmen der Regression; wichtig für die Validierung des Modells.
Was sind mögliche Schritte zur Verbesserung eines Regressionsmodells?
Transformation von Variablen,
Hinzufügen oder Entfernen von Prädiktoren,
Überprüfung der Annahmen,
Nutzung von Kreuzvalidierung.
Last changed3 months ago