Was ist ein Modellparameter?
Parameter innerhalb eines konkreten Modells, die variieren können und mithilfe von Daten geschätzt werden müssen
Aus welchen Modellparameter besteht eine lineare Regression?
—> Y = a + bX
IQ = a + b*Liter
𝑌i = 𝛽0 + 𝛽1⋅ 𝑋i + 𝜀i , 𝜀i~𝑁(0, 𝜎2𝜀)
Was beschreibt der Achsenabschnitt und wie was ist seine Nomenklatur?
—> beschreibt den vorhergesagten Wert, wenn alle Prädiktorvariablen 0 sind.
—> Alfa oder 𝛽0
Was gibt die Slope an?
Steigungsparameter: Der Steigungsparameter gibt an, wie stark die Gerade steigt bzw. fällt.
—> Die Steigung der Geraden ist an jeder Stelle konstant.
Was ist ein Residuum bzw. was beschreibt es und was ist seine Gleichung?
Die Abweichung einer Beobachtung von der geschätzte Gerade der Regression
—> ei = yi - yi dach
Wie ist die Interpretation einer linearen Regression?
—> wie stark sinkt/steigt die AV im Mittel, wenn die UV um eine Einheit zunimmt/abnimmt.****
—> Option 2: wie hängen 2 Variablen zusammen
Beispiel: Jemand der 2 Maß mehr trinkt, hat im Mittel einen IQ, der um 20.2 Einheiten geringer ist.
Was ist Homoskedastizität und wie ist die mathematische Expression (Gleichung)?
—> Die Annahme bezüglich der Fehlervariablen, dass diese einer Normalverteilung mit Erwartungswert Null und konstanter Varianz
𝜀i ~𝑁 (0, 𝜎2𝜀)
Die lineare Regression nimmt an, dass die Prädiktoren und AV normalverteilt sind. Wahr oder falsch und wieso?
Falsch.
Diese Annahme ist exklusiv der Fehlervariablen 𝜀i
Welche sind die Annahmen einer linearen Regression?
1. Die Zufallsvariablen hängen linear zusammen
2. Alle εi sind unabhängig voneinander
3. Die εi Fehlervariablen folgen einer Normalverteilung mit Erwartungswert Null und konstanter Varianz (Homoskedastizität): 𝜀i ~𝑁 (0, 𝜎2𝜀)
4. Die Fehlervariable sind identisch und unabhängig verteilt
𝜀i ~ iid 𝑁 (0, 𝜎2𝜀)
Wieso nimmt man an, dass die Fehlervariablen identisch und unabhängig verteilt sind? TRANSFERFRAGE
—> Weil man davon ausgeht, dass die Abweichung einer i Beobachtung nichts mit der von anderen Beobachtungen zu tun hat.
Die Verletzung welcher Annahmen einer linearen Regression ist für die Schätzung der Modellparameter nicht so kritisch?
—> Die Annahme der Homoskedastizität ist für die Schätzung der Modellparameter meist irrelevant (Gelman & Hill, 2007); eine Verletzung ist auch für die Schätzung der Standardfehler meist unkritisch.
Worin besteht eine optimale Modellierung der Daten im Sinne der Regressionsanalyse?
—> In der Minimierung der Fehlervariable ε.
—> der Vorhersagefehler soll so klein wie möglich sein
Wieviele Möglichkeiten gibt es, um der Vorhersagefehler so klein wie möglich zu machen?
—> Zumindest 3:
Minimierung der quadrierten Abweichung von vorhergesagtem und tatsächlichen Wert (RSS = residual sum of squares)
absolute Abweichung optimieren
maximale Abweichung minimieren
Was ist Extrapolation?
—> Daten außerhalb des ursprünglichen Wertebereiches der Prädiktoren vorherzusagen
Unter welchen Zusatzannahmen funktioniert die Extrapolation?
—> Buscar
Sollte man extrapolieren?
—> Normalerweise nicht, denn Extrapolation funktioniert nur unter typischerweise sehr unrealistischen Zusatzannahmen.
Welche der Annahmen einer linearen Regression werden in hierarchischen Datenstrukturen verletzt und wieso?
—> Dass alle εi unabhängig voneinander sind
—> Wieso? Ich vermute, weil...
Was macht man mit den Ausprägungen der kategorialen Variablen?
—> Bei kategorialen Variablen wird die Ausprägung numerisch kodiert
Welche Kodierungsschemata bei kategorialen Variablen sind möglich, und worin besteht jedes?
—> Dummy-Kodierung:
Referenzgruppe = 0, „Ziel“gruppe = 1
—> Effektkodierung: Bei zwei Gruppen: immer symmetrisch um Null herum definieren
Referenzgruppe = -1. „Ziel“gruppe = 1
—> Seltsame Dummykodierung: Zum Beispiel
Referenzgruppe = 0, „Ziel“gruppe = 3
𝐼𝑄i = β₀ + β₁ ⋅ 𝐵𝑖𝑒𝑟i + β₂ ⋅ 𝑀𝑢𝑐i + 𝜀i
Ich habe meine Daten Dummy kodiert und du hast sie symmetrisch um Null herum kodiert. Welche Folgen hat dies?
—> Die Modelle sind mathematisch alle äquivalent, aber die Interpretation der Koeffizienten ist unterschiedlich.
Was bedeutet, dass die Modelle „Äquivalent“ sind?
—> Dass die Koeffizienten unterschiedlich sind, aber R², F-Statistik, Residuen sind identisch
Wie würde man dann die Koeffizienten der verschiedenen äquivalenten Modellen dann interpretieren bzw was bedeutet β₀, β₁ und β₂ in den jeweilichen Modellen?
—> Dummy-Kodierung
—> Effektkodierung
—> Seltsame Dummykodierung
β₀ = Intercept der Referenzgruppe/ Achsenabschnitt der Referenzgruppe
β₁ = Slope beider Gruppen
β₂ = Unterschied in den Intercepts —> Das Regressionsgewicht für die „Ziel“gruppe ist der Unterschied im Intercept der anderen Gruppe im Vgl. zur Referenzgruppe
—> Effektkodierung:
β₀ = Grand Intercept = über beide Gruppen hinweg. —> Intercept gemitteltes Intercept über beide Gruppen (ohne Gewichtung nach Fallzahl beider Gruppen)
β₂ = Abweichung beider Gruppen (+/-) vom grand intercept
—> Seltsame Dummykodierung (Gruppe 1= 0, Gruppe 2 = 3):
β₀ = Intercept der Referenzgruppe
β₁ =
β₂= Wenn die dummy-kodierte Variable eine Einheit hoch geht, geht das Intercept 2.7 Einheiten hoch. Nur steht bei muc immer 3, also ist das Intercept 3*2.7 = 8.1 höher!
—> Das Regressionsgewicht für „Ziel“gruppe ist der Unterschied beider Gruppen (+ oder -) im Vergleich zum grand intercept.
Was ist eine Moderierte Regression (im Kontext dichotomen Varuablen)?
—> Eine lineare Regression mit Interaktion mit slope
**preguntar si lo es tambien en el contexto de otro tipo de variables
Wie lautet der Code in R für eine moderierte Regression sowohl für Dummy-Kodierung als auch für Effektkodierung?
—> Dummykodierung !muc=0, muc=1
Call: lm(formula = AV ~ UV * muc_dummy1)
—> muc_dummy1= Kodierung der Zielgruppe
Effektkodierung !muc=-1, muc=1
Call: lm(formula = AV ~ UV * muc_effect)
—> muc_effect = Kodierung der Zielgruppe
Der Achsenabschnitt beschreibt den vorhergesagten Wert, wenn alle Prädiktorvariablen 0 sind. Welche Frage ist hier unbedingt notwendig im Kontext der Zentrierung von Prädiktorvariablen und wieso bzw. gib mir ein Beispiel?
—> Ist die 0 ein sinnvoller Wert bei einem Prädiktor?
—> Prädiktoren, bei denen eine 0 unmöglich wäre, sollten nicht auf 0 zentriert werden.
Welche ist die Faustregel, um die Prädiktorvariablen zu zentrieren?
—> Zentriere Prädiktorvariablen immer so, dass die Null einen sinnvollen Wert beschreibt.
Unterschiedliche Zentrierungen (bzw. lineare Transformationen im Allgemeinen) von Prädiktoren führen zu mathematisch äquivalenten Modellen. Wahr oder Falsch und wieso?
—> Wahr, weil Unterschiedliche Koeffizienten, aber identisches R², F-Statistik, Residuen!
Was ist eine Modellpassung?
—>Da wir die Realität nicht kennen, gibt es Unsicherheit darüber, welches der Modell das relativ beste ist, wenn es mehrere Kandidatenmodelle, die die Zusammenhänge in der Realität beschreiben gibt.
Modelle können unterschiedlich flexibel („komplex“) sein.
In einfachen Modellen gilt mehr Modellparameter—> höhere _________
In komplexere Modellen wird manchmal die__________ absichtlich durch __________
_______________ _______________
In einfachen Modellen gilt mehr Modellparameter—> höhere
—> Flexibilität des Modells
In komplexere Modellen wird manchmal die__Flexibilität absichtlich durch zusätzliche Modellparameter _ eingeschränkt.
Welche Frage stellt sich man, um die Parameterschätzung zu machen?
—> Gegeben der vorgegebenen Modellstruktur – was sind die Parameterausprägungen, die das Modell optimal „auf die Daten einstellen“?
Manchmal ist ein Modell ______ ________ ______, um die ___________ ___________ modellieren zu können.
Manchmal ist/hat ein Modell __nicht____ __flexible______ ____genug__, um die __Wahreit_________ ___________
modellieren zu können
Dies heißt Underfitting!!!
Wodurch ist ein Modell eigentlich eine Mdoellfamilie?
—> Durch die freien Parameter
Was besagt die „Ockhams Rasiermesser“?
—> Von mehreren möglichen Erklärungen für ein und denselben Sachverhalt ist die einfachste Theorie allen anderen vorzuziehen.
—> Statistischer Kontext: Wenn zwei unterschiedliche Modelle die Daten gleich gut beschreiben, ist das „einfachere“ Modell vorzuziehen.
—> pragmatisch
Wieso ist die „Ockhams Rasiermesser“ nicht direkt anwendbar?
—> Weil es meistens ein Trade-Off zwischen Genauigkeit und Einfachheit vorliegt.
Which kind of fit are you looking for and which Modell choice rulre are you going to choose for it?********
Does ‚better‘ mean ‚more true‘ or ‚more useful‘?
If the latter, ‚more useful‘ = Ockham‘s razor can be
justified.
• As an antidote to Ockham: Epicurs’ Principle of Multiple Explanations states: “If several theories are consistent with the observed data, retain them all.”
Last changeda month ago