Was ist ein Modellparameter?
Parameter innerhalb eines konkreten Modells, die variieren können und mithilfe von Daten geschätzt werden müssen
Aus welchen Modellparameter besteht eine lineare Regression?
—> Y = a + bX
IQ = a + b*Liter
𝑌i = 𝛽0 + 𝛽1⋅ 𝑋i + 𝜀i , 𝜀i~𝑁(0, 𝜎2𝜀)
Was beschreibt der Achsenabschnitt und was ist seine Nomenklatur?
—> beschreibt den vorhergesagten Wert, wenn alle Prädiktorvariablen 0 sind.
—> Alfa oder Beta0
Was gibt die Slope an? (Und eine wichtige Eigenschaft)
—> Steigungsparameter: Der Steigungsparameter gibt an, wie stark die Gerade steigt bzw. fällt.
—> Die Steigung der Geraden ist an jeder Stelle konstant.
Was ist ein Residuum bzw. was beschreibt es und was ist seine Gleichung?
—> Die Abweichung einer Beobachtung von der Gerade der Regression
Wie ist die Interpretation einer linearen Regression?
—> wie stark sinkt/steigt die AV im Mittel, wenn die UV um eine Einheit zunimmt/abnimmt.
—> Option 2: wie hängen 2 Variablen zusammen
Beispiel: Jemand der 2 Maß mehr trinkt, hat im Mittel einen IQ, der um 20.2 Einheiten geringer ist.
Was ist Homoskedastizität und wie ist die mathematische Expression (Gleichung)?
—> Die Annahme (der LR) bezüglich der Fehlervariablen, dass diese einer Normalverteilung mit Erwartungswert Null und konstanter Varianz 𝜀i ~𝑁 (0, 𝜎2𝜀) folgen.
Die lineare Regression nimmt an, dass die Prädiktoren und AV normalverteilt sind. Wahr oder falsch und wieso?
—> Falsch. Diese Annahme ist exklusiv der Fehlervariablen
Welche sind die Annahmen einer linearen Regression?
—>
1. Die Zufallsvariablen hängen linear zusammen
2. Alle εi sind unabhängig voneinander
3. Die εi Fehlervariablen folgen einer Normalverteilung mit Erwartungswert Null und konstanter Varianz (Homoskedastizität): 𝜀i ~𝑁 (0, 𝜎2𝜀)
4. Die Fehlervariable sind identisch und unabhängig verteilt 𝜀i ~iid 𝑁 (0, 𝜎2𝜀)
Wieso nimmt man an, dass die Fehlervariablen identisch und unabhängig verteilt sind? TRANSFERFRAGE
—> Weil man davon ausgeht, dass die Abweichung einer i Beobachtung nichts mit der von anderen Beobachtungen zu tun hat.
Die Verletzung welcher Annahmen einer linearen Regression ist für die Schätzung der Modellparameter nicht so kritisch?
—> Die Annahme der Homoskedastizität ist für die Schätzung der Modellparameter meist irrelevant (Gelman & Hill, 2007); eine Verletzung ist auch für die Schätzung der Standardfehler meist unkritisch.
Worin besteht eine optimale Modellierung der Daten im Sinne der Regressionsanalyse?
—> In der Minimierung der Fehlervariable ε.
—> der Vorhersagefehler soll so klein wie möglich sein
Wieviele Möglichkeiten gibt es, um der Vorhersagefehler so klein wie möglich zu machen?
Minimierung der quadrierten Abweichung von vorhergesagtem und tatsächlichen Wert
(RSS = residual sum of squares)
2. absolute Abweichung optimieren
3. maximale Abweichung minimieren
Was ist Extrapolation?
—> Daten außerhalb des ursprünglichen Wertebereiches der Prädiktoren vorherzusagen
Unter welchen Annahmen funktioniert die Extrapolation?
—> Buscar
Sollte man extrapolieren?
—> Normalerweise nicht, denn Extrapolation funktioniert nur unter typischerweise sehr unrealistischen Zusatzannahmen.
—> welche z.B.?
Welche der Annahmen einer linearen Regression werden in hierarchischen Datenstrukturen verletzt und wieso?
—> Dass alle εi unabhängig voneinander sind
—> Wieso? Ich vermute, weil...
Was macht man mit den Ausprägungen der kategorialen Variablen?
—> Bei kategorialen Variablen wird die Ausprägung numerisch kodiert
Welche Kodierungsschemata bei kategorialen Variablen sind möglich, und worin besteht jedes?
—> Dummy-Kodierung:
Referenzgruppe = 0, „Ziel“gruppe = 1
—> Effektkodierung: Bei zwei Gruppen: immer symmetrisch um Null herum definieren
Gruppe 1= -1, Gruppe 2 = 1
—> Seltsame Dummykodierung: Zum Beispiel Gruppe 1= 0, Gruppe 2 = 3
𝐼𝑄i = β₀ + β₁ ⋅ 𝐵𝑖𝑒𝑟i + β₂ ⋅ 𝑀𝑢𝑐i + 𝜀i
Ich habe meine Daten Dummy kodiert und du hast sie symmetrisch um Null herum kodiert. Welche Folgen hat dies?
—> Die Modelle sind mathematisch alle äquivalent, aber die Interpretation der Koeffizienten ist unterschiedlich.
Was bedeutet, dass die Modelle „Äquivalent“ sind?
—> Dass die Koeffizienten unterschiedlich sind, aber R², F-Statistik, Residuen sind identisch.
Wie würde jeder von uns die Koeffizienten der verschiedenen Kodierungen interpretieren?
β₀ =
β₁ =
β₂ =
Wie würde jeder von uns die Koeffizienten dann interpretieren?
β₀ = Intercept der Referenzgruppe/ Achsenabschnitt der Referenzgruppe
β₁ = Slope beider Gruppen
β₂ = Unterschied in den Intercepts —> Das Regressionsgewicht für die „Ziel“gruppe ist der Unterschied im Intercept der anderen Gruppe im Vgl. zur Referenzgruppe
—> Effektkodierung:
β₀ = Grand Intercept = über beide Gruppen hinweg. —> Intercept gemitteltes Intercept über beide Gruppen (ohne Gewichtung nach Fallzahl beider Gruppen)
β₂ = Abweichung beider Gruppen (+/-) vom grand intercept
—> Seltsame Dummykodierung (Gruppe 1= 0, Gruppe 2 = 3):
β₀ = Intercept der Referenzgruppe
β₂= Wenn die dummy-kodierte Variable eine Einheit hoch geht, geht das Intercept 2.7 Einheiten hoch. Nur steht bei muc immer 3, also ist das Intercept 3*2.7 = 8.1 höher!
—> Das Regressionsgewicht für „Ziel“gruppe ist der Unterschied beider Gruppen (+ oder -) im Vergleich zum grand intercept.
Was ist eine Moderierte Regression (im Kontext dichotomen Variablen)?
Was ist eine Moderierte Regression (im Kontext dichotomen Varuablen)?
**preguntar si lo es tambien en el contexto de otro tipo de variables
—> Eine lineare Regression mit Interaktion mit slope
Wie lautet der Code in R für eine moderierte Regression sowohl für Dummy-Kodierung als auch für Effektkodierung?
—> Dummykodierung !muc=0, muc=1
Call: lm(formula = AV ~ UV * muc_dummy1)
—> muc_dummy1= Kodierung der Zielgruppe
Effektkodierung !muc=-1, muc=1
Call: lm(formula = AV ~ UV * muc_effect)
—> muc_effect = Kodierung der Zielgruppe
Zentrierung von Prädiktorvariablen
Der Achsenabschnitt beschreibt den vorhergesagten Wert, wenn alle Prädiktorvariablen 0 sind. Welche Frage ist hier unbedingt notwendig im Kontext der Zentrierung von Prädiktorvariablen und wieso bzw. gib mir ein Beispiel?
—> Ist die 0 ein sinnvoller Wert bei einem Prädiktor?
—> Prädiktoren, bei denen eine 0 unmöglich wäre, sollten nicht auf 0 zentriert werden.
Welche ist die Faustregel, um die Prädiktorvariablen zu zentrieren?
—> Zentriere Prädiktorvariablen immer so, dass die Null einen sinnvollen Wert beschreibt.
Unterschiedliche Zentrierungen (bzw. lineare Transformationen im Allgemeinen) von Prädiktoren führen zu mathematisch äquivalenten Modellen.
Wahr oder Falsch und wieso?
Unterschiedliche Zentrierungen (bzw. lineare Transformationen im Allgemeinen) von Prädiktoren führen zu mathematisch äquivalenten Modellen. Wahr oder Falsch und wieso?
—> Wahr, weil Unterschiedliche Koeffizienten, aber identisches R², F-Statistik, Residuen!
Was ist eine Modellpassung?
—>Da wir die Realität nicht kennen, gibt es Unsicherheit darüber, welches der Modell das relativ beste ist, wenn es mehrere Kandidatenmodelle, die die Zusammenhänge in der Realität beschreiben gibt. Modelle können unterschiedlich flexibel („komplex“) sein.
In einfachen Modellen gilt mehr Modellparameter—> höhere _________
In einfachen Modellen gilt mehr Modellparameter
—> höhere Flexibilität des Modells
In komplexere Modellen wird manchmal die __________ absichtlich durch __________ ______________ _______________
In komplexere Modellen wird manchmal die Flexibilität absichtlich durch zusätzliche Modellparameter eingeschränkt.
Welche Frage stellt sich man, um die Parameterschätzung zu machen?
—> Gegeben der vorgegebenen Modellstruktur – was sind die Parameterausprägungen, die das Modell optimal „auf die Daten einstellen“?
Manchmal ist ein Modell ______ ________ ______, um die ___________ ___________ modellieren zu können
Manchmal ist ein Modell nicht flexibel genug, um die Daten adäquät modellieren zu können
Wodurch ist ein Modell eigentlich eine Mdoellfamilie?
—> Durch die freien Parameter
Was besagt die „Ockhams Rasiermesser“?
—> Von mehreren möglichen Erklärungen für ein und denselben Sachverhalt ist die einfachste Theorie allen anderen vorzuziehen.
—> Statistischer Kontext: Wenn zwei unterschiedliche Modelle die Daten gleich gut beschreiben, ist das „einfachere“ Modell vorzuziehen.
Wieso ist die „Ockhams Rasiermesser“ nicht direkt anwendbar?
—> Weil es meistens ein Trade-Off zwischen Genauigkeit und Einfachheit vorliegt.
Was bedeutet underfitting und was ist das Problem damit?
Underfitting: Ein Modell hat nicht flexibel genug, um die Daten adäquat abbilden zu können
• Problem: Inadequates Abbild der Daten, Schlechte Vorhersagekraft
Was bedeutet overfitting und was ist das Problem damit?
Warum ist „einfacher“ besser? Was ist die Begründung für Ockham‘s Razor?
• There‘s no logical justification for Ockham‘s razor (i.e., there is no proof that, even ceteris paribus, the simpler theory is true/closer to truth).
• E.g. evolution depends on random mutations, crystallized randomness: no reason to assume that simpler is (always) closer to truth.
• Can be seen as a probabilistic argument: Of two explanations with the same explanatory power, the simpler has a higher probability of being true / closer to the truth.
• Can be seen as a pragmatic argument: When the predictive success is the same, it is easier & more tractable for us to retain the simpler theory, without any practical loss.
Saves cognitive capacity, less teaching, less memorizing. Do not waste time on irrelevant stuff.
• See it more as a heuristic, not a law
• Concerning in-sample fit, the more complex model always outperforms the simpler model (or is in the boundary case at least equally good). But: when we switch to out-of-sample predictions, the simpler model can be better (even if you do not believe in „truenulls“)
• Does ‚better‘ mean ‚more true‘ or ‚more useful‘? If the latter, Ockham‘s razor can be justified.
• As an antidote to Ockham: Epicurs’ Principle of Multiple Explanations states: “If several theories are consistent with the observed data, retain them all.” (http://cage.ugent.be/~ci/Epicurus.html)
• David MacKay’s online book ITILA (http://www.inference.phy.cam.ac.uk/itila) chapter 28
(http://www.inference.phy.cam.ac.uk/mackay/itprnn/ps/343.355.pdf) gives the clearest justification fo
Zuletzt geändertvor 9 Stunden