undefined

Buffl

WiSe Statistik 1

by diana F.

Was ist ein Modellparameter?

Parameter innerhalb eines konkreten Modells, die variieren können und mithilfe von Daten geschätzt werden müssen

Aus welchen Modellparameter besteht eine lineare Regression?

—> Y = a + bX

IQ = a + b*Liter

𝑌i = 𝛽0 + 𝛽1⋅ 𝑋i + 𝜀i , 𝜀i~𝑁(0, 𝜎2𝜀)

Was beschreibt der Achsenabschnitt und wie was ist seine Nomenklatur?

—> beschreibt den vorhergesagten Wert, wenn alle Prädiktorvariablen 0 sind.

—> Alfa oder 𝛽0

Was gibt die Slope an?

Steigungsparameter: Der Steigungsparameter gibt an, wie stark die Gerade steigt bzw. fällt.

—> Die Steigung der Geraden ist an jeder Stelle konstant.

Was ist ein Residuum bzw. was beschreibt es und was ist seine Gleichung?

Die Abweichung einer Beobachtung von der geschätzte Gerade der Regression

—> ei = yi - yi dach

Wie ist die Interpretation einer linearen Regression?

—> wie stark sinkt/steigt die AV im Mittel, wenn die UV um eine Einheit zunimmt/abnimmt.****

—> Option 2: wie hängen 2 Variablen zusammen

Beispiel: Jemand der 2 Maß mehr trinkt, hat im Mittel einen IQ, der um 20.2 Einheiten geringer ist.

Was ist Homoskedastizität und wie ist die mathematische Expression (Gleichung)?

—> Die Annahme bezüglich der Fehlervariablen, dass diese einer Normalverteilung mit Erwartungswert Null und konstanter Varianz

𝜀i ~𝑁 (0, 𝜎2𝜀)

Die lineare Regression nimmt an, dass die Prädiktoren und AV normalverteilt sind. Wahr oder falsch und wieso?

Falsch.

Diese Annahme ist exklusiv der Fehlervariablen 𝜀i

Welche sind die Annahmen einer linearen Regression?

1. Die Zufallsvariablen hängen linear zusammen

2. Alle εi sind unabhängig voneinander

3. Die εi Fehlervariablen folgen einer Normalverteilung mit Erwartungswert Null und konstanter Varianz (Homoskedastizität): 𝜀i ~𝑁 (0, 𝜎2𝜀)

4. Die Fehlervariable sind identisch und unabhängig verteilt

𝜀i ~ iid 𝑁 (0, 𝜎2𝜀)

Wieso nimmt man an, dass die Fehlervariablen identisch und unabhängig verteilt sind? TRANSFERFRAGE

—> Weil man davon ausgeht, dass die Abweichung einer i Beobachtung nichts mit der von anderen Beobachtungen zu tun hat.

Die Verletzung welcher Annahmen einer linearen Regression ist für die Schätzung der Modellparameter nicht so kritisch?

—> Die Annahme der Homoskedastizität ist für die Schätzung der Modellparameter meist irrelevant (Gelman & Hill, 2007); eine Verletzung ist auch für die Schätzung der Standardfehler meist unkritisch.

Worin besteht eine optimale Modellierung der Daten im Sinne der Regressionsanalyse?

—> In der Minimierung der Fehlervariable ε.

—> der Vorhersagefehler soll so klein wie möglich sein

Wieviele Möglichkeiten gibt es, um der Vorhersagefehler so klein wie möglich zu machen?

—> Zumindest 3:

Minimierung der quadrierten Abweichung von vorhergesagtem und tatsächlichen Wert (RSS = residual sum of squares)

absolute Abweichung optimieren
maximale Abweichung minimieren

Was ist Extrapolation?

—> Daten außerhalb des ursprünglichen Wertebereiches der Prädiktoren vorherzusagen

Unter welchen Zusatzannahmen funktioniert die Extrapolation?

—> Buscar

Sollte man extrapolieren?

—> Normalerweise nicht, denn Extrapolation funktioniert nur unter typischerweise sehr unrealistischen Zusatzannahmen.

Welche der Annahmen einer linearen Regression werden in hierarchischen Datenstrukturen verletzt und wieso?

—> Dass alle εi unabhängig voneinander sind

—> Wieso? Ich vermute, weil...

Was macht man mit den Ausprägungen der kategorialen Variablen?

—> Bei kategorialen Variablen wird die Ausprägung numerisch kodiert

Welche Kodierungsschemata bei kategorialen Variablen sind möglich, und worin besteht jedes?

—> Dummy-Kodierung:

Referenzgruppe = 0, „Ziel“gruppe = 1

—> Effektkodierung: Bei zwei Gruppen: immer symmetrisch um Null herum definieren

Referenzgruppe = -1. „Ziel“gruppe = 1

—> Seltsame Dummykodierung: Zum Beispiel

Referenzgruppe = 0, „Ziel“gruppe = 3

𝐼𝑄i = β₀ + β₁ ⋅ 𝐵𝑖𝑒𝑟i + β₂ ⋅ 𝑀𝑢𝑐i + 𝜀i

Ich habe meine Daten Dummy kodiert und du hast sie symmetrisch um Null herum kodiert. Welche Folgen hat dies?

—> Die Modelle sind mathematisch alle äquivalent, aber die Interpretation der Koeffizienten ist unterschiedlich.

Was bedeutet, dass die Modelle „Äquivalent“ sind?

—> Dass die Koeffizienten unterschiedlich sind, aber R², F-Statistik, Residuen sind identisch

Wie würde man dann die Koeffizienten der verschiedenen äquivalenten Modellen dann interpretieren bzw was bedeutet β₀, β₁ und β₂ in den jeweilichen Modellen?

—> Dummy-Kodierung

—> Effektkodierung

—> Seltsame Dummykodierung

—> Dummy-Kodierung:

β₀ = Intercept der Referenzgruppe/ Achsenabschnitt der Referenzgruppe

β₁ = Slope beider Gruppen

β₂ = Unterschied in den Intercepts —> Das Regressionsgewicht für die „Ziel“gruppe ist der Unterschied im Intercept der anderen Gruppe im Vgl. zur Referenzgruppe

—> Effektkodierung:

β₀ = Grand Intercept = über beide Gruppen hinweg. —> Intercept gemitteltes Intercept über beide Gruppen (ohne Gewichtung nach Fallzahl beider Gruppen)

β₁ = Slope beider Gruppen

β₂ = Abweichung beider Gruppen (+/-) vom grand intercept

—> Seltsame Dummykodierung (Gruppe 1= 0, Gruppe 2 = 3):

β₀ = Intercept der Referenzgruppe

β₁ =

β₂= Wenn die dummy-kodierte Variable eine Einheit hoch geht, geht das Intercept 2.7 Einheiten hoch. Nur steht bei muc immer 3, also ist das Intercept 3*2.7 = 8.1 höher!

—> Das Regressionsgewicht für „Ziel“gruppe ist der Unterschied beider Gruppen (+ oder -) im Vergleich zum grand intercept.

Was ist eine Moderierte Regression (im Kontext dichotomen Varuablen)?

—> Eine lineare Regression mit Interaktion mit slope

**preguntar si lo es tambien en el contexto de otro tipo de variables

Wie lautet der Code in R für eine moderierte Regression sowohl für Dummy-Kodierung als auch für Effektkodierung?

—> Dummykodierung !muc=0, muc=1

Call: lm(formula = AV ~ UV * muc_dummy1)

—> muc_dummy1= Kodierung der Zielgruppe

Effektkodierung !muc=-1, muc=1

Call: lm(formula = AV ~ UV * muc_effect)

—> muc_effect = Kodierung der Zielgruppe

Der Achsenabschnitt beschreibt den vorhergesagten Wert, wenn alle Prädiktorvariablen 0 sind. Welche Frage ist hier unbedingt notwendig im Kontext der Zentrierung von Prädiktorvariablen und wieso bzw. gib mir ein Beispiel?

—> Ist die 0 ein sinnvoller Wert bei einem Prädiktor?

—> Prädiktoren, bei denen eine 0 unmöglich wäre, sollten nicht auf 0 zentriert werden.

Welche ist die Faustregel, um die Prädiktorvariablen zu zentrieren?

—> Zentriere Prädiktorvariablen immer so, dass die Null einen sinnvollen Wert beschreibt.

Unterschiedliche Zentrierungen (bzw. lineare Transformationen im Allgemeinen) von Prädiktoren führen zu mathematisch äquivalenten Modellen. Wahr oder Falsch und wieso?

Unterschiedliche Zentrierungen (bzw. lineare Transformationen im Allgemeinen) von Prädiktoren führen zu mathematisch äquivalenten Modellen. Wahr oder Falsch und wieso?

—> Wahr, weil Unterschiedliche Koeffizienten, aber identisches R², F-Statistik, Residuen!

Was ist eine Modellpassung?

—>Da wir die Realität nicht kennen, gibt es Unsicherheit darüber, welches der Modell das relativ beste ist, wenn es mehrere Kandidatenmodelle, die die Zusammenhänge in der Realität beschreiben gibt.

Modelle können unterschiedlich flexibel („komplex“) sein.

In einfachen Modellen gilt mehr Modellparameter—> höhere _________

In komplexere Modellen wird manchmal die__________ absichtlich durch __________

_______________ _______________

In einfachen Modellen gilt mehr Modellparameter—> höhere

—> Flexibilität des Modells

In komplexere Modellen wird manchmal die__Flexibilität absichtlich durch zusätzliche Modellparameter _ eingeschränkt.

Welche Frage stellt sich man, um die Parameterschätzung zu machen?

—> Gegeben der vorgegebenen Modellstruktur – was sind die Parameterausprägungen, die das Modell optimal „auf die Daten einstellen“?

Manchmal ist ein Modell ______ ________ ______, um die ___________ ___________ modellieren zu können.

Manchmal ist/hat ein Modell __nicht____ __flexible______ ____genug__, um die __Wahreit_________ ___________

modellieren zu können

Dies heißt Underfitting!!!

Wodurch ist ein Modell eigentlich eine Mdoellfamilie?

—> Durch die freien Parameter

Was besagt die „Ockhams Rasiermesser“?

—> Von mehreren möglichen Erklärungen für ein und denselben Sachverhalt ist die einfachste Theorie allen anderen vorzuziehen.

—> Statistischer Kontext: Wenn zwei unterschiedliche Modelle die Daten gleich gut beschreiben, ist das „einfachere“ Modell vorzuziehen.

—> pragmatisch

Wieso ist die „Ockhams Rasiermesser“ nicht direkt anwendbar?

—> Weil es meistens ein Trade-Off zwischen Genauigkeit und Einfachheit vorliegt.

Which kind of fit are you looking for and which Modell choice rulre are you going to choose for it?********

Does ‚better‘ mean ‚more true‘ or ‚more useful‘?

If the latter, ‚more useful‘ = Ockham‘s razor can be

justified.

• As an antidote to Ockham: Epicurs’ Principle of Multiple Explanations states: “If several theories are consistent with the observed data, retain them all.”

Join Course

Preview

Author

diana F.

Information

Last changed
9 months ago

Report course

Wdh + LMM_1

Author

diana F.

Information