Buffl

Statistik

JK
von Julia K.

Lineare Regression

  • Ermöglicht es, ausgehend von einer order mehreren Variablen eine weitere Variable vorherzusagen

  • Messung des Einflusses einer Variablen auf eine andere

  • Verhersagen der Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen. Die lineare Regression geht davon aus, dass es eine lineare Beziehung zwischen der abhängigen Variable und den unabhängigen Variablen gibt.

  • Die Methode geht davon aus, dass die abhängige Variable durch eine Linearkombination der unabhängigen Variablen und einem Fehlerterm beschrieben werden kann ((x1*b1)+…+(xk*bk)+a). Der Schwerpunkt der linearen Regression liegt auf der Schätzung der Parameter, die die Beziehung zwischen den Variablen am besten beschreiben.

  • b1, … , bk sollten signifikant unterschiedlich von 0 sein -> dann hat der jeweilige X wert einen großen EInfluss -> bestimmen mit p-Wert ob signifikanter Unterschied

  • Die einfachste Form der linearen Regression ist die einfache lineare Regression, bei der eine abhängige Variable durch eine einzige unabhängige Variable beschrieben wird.

  • Die Multiple lineare Regression wird verwendet, wenn es mehrere unabhängige Variablen gibt, die die abhängige Variable beeinflussen.

  • R (Multipler Korrelationskoeffizient): Erfasst den Zusammenhang/Korrelation zwischen der abhängigen Variable und den unabhängigen Variablen

    -> R = 1 -> absoluter Zusammenhang

  • R^2 (Varianzaufklärung): Gibt an wieviel der Varianz der abhängigen Variable durch die unabhängigen Variablen erklärt werden kann

    -> R^2 = 1 -> kann komplett erklärt werden


Expectation Maximization am Beispiel der Coins

Expectation Maximization (EM) ist ein iterativer Algorithmus zur Schätzung von Parametern in statistischen Modellen, wenn einige der Daten fehlen oder unvollständig sind. Der Algorithmus besteht aus zwei Schritten: dem Erwartungsschritt (E-Schritt) und dem Maximierungsschritt (M-Schritt).

Der E-Schritt:

  1. Schätzen der fehlenden Daten:

    Der E-Schritt beginnt damit, dass die fehlenden Daten (Probability for Red / Blue) geschätzt werden. Dies geschieht durch Berechnung der erwarteten Werte der fehlenden Daten unter Verwendung der aktuellen Schätzwerte der Modellparameter.

    • Es gibt zwei Münzen mit unterschiedlichen, unbekannten emission probabilities -> Es werden zufällig zwei Initialwerte für die Emission Probabilities angenommen, zB: θ(0)Blue = 0.6 ; θ(0)Red = 0.5

    • Aus diesen wird die Wahrscheinlichkeit dafür, dass rot / blau genutzt wurde für jede bekannte Serie von 10 Würfen berechnet

      Bsp: 4*1, 6*2 -> bei Blau: 0.6^4 * 0.4^6

    • Die WHK wird Normalisiert zu 1 -> beim Bsp: Blau = 0.35 / Rot = 0.65

  2. Berechnung der gewichteten Likelihood-Funktion:

    Nachdem die fehlenden Daten geschätzt wurden, wird die gewichtete Likelihood-Funktion berechnet, indem die vollständigen Daten und die erwarteten Werte der fehlenden Daten kombiniert werden.

    • Multiplikation der Wahrscheinlichkeiten mit Vorkommen der Ereignisse (1 oder 2)

    • Bsp: WHK von Blau bei Sequenz 1 (4*1, 6*2) ist 0.35 / von rot 0.65

      -> Count for Red: 0.65*4=2.6 mal 1; 0.65*6=3.9 mal 2

Der M-Schritt:

  1. Maximieren der Parameter: Der M-Schritt besteht darin, die Parameter des Modells zu maximieren, indem die gewichtete Likelihood-Funktion maximiert wird. Hier werden die partiellen Ableitungen der gewichteten Likelihood-Funktion nach den Modellparametern gesetzt werden, um ihre optimalen Werte zu finden.

    • Die Counts werden für alle Serien aufaddiert und eine neue Schätzung der Parameter berechnet:

      θ(1)Red = ∑CountRed1 / (∑CountRed1 + ∑CountRed2)

  2. Aktualisieren der Schätzwerte: Nachdem die Parameter maximiert wurden, werden die Schätzwerte der Parameter aktualisiert, um die nächste Iteration des Algorithmus zu starten. Der Prozess wird fortgesetzt, bis die Schätzwerte der Parameter konvergieren oder eine bestimmte Konvergenzkriterium erreicht wird.

    • Mit dem berechneten θ(1) wird wieder wie von oben angefangen und weiter gerechnet


Author

Julia K.

Informationen

Zuletzt geändert