Was ist die Aufgabe einer linearen Regression?
Gerade zu bestimmen, die den linearen Zusammenhang zwischen der abhängigen und der unabhängigen Variable am besten beschreibt.
grafisch ausgedrückt- eine Gerade in das Streudiagramm eingezeichnet.
Formel: einfaches Regressionsmodell
Was berechnet die Gleichung zu den einfachen Regressionsmodellen?
-> Genaue Vorhersage eines Wertes yi durch ein Regressionsmodell
-> Modell zur Untersuchung der Art der Beziehungen zwischen endogener Variable (AV) & einer/mehrer exogener Variablen (UV) - zusätzlich geht zufällige Komponente mit ein
Formel Regressionsmodell zerlegt
-> yi
Endogene Variable (abhängige Variable/ Kriterium )
= Variable/Faktor, deren Ausprägung in einem Kausal- oder Strukturgleichungsmodell erklärt/vorhergesagt werden soll
(variable die gemessen/beobachtet wird)
-> xi
Exogene Variable (Prädiktorn, Uv)
= Variable/ Faktor, deren Ausprägung in Kausal- oder Strukturgleichungsmodell die Ausprägung einer endogenen Variable erklärt oder vorhergesagt werden soll
(Variable die Veränderung der AV verursacht)
-> b0
Konstanter Term, Intercept
= Entspricht dem vorhergeagten Wert des Kriteriums y an der Stelle x =0
-> b1
Steigung
= Gibt erwartete veränderung des Kriteriums y an, die eine Erhöhung des Prädiktors y um eine Einheit entspricht
Was passiert wenn sich die Kriteriumsvariable (um eine Einheit erhöht?)
-> i
Index für den betrachteten Fall
-> ϵ
Fehler o. Error Term
Zusammenhang zwei Variablen lässt sich am besten mit einem Streudiagramm darstellen
-> Was sind wesentliche Elemente?
Datenpunkte
Regressionsgerade
Residuen*
* Messen den vertikalen Abstandbzwischen Beobachtungspunkt & geschätzter Regressionsgrade - Stellen Schätzung bzgl. Störvariable dar
Was beschreibt der Vorhersagefehler ϵi=0 ?
-> Punktgenauer Vorhersage
Warum benutzt man häufig die Formel:
yi = b0 + b1 x xi
und lässt ϵi weg?
-> Da für gewöhnlich, die Vorhersage (yi) eines Modells einen Fehler von null hat - um den Wert, der durch das Modell vorhergesagt wird zu beschreiben
Was rechnet die Formel:
ϵi = yi - y^¡
aus?
-> der durch Modellvorhersage entstehende Fehler
( Differenz zwischen: beobachtetem Wert & durch Modell vorhergesagten Wert)
yi = beobachteter Wert
y^¡ = der durch Modell vorhergesagte Wert
Wofür ist das i gut ?
= Platzhalter für alle einsetzbaren Werte
Warum ist es sinnvoll die Summe der Fehler zu berechnen?
i Platzhalter für alle einsetzbaren Werte
-> Sinvoll Summe der Fehler zu berechnen, um rauszufinden wie
groß gesamte Fehlersumme ist
-> Würde man es ohne Summe der quadrierten Abweichung
machen würde man als Ergebnis 0 erhalten
Summe der quadrierten Abweichung:
Formel für Fehler ϵi & Deutung des Ergebnisses
-> Je weniger die vorhergesagten Wert von den tatsächlich gemessenen abweichen, desto geringer sollte die Summe der quadrierten Abweichung sein
Was bedeutet die Formel:
für die Modell-Annahme?
erster Teil - Die quadrierten Residuen sind die quadrierten Differenzen zwischen den beobachteten Werten yi und den vorhergesagten Werten ŷi.
zweiter Teil - Das Ziel der linearen Regression ist es, die "besten" Koeffizienten zu finden, die die Daten am besten beschreiben. Dies wird erreicht, indem die Summe der quadrierten Fehler minimiert wird.
=> die Summe der quadrierten Fehler minimiert wird, um die bestmöglichen Regressionskoeffizienten zu finden. Diese Minimierung führt zur bestmöglichen Anpassung der Regressionslinie an die Datenpunkte
Warum ist es uns Möglich, die Gleichunf nach b-Wert abzuleiten?
-> Weil wir eine Stichprobe bestitzen, die uns die Werte für x & y sagt
Was hat es mit dem unteren Teil der Gleichung auf sich?
Gewährleisten im Sinne des minimalen quadratischen Fehlers (minimal least square = MLS), dass keine andere Gerade exestiert, bei der die Summe der quadratischen Abweichung kleiner sind -> kleinster Fehler
Wie ist die Formel die den Zusammenhang zwischen Regressionsgeraden & Pearson-Korrelationskoeffizienten beschreibt
b1 = r(x,y) x sy/sx
Welche Eigfenschaften ergeben sich aus dem Zusammnehang zwischen Korrelation & Regression
Steigung ist positiv (negativ) wenn die Korrelation positiv (negativ) ist
Ist die Korrelation Null, dann ist auch die Steigung Null -> Gerade parallel zur x-Achse
Da b1 abhängig von sx & sy ist würde eine Änderung der Messeinheit der beiden Variablen auch zur Änderung der Steigung führen
Dadraus schließt sich, dass b kein standardisiertes Maß für den Einfluss von x auf y ist
b ist direkt proportional zu r
(Würde man Werte z-transformieren, würde die Gerade durch den Nullpunkt gehen & Steigung der Korrelation entsprechen - mit Anzahl Prädiktorensteigt Vorhersagegenauigkeit o. bleibt geleich -> transformierte Koeffizienten können verglichen werden)
Eigenschaften der Regressiongeraden
Verläuft Gerade parallel zur x-Achse, bedeutet das, dass kein Zusammenhang zwischen den beiden Variablen besteht -> dabei wird für jeden beliebigen Prädiktor(x) immer der gleiche y-Wert vorhergesagt
Steigt die Gerade nach rechts oben, bedeutet das, dass die Werte des Kriteriums (y) mit zunahme der Werte des prädktors (x) steigen -> damit ist Abhängigkeit der Variablen gegeben (positiver Zusammenhang)
Fällt die Gerade nach rechts, dann bedeutet das, dass wenn die Werte des Prädiktors (x) zunehmen, die Werte des Kriteriums (y) fallen -> damit ist Abhängigkeit der Variablen gegeben (negativer Zusammmenhang)
Je steiler die Gerade (steigend o. fallend), desto höher ist der zu erwartende Zusammenhang
Je flacher die Gerade (steigend o. fallend), desto geringer ist der zu erwartende Zusammenhang
Die Regressionsgerade wird aus den Daten einer Stichprbe berechnet - Parameter der Regressionsgeraden b0, b1, sb sind Schätzwerte der Population vorhandener Parameter ß0, ß1, σb
Die Steigung hängt von den Messeinheite der Variablen ab.
->Was kann man dagegen tuen
-> Wie verändert sich die Darstellung der Regressionsgleichung?
Man kann die x- & y-Werte z-transformieren
zy = B0 + B1 x Zx
Was macht man um die Koeffizienten der standardisierte & unstandardisierten Werte zu unterscheiden
B für die standardisierten (B0 & B1 berrechnen sich nach -minimal least square)
b für dir unstandardisierten
Nach welchem Pinzip lassen sich B0 & B1 berechnen
Minimal least square (MSL) - Sucht beste Anpassungslinie für einen Satz von Daten
Erkenntnisse aus dem Zusammenhang zwischen r(x,y) & B
Die Korrelatio r(x,y) & der standardisiertev Steigungskoeffizient B sind identisch
Beide Maße sind unabhängig von der Messeinheit der beiden Variablen
B & damit auch r(x,y) zeigen den Effekt, den die Änderung des Prädiktors um eine Standardabweichung auf das z-transformierte Kriterium hat
r ist somit eine Maßzahl, die bei Regressionsmodellen die Effektsärke wiederspiegelt
Welche Richtwerte gelten nach Cohen bzgl. der Effektstärke
0.1 = kleiner Effekt
0.3 = mittlerer Effekt
0.5 = starker Effekt
Eigenschafte Residuen
-> bezeichnet mit εi
Enthalten Anteile der Kriteriumsvariablen y, die durch die Prädiktorvariable nicht erfasst/erklärt werden
Dise Anteile bestehen aus:
Messfehlern
Anteile, die evtl. durch weitere Variablen erklärt werden, die aber mit verwendetem Prädiktor nichts zu tun haben, also mit r(x,ε) = 0 korrelieren
Für Fehler Streumaß der Residuen berechnet
Standardschätzfeheler einer Regression bezeichnet mit (se)
-> kennzeichnet die Streuung der y-Werteum die Regressionsgerade
Ist ein Gütemaßstab für die Regressionsvorhersage
Je kleiner der Fehler, desto besser die Regressionsvorhersage
Ist ein eigenes Modellgütemaß, wir aber weniger häufig als Determinationskoeffizient angegeben
-> Mithilfe des Standardfehlers können Konfidenzintervalle konstruiert werden
Was ist der Determinationskoeffizient (auch: Bestimmtheitsmaß)
Ein Gütemaß der linearen Regression
= gibt den Anteil der Varianz der AV an, der durch die UV erklärt werden kann - Wertebereich [0,1] zwischen 0% & 100%
-> Ein R2 nahe 1 deutet auf ein sehr gutes Modell hin, während ein R2 nahe 0 darauf hindeutet, dass das Modell die Daten nicht gut erklärt.
Formel für den Determinationskoeffizient in Worten
Eigenschaften des Determinationskoeffizienten
zeigt die Qualität der linearen Approximation, jedoch nicht, ob das Modell richtig spezifiziert wurde, also ob eine lineare Anpassung überhaupt die geeignete Modellvorstellung ist.
sagt nichts über die kausale Ursache des Zusammenhangs aus. Der Schluss, dass die UV der Grund für die Änderungen in AV sind kann diesem Maß nicht entnommen werden!
gibt keine Auskunft über die statistische Signifikanz des ermittelten Zusammenhangs!
ein hohes Bestimmtheitsmaß ist kein Beweis für ein gutes Modell und ein niedriges Bestimmtheitsmaß bedeutet nicht, dass es sich um ein schlechtes Modell handelt.
->Veranschaulicht durch das Anscombe-Quartett
Was ist das Ascombe-Quartett
Das Anscombe-Quartett ist eine Gruppe von vier Datensätzen, um die Bedeutung der Visualisierung von Daten zu demonstrieren.
Diese Datensätze haben erstaunlicherweise identische oder fast identische statistische Eigenschaften, wie bspw. Mittelwert, Varianz und Korrelation.
Aber wenn man sie grafisch darstellt, sehen sie völlig unterschiedlich aus.
=> Das Anscombe-Quartett zeigt, dass man sich nicht nur auf statistische Kennzahlen verlassen sollte, sondern auch die Daten visualisieren muss, um ein vollständiges Bild zu erhalten
Vorraussetzungen für lieare Regressionsmodelle
(Nicht zur Bildung eines Modells aber zur Absicherung der statistischen Parameter)
Linearität (In Population vorliegende Abhängigkeit zw.nPrädiktor & Kriterium kann durch gerade dargestellt werden)
Homoskedastizität (Die Varianz der Y-Werte, welche an einer bestimmten Stelle des Prädiktors vorliegen, ist für alle Prädiktoren gleich)
Normalität (Verteilung der x- & y-Werte ist normalverteilt (mittelwert des Fehlers ε =0) -> verteilung des Fehlers muss normalverteilt sein
Unabhängigkeit der Residuen ( Alle Daten sollten voneinander unabhängig sein - Fälle nicht korrelieren & keine Ableitung von wert auf einen andern möglich sein)
Wie kann man graphisch Vorraussetzungen für lineare Regression prüfen?
Mit Histogramm, P-P Diagramm, Streudiagramm, P
Was ist bedeutend für hypothese der linearen Regression
die steigung b1
-> änder sich bei jeder Wdh. einer Untersuchung
Wie verhält sich b1 wenn die Annahmen des Regressionsmodells erfüllt sind?
Stichprobenverteilung der b1 ist dann NORMALVERTEILT
was ist die Nullyhpothese für Regressionsmodell?
Wofür stehen die einzelnen Abschnitte
H0: ß = ß0
ß= Steigung, die in der Regressionsanalyse geschätz wird
ß0 = Wahre Steigung derc Regressionsgeraden
von welchem Wert geht man iom normalfall für die wahre steigung (ß0) aus?
Und wie sieht dannach die Nullhypothese aus?
Wert 0
H0: ß = 0
Welche Quardratsummen zur Schätzung gibt es ?
Totale Quadratsumme (QStotal)= quadrierte Summe der Differenz zwischen beobachteten Werten und dem Mittelwert ∑(yi - ȳ)^2
Fehler Quadratsumme (QSFehler) = Summ der Differenz zwischen beobachteten Werten und vorhergesagten Werten ∑(yi - ŷi)^2
Modell Quadratsumme (QSModell) = Differenz zwischen vorhergesagten Werten und dem Mittelwert ∑(ŷi - ȳ)^2
APA-Bericht
Warum und wann prüft man die Ausreißer?
wenige Ausreißer können starke Verzerrung der verwendeten Parameter führen
Vor Anwendung eines Regressionsmodells Daten auf Ausreißer prüfen
Wie identifiziert man Ausreißer?
-> Streudiagramm oder Boxplot
-> Ausreßertests (Grubbs, Nalimov, Pearson, etc.)
Was macht man wenn man Ausreißer findet?
Überprüfen ob es Messereignisse oder Messfehler sind:
Möglich: Mess-, Erhbungs-, oder Rechenfehler
-> Ausschluß der Daten mit entsp. Begründung o.
-> Korrektur durch Annäherung
Welche möglichen Erklärungen gibt es, wenn die Ausreißer ein echtes Ergebnis sind?
Problem liegt bei Stichprobenwahl ( zu klein o. nicht repräsentativ
Es sind keine Ausreißer sondern Werte, die nichtlinearen Zsh suggerieren
Transformation (logarithmisch, quadratisch, etc.)
Doppelrechnung - einmal mit & einmal ohne Ausreißer -> Abschätzen inwieweit ausreißeer Ergebnis beeinflusst
Trimmen (Winsoring) der Daten (bestimmten Prozentsatz der größten & kleinsten Werte eliminieren)
Verwendung robuster Methoden (
Was muss mit echten Ausreißern passieren?
Berichtet werden
Bei eliminierung, tranformation etc. - genaue Begründung was warum gemacht wurde
Zuletzt geändertvor 6 Monaten