Je größer der Stichprobenumfang, desto [???] das Konfidenzintervall.
… desto KLEINER/SCHMALER das Konfidenzintervall (unter sonst gleichen Umständen).
Außerdem:
der Standardfehler n fällt
die Wahrscheinlichkeit für einen Fehler 2. Art fällt
umso kleiner muss der P-Wert sein, um eine Signifikanz zu erzeugen.
Fehlerarten
Fehler 1. Art (Alpha-Fehler) =
Fehler 2. Art (Beta-Fehler) =
Fehler 1. Art (Alpha-Fehler) = Hypothese H0 wird verworfen, obwohl sie richtig ist.
Fehler 2. Art (Beta-Fehler) = Hypothese H0 wird nicht verworfen, obwohl sie falsch ist!
Was ist robuster gegen Ausreißer?
Interquartilsabstand oder
Standardabweichung
Der Interquartilsabstand ist robuster gegen Ausreißer als die Standardabweichung!
-> Die Standardabweichung berücksichtigt jeden Datenpunkt und ist daher empfindlicher für Ausreißer.
Stellen Sie bitte den Unterschied zw. einer Punktschätzung, dem Konfidenzintervall sowie einem Hypothesentest dar.
Wie hängen die drei Begriffe zusammen?
Punktschätzen
Beim Punktschätzen schätzt man den unbekannten Wert eines Parameters in der GG durch den Wert eines Parameters der Stichprobe.
(z.B. FOM-Studenten in Hamburg sind im Durchschnitt 24 Jahre alt, -> Alle FOM Studenten sind im Durchschnitt 24 Jahre alt)
Konfidenzintervall
Es wird ein Intervall um den Punktschätzwert konstruiert, das den zu schätzende, unbekannte Parameter mit einer Wahrscheinlichkeit (90% / 95% / 99%) überdeckt.
(a-Alpha gibt die Wahrscheinlichkeit an, dass das Konfidenzintervall den unbekannten Parameter überdeckt; umso größer das Konfidenzintervall, umso ungenauer ist die Schätzung)
Hypothesentest -> statistische Überprüfung
Es werden zwei Hypothesen aufgestellt (H0= behauptet, dass es keinen Unterschied bzw. Zusammenhang gibt; H1= behauptet, dass es Unterschied/Zusammenhang gibt)
-> Ungerichtete Hypothesen
(ohne Aussage über Richtung ("Es gibt Unterschied"))
-> Gerichtete Hypothesen
(Aussage über Richtung ("Männer sind älter als.."))
Zusammenhang der drei Begriffe:
Die drei Begriffe zeigen den Ablauf.
Das ist die Reihenfolge in der wir vorgehen, erst Punktschätzen.
Durchs Punktschätzen können wir erste Hypothesen aufstellen und dann untersuchen
Beim Hypothesentest schauen wir uns in Abhängigkeit mit dem definierten Konfidenzintervall an, ob ein Ergebnis signifikant ist und ob wir die Hypothese annehmen oder ablehnen können.
Führen Sie bitte aus, was Inhalt des Bootstrap- sowie des Permutationsverfahren sind und diskutieren Sie hierzu je einen Vor- und Nachteil.
Bootstrap
"Ziehen mit Zurücklegen",
Ziehe aus der Originalstichprobe mit Zurücklegen eine neue vom gleichen Umfang und berechne Stichprobenstatistik. Wiederhole dies oft und schätze damit die Verteilung der Stichprobenstatistik.
Permutationsverfahren
- Permulation = "zufällige Stichprobe" = bedeutet, wir haben eine Glasurne und ziehen Kugeln, ohne sie zurückzulegen. Solange bis Glaskugel leer ist. Wenn H0 gilt, sollte es für den Wert der abhängigen Variable egal sein, welchen Wert die unabhängige hat: Permutiere Werte und berechne Teststatistik.
Wiederhole dies oft und gucke ob der beobachtete Wert der Stichprobe unter den permutierten unwahrscheinlich ist.
Glättet gegen 0; wir stellen mit der Permutation unsere H0-Normalverteilung dar
Vorteile: Normalverteilungsfrei (daher einfache Anwendung); wir können durch Bootstrap das mehrfach resamplen und das sehr oft wiederholen, wir können den Test immer anwenden
Nachteile: Bei zu kleinen Stichproben nicht möglich; Stichprobe künstlich erzeugt und ggf. nicht der Realität entsprechend; Verfahren ist nur so gut wie unsere Stichprobe
Wann ist aufgrund einer quantitativen Datenanalyse eine Aussage über eine Population gerechtfertigt?
Wenn eine zufällig Stichprobe vorliegt
Was sagt die Effektgröße Cohens D aus?
Cohens D = Maß für Überlappung.
Was sagen die Ergebniss-Werte bei einer Regressionsanalyse aus?
r = (+1) / (nahe 1) / (0) / (nahe -1) / (-1)
Benennen Sie jeweils 2 Vor- sowie 2 Nachteile der Regressionsanalyse
Vorteile
Nachteile
Extrapolation möglich
Störfaktoren/Residuen spielen möglicherweise eine große Rolle, die die lineare Auswertung/Extrapolation nicht sinnvoll darstellen lassen
Modellieren des Zusammenhangs von der/den unabhängigen Variablen zur abhängigen Variablen
Nur lineare Zusammenhänge abbildbar, strukturdeckende Auswertung nicht möglich
Bei Regressionsanalyse: Was bedeutet der Achsenabschnitt b0?
Wert der abhängigen Variablen bei einem Wert von 0 bei der unabhängigen Variablen
Beginn der Steigung der Geraden
Bei Regressionsanalyse: Was bedeutet die Steigung b1?
Einheit, um die die abhängige Variable ansteigt bei der Einheit 1 der unabhängigen Variablen
Bei Regressionsanalyse: Was bedeutet „R squared” und „adjusted R squared“? Welche Unterschiede gibt es hierbei?
Gütemaß zur Messung der erklärten Varianz innerhalb des Modells
“R squared” ist instabiler als „adjusted R squared”
Je mehr Variablen, desto höher ist i.d.R. R squared und damit ungenauer!
Das „adjusted R squared” misst nicht die Quantität, sondern die Qualität der Güte: Erhöhung des Gütemaßes nur, wenn sich die erklärte Varianz (??)
Je höher R^2 desto besser die Güte der Modellierung :)
1) Woran können Sie am ehesten erkennen, dass eine Variable x zur Modellierung von y beiträgt?
2) Woran können Sie erkennen, ob Sie ein gutes Modell haben - bei einer metrischen abhängigen Variable y?
1) -> an einem kleinen p-Wert
2) an einem großen R-Quadrat (zeigt Anteil d. modellierten Variationen)
Ist der Korrelationskoeffizient robust gegen Ausreißer?
Nein. Sind Ausreißer vorhanden kann der Korrelationskoeffizient dazu neigen, die Stärke der Beziehung zu über- oder unterschätzen
Wofür wird der T-Test verwendet?
Wofür nutzt man eine Varianzanalyse?
Wann nutzt man eine Korrelationsanalyse?
Wann verwendet man eine lineare Regression?
Wann nutzt man eine mutiple Regression?
Wie ist die Formel zur Berechnung des Korrelationskoeffizient?
Wie ist die Vorgehensweise bei der P-Wert Berechnung?
(Zufallswert-Erwartungswert)/Standardabweichung = Z-Wert
Z-Wert in Tabelle ablesen
Spalte: 1,2
Zeile: 0,023
F(x)=1-Wert aus Tabelle * 100, um dann mit Signifikanzniveau abzugleichen.
Wenn der p-Wert kleiner ist als das gewählte Signifikanzniveau, ist das Ergebnis statistisch signifikant und die Nullhypothese kann abgelehnt werden.
Zuletzt geändertvor 10 Monaten