Einführung in die Statistik für Sozialwissenschaft

by Tim S.

Wie lässt sich der Anteil der männlichen WiSo-Studierenden auf der Grundlage dieser Stichprobe n=100 (aus insgesamt 600) schätzen? Was haben griechische Buchstaben damit zu tun und was das sogenannte “Dach”?

Sind verschiedene Stichproben genauso gut? Was ist bei ihnen zu beachten?

-Was wäre, wenn wir eine andere Stichprobe gezogen hätten?

Was wird mit dem Ziel eine Aussage verallgemeinern zu können irgendwann zum Untersuchungsgegenstand? Was benötige ich dafür?

-Weiter Stichprobe 𝜋"Sample 3= 0,46 ... und noch eine und noch eine

-In der Regel wird jede einzelne dieser Stichproben einen anderen Schätzwert liefern, d.h. 𝜋"Sp i ≠ 𝜋"Sp j – sind alle unterschiedlich

o Jeder Schätzer ist eine Realisierung einer Zufallsvariablen "Anteil männlicher Studierenden in einer Stichprobe von n= 100 Studierenden".

==> Zum Untersuchungsgegenstand werden nun nicht mehr die Personen und ihre Geschlecht, sondern der Anteil der Männer in einer Stichprobe

Bei bspw. 15 verschiedenen Stichproben, habe ich nun aber 15 verschiedene Anteile. Ist das ein Problem? Und ist dieses Szenario überhaupt realistisch? Was ist die eigentliche Lösung?

==> In der Realität allerdings i.d.R. Ziehung nur einer einzigen Stichprobe

o z.B. einmalige Stichprobenziehung in Kooperation mit dem Studierendensekretariat, ARD-Deutschlandtrend mit n= 1004, ESS8 mit n=2852

==> Wie können wir auf Basis einer einzigen Stichprobe verallgemeinern? ... mit Hilfe der Anwendung von Normalverteilungen

Was passiert wenn ich 1000 Stichproben ziehe? Wie sieht dann die Kennwerteverteilung aka Stichprobenkennwerteverteilung aka Stichprobenverteilung (Verteilung der Kennwerte, wenn wir diese in vielen Stichproben berechnen würden) aus? Welche Regel ergibt sich hieraus?

wahrscheinlich normalverteilt

==> je größer die Stichproben sind, desto eher gleich das Ganze einer Normalverteilung

Erläutern Sie den zentralen Grenzwertsatz, bzw. das law of large numbers.

-wenn oft genug große Stichproben analysiert werden, kommen wir dem wahren Wert immer näher

==> Die Stichprobenverteilung des Stichprobenkennwerts konvergiert zu einer Normalverteilung für n ==> ∞ EGAL, wie die Verteilung der Ausgangsvariablen ist (je größer der Umfang n der Zufallsstichprobe)

Wie berechne ich den Erwartungswert der Stichprobenverteilung, wie die erwartete Varianz und wie den Standardfehler (SE).

Erläutern Sie ausführlich den Standardfehler (SE)

-Kein klassischer Fehler, er sagt nur etwas über die (Stichproben-)Variabilität aufgrund unterschiedlicher Stichproben aus. Ein besserer Begriff wäre "Stichprobenvariabilität"

-Die Standardabweichung der Stichprobenverteilung besagt, wie weit einzelne Schätzungen 'in typischer Weise' vom wahren Wert abweichen

Fassen Sie die Eigenschaften einer Stichprobenverteilung zusammen.

-Angenommen, wir könnten aus einer Population mehrfach Zufallsstichproben ziehen. Für jede dieser Stichproben berechnen wir einen bestimmten Kennwert, z.B. den Anteil einer Ausprägung, das arithmetische Mittel, einen Regressionskoeffizient, ...

-Wir betrachten anschließend die Verteilung dieser verschiedenen Kennwerte (Stichprobenverteilung)

-Diese Stichprobenverteilung...

o Konvergiert gegen eine Normalverteilung

o Der Erwartungswert der Verteilung ist der entsprechende Populationsparameter (was wir eigentlich bei einer Vollerhebung hätten)

o Die Streuung ist der sogenannte Standardfehler (der u.a. von n abhängt)

==> So viele verschiedene Stichproben aber sind unrealistisch

o Das Gedankenexperiment führt uns aber zu einer wichtigen Einsicht

o Wir haben zwar nur eine Stichprobe und einen Kennwert.

o Aber: Wir kennen Eigenschaften der Verteilung der Kennwerte von (vielen, hypothetischen) Stichproben (aka Stichprobenverteilung) (u.a. aufgrund der Normalverteilung

Angenommen Wir haben (nur) eine Stichprobe aus der Grundgesamtheit vorliegen. Und jetzt?

Was benutzen wir als Punktschätzer für den Populationsparameter 𝜋? Was müssen wir warum mit diesem machen?

-Aufgrund der Zufälligkeit der Stichprobe und Einmaligkeit wird der Punktschätzer nicht genau mit dem Populationsparameter übereinstimmen, daher "erweitern" wir ihn um ein Intervall, d. h. 0,59 ± ...

-Das Intervall sollte den unbekannten Populationsparameter mit hoher Wahrscheinlichkeit (Konfidenz) abdecken

-Zur Berechnung des Intervalls verwenden wir unser Wissen über die Stichprobenverteilung von hypothetischen Stichproben, die wir nicht kennen - die wir aber auch nicht brauchen!

-Tatsache ist: Es ist nur eine Stichprobe vorhanden

-p = 0.59 = 𝜋"

-Wir wissen:

o Die Verteilung der Anteile einer großen Anzahl von (hypothetischen) Stichproben, die Stichproben- verteilung, konvergiert gegen eine Normalverteilung 𝑁(π; 𝑆𝐸π)

-Außerdem kennen wir Normalverteilungen, z.B.

o Standardisierung in 𝑁(0; 1)

o Quantile der Standardnormalverteilung (b.w.)

Wie berechnet man ein Konfidenzintervall? Wovon hängt die Fehlertoleranz ab? Was ist diese überhaupt? Wie interpretiere ich diese Wahrscheinlichkeiten?

-Punktschätzer ± 1,96 * SE (Fehlertoleranz)

-Die Fehlertoleranz hängt ab von

o Konfidenzniveau (z.B. 90%, 95%, 99%) bzw. dem entsprechenden z-Quantil der Standardnormalverteilung (z.B. 1.64, 1.96, 2.58) (unsere Entscheidung)

-Standardfehler (SE), der abhängt von

o Stichprobenumfang n

o Standardabweichung in der Population (die man ebenfalls mit vorliegenden Daten schätzen kann, b.w.)

-Fehlertoleranz/Schwankungsbreite: Der kritische Wert multipliziert mit dem Standardfehler. Von einem Konfidenzintervall: das Ausmaß des Intervalls jeweils auf einer Seite des Punktschätzers.

-Ob ein einzelnes konkretes KI den Populationsparameter überdeckt oder nicht, kann prinzipiell nicht festgestellt werden

o denn: den Populationsparameter kennen wir ja normalerweise nicht!

-Die Wahrscheinlichkeitsaussage von Konfidenzintervallen beziehen sich auf die Intervalle, nicht auf den Populationsparameter.

Führen Sie das obige Beispiel fort. Wie kann ich das Intervall mit einem Konfidenzniveau von 95% weiterführen?

Worauf beziehen sich die Konfidenzniveaus - zählen Sie die Eigenschaften von 90/95/99 auf und erläutern Sie was man mit aufsteigendem Konfidenzniveau verschiebt.

-Ob ein einzelnes konkretes KI den Wert der Population überdeckt oder nicht, wissen wir nicht. Es gibt lediglich eine hohe Wahrscheinlichkeit, dass dies der Fall ist.

-Je größer das Konfidenzniveau (z.B. 90%, 95%, 99%), desto größer das Konfidenzintervall (trade off: "Sicherheit gegen Präzision")

o 95%Konfidenzintervall: Intervall, das mit einer Zuverlässigkeit von 95% den wahren Populationswert überdeckt.

-Je größer der Umfang n der Stichprobe, desto kleiner das Konfidenzintervall (trade off: "Kosten der Datenerhebung gegen Präzision" (teurer Studie, aber mehr Präzision)

Wie berechne ich das Konfidenzintervall für das arithmetische Mittel der Population 𝜇, bei bekannter Populationsvarianz?

Wie berechne ich das Konfidenzintervall für einen Anteil der Population π?

Wie berechne ich das Konfidenzintervall für den Regressionskoeffizient ß?

Join Course

Preview

Author

Tim S.

Information

Last changed
2 years ago

Report course

Kapitel 7 - Konfidenzintervall