Balkendiagramm
zeigen wie häufig Kategorien in Daten vorkommen
Kategorien = nicht-numerische Attribute (Eigenschaften, Merkmale)
-> in R = Fakoten (“factors”)
BSP: Geschlecht, verschiedene Bezirke etc.
Histogramm
Zählungen über numerische Variablen
numerische Zahlen werden in Intervalle gruppiert
-> Unterschied zum Balkendiagramm: beim BD wäre jede einzelne Zahl ein Balken, hier werden zusammenliegende Zahlen in Gruppen zusammengenommen
Nicht zu viele, nicht zu wenige einzelne Gruppen (bzw. Intervalle)
-> RStudio: mit breaks = # (#=eine Zahl) kann bestimmt werden wie viele Gruppen gemacht werden sollen
Dichte-Diagramm
glatte Annäherung an ein Histogramm
-> zeigt das Wesen der Variable deutlicher
y-Achse: zeigt wie wahrscheinlich es ist das eine bestimmte Variable einen bestimmten Wert (x-Wert) annimmt
x-Achse: mögliche Werte der Zufallsvariable
-> je höher die Linie, desto wahrscheinlicher ist es, dass Daten in diesem Bereich vorkommen
banwith (Bandbreite): gibt an wie genau die Linie ist
-> Vergleich zu den verschiedenen Intervallen im Histogramm
-> RStudio: mit adjust = # anpassen (andernfalls wählt R einen vernünftigen Wert)
Streudiagramme
-> bestehend aus zwei Achsen
-> jede Achse räpräsentiert eine Variable
-> Punkt = Werten der beiden Variablen
-> vergleichbar mit einem Koordinatensystem (einfach mit mehreren Punkten
Beziehungen zwischen den Variablen
Muster, Korrelationen o. Ausreisser erkennbar
-> z.B. Linie,
Referenzen:
gängige Tricks
Rosinenpickerei bei Daten o. das Weglassen relevanter Daten
Zahlen die einfach nicht zusammenpassen
Falsche Skalierung
Mehrere Achsen mit sehr unterschiedlichen Massstäben verwenden
Hochrechnungen, insb. solche ohne Angabe von Unsicherheiten
Modus
Wert, der am häufigsten erscheint
kann durch einfaches Zählen ermittelt werden
BSP zwei Frauen, ein Mann -> Modus weiblich
Median
mittlere Wert in den Daten
-> 50% kleiner oder gleich
-> 50% grösser oder gleich
ERMITTLUNG Werte der Grösse nach sortieren
Anz. der Beobachtungen n ungerade:
mittleren Wert ermitteln (bzw. herauslesen)
Anz. der Beobachtungen n gerade:
beiden mittleren Werte addieren und durch zwei teilen
Mittelwert
arithmetisches Mittel (“mean”)
gleich der Summe der Werte geteilt durch den Stichprobenumfang
wir müssen Zahlen benutzen (die wir addieren können)
durchschnittlich richtige Vorhersge
-> denn Vorhersagefehler minimieren
-> alle Vorhersagefehler addiert ergeben immer null
Variationsbreite (“range”)
R = max(y) - min(y)
Bandbreite zwischen Minimum und Maximum
NACHTEIL wir berücksichtigen nicht alle Daten
allgemeiner GRUNDSATZ der STATISTIK:
niemals Informationen wergwerfen
Varianz
Mass für die Streuung bzw. für die durchschnittliche Abweichung der einzelnen Datenpunkte von ihrem Durchschnitt
-> zeigt wie weit die Datenpunkte im Durchschnitt von der durchschnittlichen Position abweichen
je grösser die Varianz, desto weiter liegen die Datenpunkte auseinander
durch n-1 teilen
-> Freiheitsgrad (“degree of freedom”) verloren
(ACHTUNG: beachte Masseineinheit -> siehe Videoaufzeichnung Woche 4 min. 50)
Standardabweichung
Varianz = Streuung in quadraitschen Masseinheiten
Standardabweichung = in der ursprünglichen Messskala
-> besser greifbar für uns
Symmetrie
Mittelwert = Median
Asymmetrie
Mittelwert ≠ Median -> Schiefe
-> positiv = Mittelwert > Meidan
-> negativ = Mittelwert < Median
-> beschreibt die “Schärfe”/ “Spitzheit” der Graphen
Vergleich relativ zur Normalverteilung
-> Leptokurtosis = Kurtosis > 3 (spitzer)
-> Platykurtosis = Kurtosis < 3 (weniger spitz)
-> Mass um festzustellen, ob es einen linearen Zusammenhang zischen zwei Variablen gibt und in welche Richtung
linearer Zusammenhang positiv oder negativ
negativ Kreuzprodukt negativ (hoch y mal tief x oder umgekehrt = (-) mal (+) = (-)
positiv Kreuzprodukt positiv (hoch y mal hoch x)
-> (-) mal (-) = (+) & (+) mal (+) = (+)
0 = kein linearer Zusammenhang
positiv (>0) = possitve lineare Assoziation
negativ (<0) = negativ lineare Assoziation
-> keine Information über die Stärke (Grösse hängt von der Messskala ab) -> Interpretation heikel
-> gibt an in welchem Ausmass die Variablen linear miteinander zusammenhängen (Richtung + Stärke)
Umwandlung der Kovarianz in einen Korrelationskoeffizienten
-> Pearson-Produkt-Moment-Korrelation
Wertebereich von -1 bis +1
-1 = perfekt negativ linearer Zusammenhang
+1 = perfekt positiv linearer Zusammenhang
0.0 - 0.2 -> sehr schwach
0.2 - 0.4 -> schwach
0.4 - 0.6 -> mässig stark
0.6 - 0.8 -> stark
0.8 - 1.0 -> sehr stark
Was ist ein Konzept?
abstrakte Idee, allgemeines Verständnis von etwas
-> einem Phänomen mit gemeinsamen Merkmalen oder Eigenschaften
-> Beobachtungen benennen + gruppieren
-> Abgrenzung
jedes Phänomen hat empirische Manifestationen
Wichtigsten Theorien
Operationalismus
-> Konzept = den verwendeten Messoperationen
-> Prolem: ständig neue Theorien
formative Theorie
-> Zerlegung des Konzepts in verschiedene Dimensionen
-> definieren/formen das Konzept
-> notwendig oder nur ausreichend?
-> Kompensationsmöglichkeit?
reflexive Theorie
Wichtigsten Theorien// reflexive Theorie
eine bestimmte Ausprägung/ Manifestation ist eine Widespieglung des Konzepts
-> jede Manifestation hat auch ein einzigartiges Merkmal
Definition
Zuweisung von Ziffern zu Objekten oder Ereignissen nach bestimmten Regeln
-> Bedeutung kann unterschiedlich sein
Repräsentationstheorie
die Regeln für die numerische Zuordnung sollte den empirischen Beziehungen ensprechen
-> beobachtbaren Zusammenhängen
-> keine zusätzlichen Annahmen
man kann allem eine Ziffer geben
-> aufpassen wie man diese versteht, interpretiert, manipuliert
Arten von empirischen Beziehungen
nominal
-> Ähnlichkeit/ Unähnlichkeit
-> gleiche Klasse = gleiche Nummer
ordinal
-> Rangordnung
intervall
-> Gleichheit der Intervalle
-> A-B = B-C (Unterschied zwischen A und B ist gleich gross wie der Unterschied zwischen B und C)
ratio
-> Gleichheit der Verhältnisse
-> Quantität
-> absolute Null muss existieren
Zuverlässigkeit
zuverlässig: wiederholbar, konsistent
unzuverlässig: Schwankungen -> Messfehler
Definition & Vollerhebung vs. Stichproben
Einheiten bzw. Objekte
-> werden ausgesucht und untersucht
-> Träger der Merkmale
Vollerhebung
-> Population untersucht
(Gesamtheit der Untersuchungseinheiten)
Sichprobe
-> Teilmenge untersucht
Zufallsstichproben & Einfache Zufallsstichprobe
jede Bevölkerungseinheit hat eine bekannte Chance gewählt zu werden
keine Bevölkerungseinheit wird ausgeschlossen
Einfache Zufallsstichprobe:
gleiche Wahrscheinlichkeit/ Chance zum gewählt werden
Qualitative vs. Quantitative Forschung
Qualitative Forschung
Warum passiert etwas?
wenig Fälle dafür Tiefe
Quantitativ:
viel grössere Menge
weniger Tiefgang (weniger Informationen)
und Unsicherheiten
Wahrscheinlichkeit 0.5
-> am wenigsten sicher
Wahrscheinlichkeit 1 oder 0
-> am sichersten
Grade an Unsicherheiten
-> wahrscheinlich eintreten wird oder nicht eintreten wird
Rechnen mit Wahrscheinlichkeit// Terminologie
Ergebnisse = Stichprobenpunkte
alle möglichen Ergebnisse = Stichprobenraum S
bestimmte Ergebnisse = Ereignisse
-> z.B. zweimal Kopf
= oder
= und
Formale Eigenschaften
Wahrscheinlichkeiten können nicht negativ sein
P(S) = 1
-> wir wissen welche Optionen zur Verfügung stehen
-> aber nicht welche eintreten wird
zwei gegenseitig ausschliessende Ereignisse:
-> z.B. HT und TH
Stichprobenverteilung
= Mittelwert einer Stichprobenverteilung (E = Erwartungswert)
-> falls … ist der Schätzer p unverzerrt
-> ansonsten verzerrt -> nicht alle Personen machen mit
Warum brauchen wir sie?
Fokussierung
-> auf eins, zwei Ideen eingehen
Präzision
-> präzise Formulierung
Forschungsdesign & Analyse
-> Ideen -> was brauche ich, um das zu sehen was ich erwarte
sehr klare Sprache
-> Hypothese sagt klar aus was wir erwarten
Bestandteile
Wer?
-> Population
-> auf wen bezieht sich die Population
Was?
-> Variablen
-> Welche Eigenschaften werden miteinander in Beziehung gebracht
Wie?
-> Beziehung
-> Welcher Art ist der Zusammenhang?
Anforderungen
spezifisch
-> nicht zu viele Antworten
bekannte oder definierte Begriffe
falsifizierbar
-> einige Ergebnisse ausschliessen
empirisch überprüfbar
-> mittels Stichproben
-> Wenn-dann-Aussage
nach Fisher
Nullhypothese formulieren
Signifikanzniveau festlegen
-> wie unwahrscheinlich muss ein Ergebnis sein um als unmöglich zu gelten
-> alpha
entwirf ein Experiment
Experiment durchführen
p-Wert berechnen
weitere Entscheide fällen
Sinifikanzniveau
Wahrscheinlichkeitsschwelle für die Ablehnung der Nullhypothese
alpha
0.05
-> kann aber variieren
p-Wert
Wahrscheinlichkeit
zwei verschiedene Angehensweisen
holistische Ansatz
-> umfassendes Verständnis
-> alle möglichen Erklärungen & ihr Zusammenspiel
Modelle
-> Vereinfachungen
-> in die wesentlichen Teile zerlegen -> einfachere Erklärung
-> Nützlichkeit anstatt die volle Wahrheit (risikoreich)
Statische Modelle
mathematisches Modell
-> Menge von Daten über eine abhängige Variable -> warum gibt es diese? -> wie sind sie entstanden?
-> Prozess der Datengenerierung
zwei Merkmale
-> empirischer Natur -> empirische Daten (Sachen, die wir sehen)
-> stochastisch (anerkennen Unsicherheiten)
Convenience-Stichprobe
Teilnehmer nehmen freiwillig teil
-> nicht systematisch
Vertrauen gewinnen -> Fokusgruppen
evt. ungenau -> nicht das gesamte Spektrum abdecken
Snowball-Stichproben
die ausgewählten Stichprobeneinheiten empfehlen andere Stichprobeneinheiten
-> Einblick in das soziale Netzwerk
evt. schlechte Qualität
Gezielte Stichproben
Stichporbenziehung von bestimmten Forschungszwecken geleitet
-> z.B. Maximierung der Variation
übergeordnetes Ziel -> z.B. Kausalität (Ursache)
Theoretische Stichproben
Stichproben werden aufgrund bestimmter Interessen ausgesucht
-> Forscher interessieren sich für bestimmte Merkmale
(grounded theory): Stichproben werden dann genutz zur Erstellung von Hypothesen und Theorien
-> unklare Fallauswahl
unabhängig von der Quellenverteilung hat der Stichprobenmittelwert eine Normalverteilung mit einem Mittelwert von müh und einem Standardfehler von …
-> wenn der Stichprobenumfang gegen unendlich geht
Zuletzt geändertvor einem Jahr