Realität
Welche unterschiedlichen Zugänge gibt es zur Realiät?
Laut dem wissenschaftlichen Realismus existiert eine reale Welt unabhängig von der Sicht des Betrachtenden.
Häufig: Quantitative Methoden.
Im Konstruktivismus wird angenommen, dass Wissen über die Wirklichkeit erst durch Wahrnehmung erschaffen wird.
Häufig: Qualitative Methoden.
Weitere Erkenntnistheorien sind u. a. Empirismus 1 und Rationalismus 2. Die Realität ist komplex, teilweise verdeckt und dynamisch (siehe auch Chaosforschung).
Theorie
Was sind Theorien? Erklären Sie.
▪ Eine Theorie ist eine strukturierte Sammlung von Hypothesen.
▪ Sie schlägt eine vorläufige Antwort auf eine offene Frage vor.
▪ Sie lässt sich kaum in ihrem vollen Umfang (auf einmal) prüfen.
▪ Häufig sind Theorien primär an kausalen Beziehungen interessiert.
▪ Gute Theorien ermöglichen Erklärungen, Vorhersagen, Nutzen.
Hypothese
Eine Hypothese ist eine aus der Theorie oder Beobachtung abgeleitete Aussage.
Sie sind weniger umfangreich als Theorien.
Sie stellen Vermutungen über einen Sachverhalt an.
Sie ist eine provisorische Antwort auf ein wissenschaftliches Problem.
Sie lassen sich überprüfen
(sind also potentiell “falsifizierbar”, man kann zeigen, dass sie falsch sind). Hypothesen sind (nach Karl Popper) nie beweisbar / bestätigbar, man kann höchstens zeigen, dass sie falsch sind.
Kennzeichen einer wissenschaftlichen Hypothese
▪ Sie ist eine allgemeingültige über den Einzelfall hinausgehende Behauptung.
Häufig: 𝑥 hat einen Einfluss auf 𝑦.
Modelle
Modelle sind ganz allgemein vereinfachte Darstellungen relevanter Teile der Realität. Die Repräsentation der Realität durch Modelle ermöglicht eine einfachere Analyse.
Darstellung von Modellen
▪ graphisch (Pfaddiagramme) 1
▪ verbal
▪ In der Wissenschaft verwendet man häufig:
Mathematisch-statistische Modelle zur Beschreibung der Realität.
▪ Das Instrumentarium der Mathematik kann
eingesetzt werden, um zu optimieren.
▪ Mathematisch formulierte Modelle lassen
sich gut statistisch überprüfen und
ermöglichen Prognosen.
▪ Statistische Modelle sind mathematische
Modelle die mit Hilfe von Daten gewonnen
werden.
Forschen
Gütekriterien für Forschung
▪ Ethische Aspekte: Können negative Folgen, z. B. bei befragten / untersuchten Personen auftreten? Auch: Datenschutz.
▪ Transparenz: Das Vorgehen ist klar dokumentiert und nachprüfbar (und damit prinzipiell reproduzierbar)?
▪ Objektivität: Sind die Ergebnisse unabhängig von der Person? Kommen andere zum selben Ergebnis?
▪ Interne Validität: Keine anderen Erklärungen für die Ergebnisse? Ist der behauptete Zusammenhang richtig?
▪ Externe Validität: Übertragbarkeit der Ergebnisse? Zeigt sich der behauptete Zusammenhang auch in anderen Situationen?
Messung
Beim Messen wird einer Eigenschaft eines Objektes ein Wert zugewiesen. Dabei sollte die Beziehung der Werte der Beziehung der Eigenschaften der Objekte entsprechen.
Pragmatisch: Definition des zu Messenden und gleichzeitig Beschreibung des Messvorgangs.
Müssen nur wissen, dass es Variablen gibt und diese Eigenschaften haben!
Gütekriterien einer Messung
▪ Genauigkeit, d. h. Exaktheit einer Messung,
z. B. „Umsatz hoch / niedrig“ oder in Euro.
▪ Objektivität, d. h. Messung unabhängig vom
Messenden, z. B. Kreditrating verschiedener
Agenturen.
▪ Reliabilität, d. h. Zuverlässigkeit einer
Messung, z. B. bei wiederholter / anderer
Messung dasselbe Ergebnis bzgl.
Kundenzufriedenheit.
▪ Validität, d. h., es wird das gemessen, was
gemessen werden soll, z. B.
Unternehmenserfolg oder Bilanz-Kniffe.
Kategoriale Skalenniveaus
Kategoriale Skala, qualitativ
▪ Nominal: Merkmalsausprägungen können unterschieden werden,
bspw. Geschlecht.
▪ Ordinal: Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden, bspw. Bildungsabschlüsse.
Die Abstände zwischen den Werten können nicht direkt verglichen oder interpretiert werden.
Numerische / metrische Skalenniveaus
Numerisch / metrische Skala, quantitativ, kardinal Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht
werden, die Abstände sind vergleichbar.
▪ Intervallskala: Nullpunkt gesetzt, bspw. Zeitrechnung (Jahr 0).
▪ Verhältnisskala 1: (absoluter) Nullpunkt gegeben, bspw. Gewicht.
Weitere Unterscheidung:
▪ stetig: beliebige Zwischenwerte im Intervall sind möglich, bspw. Größe.
▪ diskret: höchstens abzählbar viele Werte sind möglich, bspw. Anzahl Kinder.
Skalen: Aussagen und Operationen
Je nach Skalenniveau sind unterschiedliche Aussagen und Operationen möglich.
▪ Kategorial – nominal: =, ≠
▪ Kategorial – ordinal: =, ≠, <, >
▪ Metrisch – intervallskaliert: =, ≠, <, >, +, −1
▪ Metrisch – verhältnisskaliert: =, ≠, <, >, +, −, ∗,:
Begriffe: Stichproben
Population
Die Menge über die eine Aussage getroffen werden soll: Die ganze Suppe im Suppentopf.
Stichprobe
Teilmenge der Population, die zur Analyse ausgewählt wurde: Der Löffel voll Suppe.
Stichprobenverfahren
Der Prozess, mit dem die Teilmenge ausgewählt wurde. Z. B. zufällig: der Auswahlprozess, wo und wie der Löffel aus dem Suppentopf gefüllt wurde.
Repräsentative Stichprobe
Ist die Verteilung der Eigenschaften der Stichprobe ähnlich der in der Population? Wenn der Löffel anders schmeckt als die Suppe, war der Löffel nicht repräsentativ.
Bias/Verzerrung
Ein Teil der Population wird bevorzugt: nur Fleischbällchen auf dem Löffel.
Generalisierbarkeit
Inwieweit kann von der Stichprobe auf die Grundgesamtheit geschlossen werden? Wenn wir gut umgerührt haben, sollten die Verteilung der Gewürze etc. auf dem Löffel ähnlich der im Topf sein und wir können vom Löffel auf den Topf schließen.
Grafiken
▪ Säulendiagramm / Balkendiagramm:
Häufigkeit von Merkmalsausprägungen
(nominal, ordinal, metrisch diskret),
▪ vertikale Ausrichtung: Säulendiagramm
▪ horizontale Ausrichtung: Balkendiagramm
▪ Mosaikplot:
Darstellung der Merkmalsausprägungen
zweier nominaler Merkmale.
Häufigkeiten
▪ Anteile:
Relative Anzahl der verschiedenen
Merkmalsausprägungen kategorialer
Merkmale (nominal, ordinal).
▪ Kreuztabelle:
Tabelle der verschiedenen
Merkmale (nominal, ordinal), entweder in
absoluten oder relativen Häufigkeiten.
Säulendiagramm
Visualisiert die absoluten oder relativen Häufigkeiten von Beobachtungen von kategorialen (oder metrisch diskreten) Variablen durch die Höhe der Säulen.
Säulendiagramm/ Balkendiagramm
Histogramm
Boxplot
Streudiagramm/scatterplot
Liniendiagramm
▪ Säulendiagramm / Balkendiagramm: Häufigkeiten von Merkmalsausprägungen (nominal, ordinal, metrisch diskret).
▪ Histogramm: Häufigkeit von gruppierten Merkmalsausprägungen (metrisch).
▪ Boxplot: Visualisierung von Median, oberem und unterem Quartil 1, Minimum und Maximum, Ausreißern (metrisch).
▪ Streudiagramm / Scatterplot: Darstellung der Merkmalsausprägungen von zwei i. d. R. metrischen Merkmalen 2 als Punkte.
▪ Liniendiagramm: Verlauf der Merkmalsausprägung eines Merkmals.
Kennzahlen
▪ Lagemaß: beschreibt u. a. die zentrale Tendenz einer Verteilung.
▪ Streuungsmaß: beschreibt die Verteilung der Daten (häufig um das Lagemaß).
▪ Schiefe: beschreibt die Form der Verteilung.
Ein Histogramm visualisiert die gruppierte Verteilung einer numerischen Variable. Der Flächeninhalt der Rechtecke entspricht dabei der relativen Häufigkeiten der Beobachtungen im Intervall (Klasse).
Verteilungsformen
Verteilungsfunktion
Mögliche Frage: Was ist eine Verteilungsfunktion
Die empirische Verteilungsfunktion 1 𝐹𝑛(𝑥) gibt an, wie hoch der Anteil unter den 𝑛 Beobachtungen ist, die kleiner oder gleich 𝑥 sind:
Lagemaße
Lagemaße sollen u. a. die zentrale Tendenz der Daten beschreiben:
▪ Minimum bzw. Maximum: Kleinste bzw. größte Merkmalsausprägung.
▪ Modus / Modalwert: Häufigste Merkmalsausprägung.
▪ Median / Zentralwert: Merkmalsausprägung, die bei (aufsteigend) sortierten Beobachtungen in der Mitte liegt;
▪ Arithmetischer Mittelwert (engl. mean) 1: Summe aller Beobachtungswerte 𝑥𝑖 geteilt durch die Anzahl Beobachtungen 𝑛: 𝑥ҧ = 1 σ𝑛 𝑥
▪ Quantil: Das p-Quantil ist der Wert, für den gilt, dass er von p Prozent der Beobachtungen nicht überschritten wird.
▪ Quartile: Q1 = 25%-Quantil, Q2 = 50%-Quantil, Q3 = 75%-Quantil.
Arithmetische Mittel
Der arithmetische Mittelwert minimiert die Summe der quadratischen Abweichungen der Beobachtungen von einer Zahl 𝑐:
𝑥ҧ = arg min σ𝑛 𝑥 − 𝑐 2.
Er ist der Durchschnitt in dem Sinne, dass alle Merkmalsträger den gleichen Anteil an der Merkmalssumme haben.
Median
▪ Der Median minimiert die Summe der absoluten Abweichungen der Beobachtungen von einer Zahl 𝑐:
𝑥 = arg min σ𝑛 𝑥 − 𝑐 .0,5 𝑐 𝑖𝑖
Er ist die Merkmalsausprägung eines (im Sinne des Merkmals) typischen, d. h. mittleren Merkmalsträgers.
▪ Der Median ist robust gegen Ausreißer, der arithmetische Mittelwert nicht. D. h., 𝑥ഥkann stark durch einzelne extreme Werte verändert werden, 𝑥0,5 nicht.
Steuerungsmaße
Streuungsmaße sollen die Streuung / Variation der Daten beschreiben:
▪ Varianz: Maß für die durchschnittliche quadratische Abweichung zum
Mittelwert: 𝑠2 = 1 σ𝑛 𝑥 − 𝑥ҧ 2.
Diese hat aber eine andere Einheit als die 𝑛−1 𝑖=1 𝑖
Daten, z. B. Daten in €, Varianz €2. Durch das Quadrieren werden Abweichungen zum Mittelwert nach oben oder unten gleich behandelt und größere Abweichungen stärker gewichtet.1
▪ Standardabweichung (engl. standard deviation): Quadratwurzel der Varianz: 𝑠𝑑 = 𝑠 = 𝑠2.
▪ Interquartilsabstand (engl. interquartile range, IQR): Oberes Quartil (75%-Quantil, Q3) – unteres Quartil (25%-Quantil, Q1).
▪ Spannweite (engl. range): Maximum – Minimum.
Anatomie Boxplot
▪ Die untere Linie der Box ist das untere Quartil (25%-Quantil, Q1).
▪ Die obere Linie der Box ist das obere Quartil (75%-Quantil, Q3).
▪ Die Linie in der Box (gelegentlich auch Punkt) ist der Median.
▪ Sollten Punkte außerhalb der Antennen sein, sind dies mögliche Ausreißer.
Maximale Reichweite der Antennen:
Bis zu der Beobachtung, die maximal 1,5 ⋅ 𝐼𝑄𝑅 vom oberen bzw. unteren Quartil entfernt liegt. Sollte das Maximum der Daten kleiner bzw. das Minimum größer sein, wird dieses genommen.
Kovarianz
Kovarianz beschreibt den linearen Zusammenhang zweier metrischer Merkmale.
Die Werte beider Variablen einer Beobachtung werden mit dem jeweiligen Mittelwert der Variable verglichen.
Vom Produkt der gemeinsamen Abweichungen wird ≈ Mittelwert berechnet.
Korrelationskoeffizient
Der Korrelationskoeffizient nach Pearson normiert die Kovarianz auf den Wertebereich −1 bis +1 durch Division der Kovarianz durch das Produkt der Standardabweichungen.
Korrelationskoeffizienten 𝑟 > 0 zeigen einen positiven linearen Zusammenhang an, 𝑟 < 0 einen negativen. Je größer |𝑟|, desto größer ist der lineare Zusammenhang.
Achtung:
Korrelation heißt nicht zwangsläufig Kausalität, keine Korrelation heißt nicht zwangsläufig kein Zusammenhang oder keine Kausalität.
Korrelationskoeffizienten
Zufallsvariablen
▪ Eine Zufallsvariable 𝑋 ist eine Variable, deren Wert 𝑥 vom Zufall abhängt.
▪ Beobachtungen 𝑥𝑖 können aufgefasst werden als Realisationen von Zufallsvariablen 𝑋.
▪ Die Verteilungsfunktion 𝐹(𝑥) sagt, wie wahrscheinlich es ist, einen Wert ≤ 𝑥 zu beobachten: 𝐹 𝑥 = 𝑃 𝑋 ≤ 𝑥 , und damit
0 ≤ 𝐹 𝑥 ≤ 1.
▪ Durch eine zufällige Stichprobe oder eine zufällige Zuordnung im Rahmen eines Experimentes soll sichergestellt werden, dass die Beobachtungen 𝑥𝑖 (mit 𝑖 = 1, ... , 𝑛) unabhängig und identisch verteilt sind.
Verteilungs- und Dichtefunktion der Normalverteilung
(Keine Formen können, aber unterscheiden können ob es eine Normalfunktion ist + Charakteristiken)
Charakteristiken:
Symmetrie: symmetrisch um den Mittelwert
Eindeutig definierter Mittelwert: Mittelwert von 0. Das bedeutet, dass der höchste Punkt der Verteilung bei x = 0 liegt.
Eindeutig definierter Standardabweichung: Standardnormalverteilung hat eine Standardabweichung von 1
Flächen unter der Kurve: Fläche unter der Kurve der Standardnormalverteilung entspricht immer 1.
Dichtefunktion:
Verteilungsfunktion:
Prüfungsfrage Normalverteilung:
Es gibt unterschiedliche Verteilungsarten. Bitte erklären Sie die Normalverteilung und erklären Sie diese.
Lösung Skript:
Die Normalverteilung gibt verschiedene Wahrscheinlichkeitsaussagen.
Normalwert kann nur angewendet werden, wenn metrisch gemessene Werte/Variablen vorgegeben sind.
Die Normalfunktion lässt sich in Dichtefunktion und Verteilungsfunktion aufteilen.
Sie ist das wichtigste Verteilungsinstrument
—> Siehe Grafische Darstellung auf anderer Karteikarte
Überprüfung Normalverteilungsannahme
Ein Q-Q Plot (gf_qq()) vergleicht die Quantile einer Verteilung z. B. mit den theoretischen einer Normalverteilung. Bei einer guten Übereinstimmung liegen die Punkte auf der Diagonalen.
Lineare Regression
Beispiele
▪ Modellierung der Klausurpunkzahl eines Studierenden auf Basis z. B. der Schulnote.
▪ Analyse des Gehaltes einer Mitarbeiter*in auf Basis von z. B. Ausbildungsdauer.
▪ Vorhersage der Seitenabrufe auf Basis der Fans, Follower und Art des Inhalts 1.
▪ Modellierung des Risikos einer Anlage (Betafaktor).
▪ Vorhersage der Verspätung von Flügen (s. Datentabelle nycflights13).
▪ Vorhersage der Persönlichkeit anhand von Social-Media-Daten (s. dieses Paper).
Modellierung
▪ Überwachtes Lernen (engl.: supervised learning): Kann ein Teil der Variation einer abhängigen Variable y durch unabhängige Variable(n) 𝑥 modelliert werden: 𝑦 = 𝑓 𝑥 + 𝜖 ?
▪ Schätze 𝑓 anhand der Daten / Stichprobe. Das Dach symbolisiert, dass das
Modell geschätzt wird
▪ Annahme:𝑓isteinelineareFunktion,d.h.,𝑓 𝑥 =𝛽 +𝛽 ∙𝑥 Hier: 𝑦 numerisch, nur eine unabhängige Variable 𝑥
▪ 𝛽0: Achsenabschnitt
▪ 𝛽 : Steigung, d. h. Änderung des
Mittelwerts von 𝑦, wenn 𝑥 eine Einheit
größer beobachtet wird
▪ Methode der kleinsten Quadrate:
Bestimme Vektor so, dass für den geschätzten Fehler, das Residuum minimal ist. Die geschätzten 𝑦-Werte werden mit y bezeichnet
Annahmen
Innerhalb einer linearen Regression werden diverse Annahmen verwendet, z. B.:
▪ Kein nicht-linearer Zusammenhang zwischen 𝑥 und 𝑦,
▪ Keine (einflussreichen) Ausreißer,
▪ Fehler unabhängig (d. h. keine (Auto-) Korrelation), identisch (insbesondere konstante Varianz), normalverteilt.
Zuletzt geändertvor 24 Tagen