undefined

Buffl

Rechengestützte Datenauswertung

by 12DayFIsh

Welche sind die Merkmale von R/R Studio und SPSS?

R:
- freie Software
- syntaxbasiert (Anweisungen tippen)
SPSS
- Kommerziell
- graphische Oberfläche mit Menüs (Syntax möglich)

Was ist R und was ist R Studio?

R: frei verfügbare, open-source Programmierumgebung
- Besteht aus einer Konsole zum eintippen von Befehlen
- “objektorientirete” Programmiersprach (Daten, Funktionen & Ergebnisse haben Namen)
- ca. 2000 in einem Forschungsumfeld entwickelt worden
- ausgeleg, Analysen einfach zu verketten
- im Einstig anspruchsvoll, erlaubt aber schnellen Fortschritt
- Kann von CRAN heruntergeladenwerden
R Studio: graphische Oberfläche, welche Arbeit mit R erleichtern soll
- in Basisversion gratis (sonst keine freie Software)
- ausgelegt, um verschiedene Aspekte der Arbeit von R zu integrieren (Programmieren, Texte schreiben, Online-Apps, Webseiten)

Wie benennt man etwas in R? Bsp. man möcht einen Vektor “Sblob” erstellen, der Wert 17 hat

sblob <- 17

Wie erschafft man in R einen einfachen Vektor namens Sblob mit den Werten 2, 8 und 9? Wofür stehen die einzelnen Bestandteile? Was würde geschehen, wenn man dann sblob + 1 rechnen würde?

sblob <- c(2, 8, 9)

c = combine
bei sblob + 1 würde zu jedem Wert des Vektors 1 addiert werden -> sblob = (3, 9, 10)

Wie erhält man die ersten 10 Zeilen eines Datensatzes, z. Bsp. Datensatz sblob?

head(sblob, 10)

head = Anfang
sblob = Datensatz
10 = Anzahl Zeilen

alternative

sblob[1:10, ]

Wie kann man sich in R die Daten eines gesammten Datensatzes anzeigen lassen (z. Bsp. des Datensatzes sblob)?

view(sblob)

Wie kann man in R ein Packet herunterladen und dann laden (z. Bsp. Paket sblob)? Auf was ist hier zu achten?

Paket herunterladen: install.packages(“sblob”)
Paket laden: load(sblob)
-> beim Herunterladen Anführungszeichen um Packet, beim laden keine Anführungszeichen mehr

Wie sehen Datentabellen in R aus?

Spalten (->) sind Variablen (z. Bsp. alter, Intelligenzquotient etc.)
Zeilen (^) sind Personen/Fälle
- gleiche Person kann auch in mehreren Zeilen vorkommen, z. Bsp. bei Messwiederholungen

Wie kann in R addiert, multipliziert und geteilt werden?

Addieren: 1 + 1
multiplizieren: 1 * 1
teilen: 1/1
- das : Zeichen hat eine andere Bedeutung (Zahlen bis)

Was sind Vektoren und wie können Vektoren in R aussehen?

Vektoren = Aneinanderkettung von mehreren Werten, mit c (combine) erschaffen
Zahlenvektoren: vec1 <- c(20, 28, 39(
Vektoren mit kategorialen Variablen:
- vec2 <- c(“Kategorie1”, “Kategorie2”, “Kategorie3”)
- eignen sich, um nicht-numerische Variablen zu speichern

Was sind Data frames und wie werden sie erstellt?

Tabellen in R, welche häufig als Format für Datensätze verwendet werden
Spalten in einem Data Frame sind Vektoren
data frame estellen
- zuerst einzelne Vektoren benennen:
  - vec1 <- c(2, 3, 4, 8)
  - vec2 <- c(“gut”, “mittel”, “schlecht”, “gut”)
  - vec3 <- c(0.4, 0.8, 0.9, 1.4)
- danach einen Dataframe (hier mit Namen “dat”) daraus machen
  - dat <- data.frame(vec1, vec2, vec3)
-> ergibt dann Tabelle, wobei in Zeilen 1, 2, 3, 4 und in Spalten Werte von vec1, vec2, vec3 angegeben werden
- z. Bsp. bei Zeile 1 2 (unter vec1), gut (unter vec2), 0.3 (unter vec3)

Wie kann man in R auf einzelne Elemente eines Datensatzes zugreifen (wenn man einen Vektor vec1 mit (2, 6, 7, 9) hat)? Wie kann man einzelne Elemente eines Vektors ersetzen?

vec1 -> ganzer Vektor anzeigen
Auf bestimmtes Element in Spalte zugreifen:
- vec1[2] -> 6
Element ersetzen
- vec1[2] <- 100
  - jetzt zweites Element nicht mehr 6, sondern 100

Wie kann man mehrere Elemente in einem Vektor auswählen (Beispielsvektor: vec1 <- c(2, 100, 7, 9))?

vec1[c(2, 4)]
- auf zweites und viertes Element zugreifen
- ergibt 100 9
Alternative: neuen Vektor mit den Werten erschaffen
s <- c(2, 4)
- vec1[s]

Wie kann man auf ganze Spalten in Dataframes zugreifen? Wie kann dies weiter genutzt werden, um auf einzelne Elemente auf Spalten zuzugreifen

dat$vec1
- auf vec1 von Datensatz dat zugreifen
dat$vec1[1]
- Auf erstes Element von vec1 aus Datensatz dat

Welche Möglichkeiten gibt es, auf ein bestimmtes Element aus einem Datensatz zuzugreifen?

dat[2, 3]
- auf zweite Zeile, dritte Spalte von Datensatz dat zugreifen
- wenn links freigelassen wird: nur numerisch angegebene Zeile (ganz) wird angezeigt
  - dat[2, ]
    - alle Vektoren von Person 2 werden angezeigt
- wenn rechts freigelassen wird: nur numerisch angegebene Spalte (ganz) wird angezeigt
  - dat[ ,3]
    - ganzer Vektor 3 von allen Personen wird angezeigt
dat$vec1[1]
- Auf erstes Element von vec1 aus Datensatz dat zugreifen
Auf bestimmtes Element in Spalte zugreifen:
- vec1[2]
  - zweites Element von vec1

Wie kann man sich mehrere Zeilen und Spalten eines Dataframes anzeigen lassen?

Positionen wiederum als Vektoren übergeben
Bsp. alle Elemente von Datensatz dat in der zweiten un vierten Zeile von der Zweiten und dritten Spalte (Werte von Person 2 und 4 für Elemente 2 und 3)
- dat[c(2, 4), c(2, 3)]
  - wieder zuerst Zeilen (Personen), danach Spalten (Elemente/Variablen)

Was sind logicals? Wie erstellt man einen Vektor mit logicals? Welche Outputs gibt es hier?

wichtiger Datentyp von R
können nur Werte “wahr” (TRUE) und “falsch” (FALSE) annehmen
Vektor erstellen
- Lvec <- c(FALSE, TRUE, FALSE, TRUE)
man kann so R auch Fragen stellen, z.Bsp.
- Eingabe: 3 > 5
- Output R: FALSE (da 3 nicht grösser als 5 ist)
- Oder 4 == 4 (ist 4 das gleiche wie 4 (wichtig: doppeltes Gleichheitszeichen)
- Output: TRUE
logicals können auch Werten aus anderem Vektor zugeteilt werden, müssen aber dafür gleich lang sein
- alter <- c(22, 34, 19, 18)
- alter[c(FALSE, FALSE, TRUE, TRUE)]
- dann z. Bsp. eingabe alter < 20 (alter kleiner als 20)
  - Output: 19 18
  - gleicher Output: alter[which(alter < 20)]
- Position der wahren Werte ermitteln:
  - which(alter < 20)
  - Output: 3 4

Wie können Elemente mit logicals ausgewählt werden?

bei Datensatz dat
- dat[c(FALSE, FALSE, TRUE, TRUE), ]
  - nur True wird angezeigt
- dat[dat$vec1 > 6, ]
  - rechts leer, deshalb alle Spalten
  - alle Zeitel von vec1, welche grösser als 6 sind (in allen Spalten)

Wie sollen Datensätze/Vektoren in R (nicht) benannt werden?

möglich
- gross/kleinbuchstaben
- Zahlen
- Punkte (oder Unterstirche)
am besten möglichst kurze aber eindeutige Namen (damit man schnell erkennt, was dargestellt wird)
nicht möglich
- Zahlen an Anfang von Namen (in Mitte oder am Schluss ok)
- Sonderzeiche (z. Bsp. @)
- keine Namen, die in R statistische Funktionen sind
  - z. Bsp. mean (aber my_mean ok), $ Zeichen (egal wo)

Wie kann in R ein Vektor zu den Körpergrössen in cm von 6 Probanden erschafft werden?

groesse <- c( 180, 172, 177, 162, 168)

werden automatisch dann Probandennummern zugeteilt, also Person 1 = 180 etc.

Wie kann man einen Plot aus dem Datensatz dat erstellen mit auf der x Achse vec1 und auf der y Achse vec2?

plot(dat$vec1, dat$vec2)

erste Eingabe immer x Achse, zweite Eingabe y Achse

Was sind Text-files im Zusammenhang mit R? Welche sind die Vor- und Nachteile von Text-files und mit welcher Beschreibung werden diese in in R eingelesen?

Datenformat, welches in R eingelesen werden kann
Textfiles am einfachsten
Vorteile
- Von praktisch jedem Programm lesbar
Nachteile
- Nur Variablen und Werte werden abgespeichert
Einlesen in R:
- read.csv(“filename.csv”)

Welche programmspezifische Datenformate gibt es, welche Vor- und Nachteile haben sie und wie werden sie bei R eingelesen?

Programmspezifische Datenformate
- R: .RData -> kann mehrere R Objekte enthalten, kann aber nur für R gebraucht werdne
- SPSS: .sav
Vorteile
- Viele Features + Zusatzinformationen abgespeichert
Nachteile
- Schlecht austauschbar zwischen Programmen
Rdata file einlesen
- load(“filename.rdata”)

Was ist das Working Directory in R und welche Befehle gibt es hierzu?

R arbeitet immer in Bezug auf bestimmten Ordner auf Computer (= Working Directory)
Sofern nichts spezfisch angegeben wird, sucht R im WD nach Files zum einlesen und speichert die Files dort ab -> Files zum einlesen sollte man im Working Directory platzieren
Befehle
- Sich working directory ansehen
  - getwd()
- Working Directory setzen
  - setwd()
- ODER: “Session” -> “Set working directory” -> Ordner auswählen

Welche Schritte werden bei der Vorverarbeitung von Daten gemacht?

Eindruck von Datensatz gewinnen mit folgenden Befehlen
- summary() -> rechnet für alle Spalten wichtigsten Deskriptiven Grössen (Min., Max., Streuung etc.)
- view() = zeigt Datensatz an wie ExcelTabelle
- head() = ziegt erste paar Daten des Datensatzes
- str() = Inhaltliche Informationen über Daten, z. Bsp. wieviele Zeilen und Spalten
Fehlende Werte richtig codieren
Fehlerhafte Werte identifizieren und korrigieren (z. Bsp. Alter von 290 Jahre -> wharscheinlich 29)
Variablen verändern/neue Variablen erstellen
- Z. Bsp. m in cm umwandeln etc.

Wie kann man in R fehlerhafte Werte finden? Was muss hier noch beachtet werden bezüglich fehlenden Werten?

Grafische Darstellung von Daten, z. Bsp. Boxplot
Deskriptive Statistiken anschauen
- mean() = Mittelwert
  - z. Bsp. mean(dat$alter) -> Durchschnittalter aus Datensatz dat
- max() / min()
- var() = Varianz
- sd() = Standardabweichung
  WICHTIG: immer Vektor angeben, von dem man diese Statistik berechnet haben will (z. Bsp. hier Vektor “alter” aus Datesatz “dat”)
BEACHTEN: um mit fehlenden Werten richtig zu rechnen, na.rm=TRUE anfügen
- mean(dat$alter, na.rm=TRUE)

Wann muss man Items invertieren und welche Möglichkeiten gibt es, um Items zu invertieren?

In Psychologie häufig invertierte Items, z. Bsp. gleiche Charakteristik wird so gefragt, dass einmal eine hohe Punktzahl = hohe Ausprägung, einmal hohe Punktzahl = tiefe Ausprägung, z. Bsp. bei Befragung niedergeschlagenheit
- “Ich war in der letzten Woche häufig traurig”
- “Ich war in der letzen Woche hääufig heiter” (invertieren für Niedergeschlagenheitwerte)
Möglichkeiten, um Werte zu Invertieren
- Manuelles umkodieren -> Kategorien einzeln vertauschen
  - 1 - -> 5
  - 2 - -> 4
  - etc
- Mit Formel umrechnen
  - Werte vom Max. und Minimum der Skala abziehen
  - Daten_invertiert <- 5 + 1 - Datenname (wenn 5 Max un 1 min)
  - Xinv = Xmax - Xmin - X

Wie kann in einem Dataframe eine neue Spalte (z. Bsp. “Alter”) erschaffen werden?

Mit $ Zeichen
Wenn
- dat = bestehender Datensatz/Dataframe
- Item1 und Item 2 bestehende Spalten, aus deren Addition sich neu zu erschaffende Spalte ergibt
Dann
- dat$neuespalte <- dat$item1 + dat$item2
- $ zum Hinzufügen neuer Spalte
- danach Name neue Spalte

Was kann zu R-Paketen gesagt werden? Wer erstellt diese?

R unter anderem so beliebt, weil zehntausende R-Pakete/Funktionen für alle möglichen Aufgabenbereiche per Mausklick frei zugänglich sind
R-Pakete werden von R-Anwenderinnen erschaffen und betreut
Jede:r R-Anwender:in kann selbts Pakete schreiben und veröffentlichen oder zu vorhandenen Paketenhinzufügen

Was kann zur Installation von R-Paketen gesagt werden? Welche Befehle gibt es hierzu?

Neues Paket muss zuerst installiert werden
- install.packages(“packagename”)
- Installation muss nur einmal gemacht werden
- Hingegen muss Paket bei jeder Session neu geladen werden
  - library(packagename)

Wie werden kategoriale Variablen in R auch genannt und wie werden sie gespeichert?

Auch als factor abgespeichert
sollten nicht als Zahlen abgespeichert werden
Factor speichert…
- Namen der verschiedenen Kategorien
- Welche Kategorien überhaupt möglich sind
Erschaffen eines Faktors in R
- dat$Maturaland <- factor(dat$Maturaland, levels=c(1,2,3,4,), labels=c(“Schweiz”, “Oersterreich”, “Deutschland”, ”anderswo”))
- auch levels = 1:4 möglich
- jedem Level eine Kategorie zugeteilt

Wie können kategoriale Variablen in R grafisch dargestellt werden?

Säulendiagramme
- barplot(table(dat$Geschlecht))
Kreisdiagramme
- pie(table(dat$Geschlecht))
Häufigkeitstabelle (für Modalwert)
- table(dat$Geschlcht)

Wie kann ein statistischer Test zur Abweichung von der beobachteten vs. erwarteten Häufigkeit in R gemacht werden und wie heisst dieser Test? Welcher unterschiede ergibt sich hier bei einer vs. zwei kategorialen Variablen?

X2-Test, z. Bsp. bei Erwartung gleichverteilung
chisq.test(tabelle.geschlecht)
chist.test(tabelle_Geschlecht, p = wahrsch)
- p = wahrsch: z. Bsp. 0.5
chisq.test(dat$Wunschbereich, dat$Geschlecht)$observed
- vergleich von “gewünschten” Daten (erwartete Häufigkeit fe) mit echten Daten (beobachteter Häufigkeit fb)
Wenn nur Test eingegeben wird und nicths anderes, dann ist die Nullhypothese, dass beide Variablen (fb und fe) unabhängig voneinander sind
P Wert: wie wahrscheinlich, solche Daten zu bekommen, wenn Nullhypothese (= kein Effekt) gilt? -> umso kleiner, desto besser, bei p < 0.05 Nullhypothese verwerfen (heisst NICHT zwingend, dass es einen Effekt gibt)
Bei einer kat. Variable
- Prüfung der Unabhängigkeit
Bei zwei kat. Variablen
- Prüfung der Häufigkeit
X2 Test NUR für kategoriale Variablen

Was wird beim Chi^2 Test gemacht?

Prüfung der (Un-) Abhängigkeit zweier Variablen
Vergleichen zwischen
- beobachtete Häufigkeit: fb
- erwarteter Häufigkeit fe (entspricht fe)
Berechnete X2-Prüfgrösse
- [(f1b-f1e)^2]/ f1e + [(f2b-f2e)^2]/f2e + […]
Problem: bei kleinen Häufigkeiten (fe < 5) ist Prüfgrösse nicht genau X2 verteilt, X2 Test daher ungenau

Wie funktioniert ein statistischer Test?

Man überlegt sich, wie beobachteten Resultate zustandekommen könnten
- erstellen einer Nullhypothese H0 (Kein Effekt vorhanden bzw. entspricht der eigenen Hypothese, weicht nicht signifikant davon ab)
- Gegenüberstellung einer Alternativhypothese H1 (Nullhypothese GILT NICHT) (-> Effekt vorhanden)
Vergleichen der Daten mit Nullhypothese -> wie plausibel ist Nullhypothese basierend auf diesen Daten?
- Ausrechnen der Plausibilität = p Wert
- Wenn p-Wert sehr klein, dann muss die Nullhypothese verworfen werden -> Alternativhypothese akzeptieren
  - p < 0.05 = Wahrscheinlichkeit, dass Resultate ein Zufall sind sehr klein -> Nullhypothese verwerfen
- Kleine p Werte gegen Nullhypothese, da in etwa die Wahrscheinlichkeit eines Zufallsereignisses sinkt
- ABER: nicht-signifikanter P-Wert beweist nicht Nullhypothese! (sagt nur, dass beobachteten Resultate unter ihr nicht unwahrscheinlich sind)
  - kann auch sein, dass sie nur leicht falsch ist oder dass man zu wenig Daten hat

Was ist der Fisher-Test? Wie wird er in R berechnet?

Statistischer Test
X2-Test ist nicht genaue Berechnung, sondern Annäherung

Fisher-Test Alternative zu X2 Test
- bei kleinen Häufigkeiten (fe < 5) ist Prüfgrösse nicht genau X2-verteilt und X2-Test daher ungenau -> Fisher-Test verwenden
Fisher Test
- exakter Test
- Prüft empirische Verteilung von Kategorien-Kombinatoinen gegen alle theoretisch möglichen Verteilungen (rechenaufwendig)
Fisher test Formel
- fisher.test()
- fisher.test(count)
  - count = Kreuztabelle

Was ist Unabhängigkeit?

Bedingte
relative
Häufigkeit von X
ist für jede Kategorie von Y gleich
Oder
- Für jede Kategorie von Y ist die Verteilung von X gleich
- Kenne ich für eine Beobachtung die Kategorie von Y, so gibt mir das keine Information über die Kategorie von X

Welche Tests können verwendet werden, um die (Un)-Abhängigkeit von zwei Merkmalen zu messen?

X^2 Test
Mosaikdiagramme
- bei Unabhängigkeit zeigt sich eine ungefähr horizontale Linie

BILD

Wie wird eine Vierfelder-Korrelation Phi berechnet und wie können diese Ergebnisse interpretiert werden?

Kreuz-/Kontingenztabelle zeichnen fpr zwei oder mehrere Merkmale (Z. bsp. für Merkmal Y und X)
Merkmal bei Y und X vorhanden -> Häufigkeit “a”
Merkmal bei Y vorhanden, bei X nicht -> Häufigkeit “b”
Merkmal bei Y nicht vorhanden, bei X vorhanden -> Häufigkeit “c”
Merkmal bei Y und bei X NICHT vorhanden -> Häufigkeit “d”
Daraus Formel:
- Vierfelder Korrelation phi =
- [(a x d) - (b x c)] / Wurzel von [(a + b) x (a + c) x (d + b) x (d + c)]
Yule’s Q = [ad - bc] / [ad + bc]
Beide Massen liegen zwischen -1 und 1
Interpretation der Werte
- Phi
  - Wert über 0: Häufige Werte finden sich vorallem links oben (ja/ja) (a) oder rechts unten (nein/nein)(d) -> positiver Zusammenhang?
  - Wert unter 0: Häufige Werte finden sich vorallem rechts oben (b) oder links unten (c) -> negativer Zuammenhang?
  - Wert von 0: kein systematischer Zusammenhang
- NUR Yules Q:
  - 1 bzw. -1 = perfekter Zusammenhang

Welche R Formel braucht man, um einen Mosaikplot zu erstellen?

mosaicplot( ~ Kategorie_1, Kategorie2, Kategorie3, data = dat)

mosaicplot = formel
Kategorien -> Variablen, zwischen welchen (Un-)Abhängigkeit ermittelt werden soll
data -> Datenset, aus dem man die Daten entnimmt
braucht package vcd, je nachdem vorher noch library(“vcd”)

Wie erstellt man in R einen Barplot für eine Kreuztabelle?

Zuerst Kreuztabelle erstellen
- count <- table(x, y)
  - = Kreuztabelle für die Ermittlung der (Un-)Abhängigkeit zwischen x und y
Dann Barplot
- barplot(count, beside=TRUE, legend.text=c(“Variable1”,”Variable2”)
- barplot = Formel für Barplot
- beside=True -> Balken nebeneinander anstatt aufeinander
- legend.text=c -> Benennung des barplots

Mit welchen Formeln werden Yules Q und die Vierfelder-Korrelation phi in R berechnet?

Vierfelder-Korrelation
- install.packages(“psych”)
- library(”psych”)
- count <- table(x, y)
- count
Yules Q
- Yule()

Was ist der Nachteil der Vierfelder-Korrelation und wie kann dieser umgangen werden?

liefert bei ungleicher Verteilung (z. Bsp. wenn es deutlich mehr Frauen als Männer hat in der Verteilung) eher niedrige Werte, auch bei starkem Zusammenhang
Alternatives Mass für kategoriale Variablen, welches diesen Nachteil nicht hat: Yule’s Q

Wofür sind grafische Darstellungen von Variablen nützlich und welche verinfachte Darstellungsarten von Variablen gibt es?

Grafische Darstellung einer metrischen Variable ist häufig das beste Mittel, um einen Eindruck ihrer Verteilung zu gewinnen
In der Praxis werden Daten selten als Rohdaten dargestellt, sondern vereinfacht mit u.A. folgenden Methoden:
- Barplot
- Boxplot
- Histogramm
- Density Plot
- Violin Plot

Was ist/macht ein Barplot und welche Vor- und Nachteile weist er auf?

Starke vereinfachung der Vertilung
Darstellung von Mittelwert und Standardabweichung (Fehlerbalken)
Enthält nicht viel Information, wird selten gemacht (wirkt unprofessionell)

Was ist/macht ein Boxplot und wie kann in R ein Boxplot erstellt werden?

Graphische Darstellung mit
- Kasten aus 1. und 3. Quartil (2. und. 3. Viertel der Verteilung, d.h. von 25% bis 75%)
- Median (Schwarzer Strich, 50% darüber, 50% darunter)
- Whiskers -> von Minimum zum Maximum
- Ausreisser (weisse Punkte über Whiskers)
In R
- boxplot(x, main = , xlab, ylab)
  - xlab/ylab -> Benennung der beiden Achsen
  - main = Benennung des Diagramms
- boxpot(fbdaten$alter)
  - boxplot aus fbdaten für Alter

Was ist ein Histogramm? Wie kann man in R ein Histogramm erstellen?

Gibt die Verteilung in aneinandergereihten Balken an
- Breite der Rechtecke ist frei wählbar, hat grossen Einfluss auf die Darstellung
- Einteilung der Variablen in Bins, zählt aus, wie häufig Punkt in diesen Bins vorkommt
Ziel: Balance finden zwischen
- weder zu wenigen Balken -> wichtige Aspekte der Verteilung gehen verloren
- Noch zu viele Balken -> man verliert den Überblick
In R
- hist(datensatz$alter)
- hist(x, breaks = 10, main=” “, xlab=” “, ylab=” “)
  - x = Datensatz, zuvor festgelegt, z. Bsp. durch x <- data.set$alter
  - breaks = Einstellung der Bandbreite, d.h. wieviele Balke in Histogramm?
    - immer angegebene Zahl + 1
  - main = benennen des histogramms
  - xlab/ylab = Benennung der x-/y- Achsen

Wie können in R fehlende Werte aus einem Datensatz entfernt werden?

na.rm=TRUE (werte entferne) vs. na.rm=FALSE (Werte beibehalten)

Was ist ein Density Plot und wie kann er in R erstellt werden?

“Geglättetes” Histogramm
Versucht Verteilung in dieser Variable mit einer durchgehenden Funktion darzustellen
- In R
  - plot(density(x, bw, adjust = 0.7))
    - adjust = passt Bandbreite an
      - grosse Werte = bandbreite grösser
      - kleine Werte = Bandbreite kleiner
    - bw = Einstellung bez. Bandbreite, kann Zahlenwert oder Zeichencodes sein
  - plot(density(fbdaten$alter, na.rm=TRUE))

Was ist ein Violinplot?

Gespiegelter und gedrehter Densityplot + Rohwerte und Mittelwerte in Form von Punkten (Rohwerte) und Strichen (Mittelwerten)
ehrlicher als der Barplot

Wie unterscheiden sich Histogramme und Barplots?

Barplots = Kategoriale Variablen -> endliche Anzahl Kategorien, z. Bsp. Rote Kugeln, Blaue Kugeln, gelbe Kugeln
Histogramme = metrische Variablen
- (scheinbar) unendliche Anzahl Variablen/kontinuierlich
- werden in “bin” eingeteilt, z. Bsp. Menschen zwischen 0 und 20, 21 und 40, 41 und 60, 61 und 80 Jahren)

Welche Arten von Verteilungen gibt es bei (Density) plots?

Symmetrisch vs. asymmetrisch
- Auch: Schiefe
  - linkssteil/rechtsschief
    - steiler Anstieg bei tiefen Werten, flacherer abstieg bei hohen Werten
    - Sobald etwas Eintritt, steigt es rasant an, klingt dann aber mit mehr Zugabe davon langsam ab
      - z. Bsp. Stressoren <-> Depressivität
  - symmetrisch
    - gleichmässige Steigung An- und Abstieg
  - rechtssteil/linksschief
    - flacher Anstieg bei tiefen Werten, steiler Abstieg bei hohen Werten
      - d.h. Etwas steigt langsam an und sinkt dann abrupt wenn es zuviel wird
Flachgipflig vs. schmalgipflig
- Flachgipflig -> wie ein hügel
- normal
- Schmalgipflig -> plötzliche steile, dünne Spitze
Eingipflig vs. mehrgipflig
- eingipflig = unimodal, homogen
- mehrgipflig = multimodal, heterogen

Wieso sind Verteilungsvoraussetzungen wichtig?

Viele Tests unter Annahme entwickelt, dass Daten normalverteilt sind
Wenn diese Annahme verletzt ist, dann sind auch die Resultate der Tests verfälscht
Annahme der Normalverteilung z. Bsp. bei…
- t-Test für unabhängige Daten
- Signifikanzteste in Regressions- und Varianzanalysen
Konsequenz bei Nichtnormalität/Mange an Normalverteilung: p-Werte können nicht interpretiert werden
Daher wichtig, NV Annahmen zu testen!

Wie kann die Normalverteilungsannahme der Daten getestet werden?

Visuelle Darstellung, z. Bsp. mit Histogramm
Quantile-Quantile Plot
Inferenzstatistisch:
- Komolgrov-Smirnov-Test
- Shapiro-Wilk-Test

Wofür wird der Q-Q-Plot/Quantile-Quantile-Plot verwendet und wie funktioniert er?

Wird verwendet, um Verteilungsannahmen (z. Bsp. Annahme Normalverteilung) zu bestätigen oder wiederlegen
Quantile geben an, wie viel Prozent der Verteilung unter bestimmten Wert liegt
- z. Bsp. bei 5% Quantil liegen 5% der Werte darunter
- Unter 20% Quantil liegen 20% der Werte darunter
Man kann den Werten einer Stichprobe Quantile verteilen und diese mit den Quantilen der angenommenen Verteilung vergleichen (z. Bsp. Normalverteilung)
- d.h. plotten der Werte der beobachteten Quantile vs. Werte der erwarteten/entsprechenden Quantile
Dann wird Plott erstellt, bei dem
- auf Y-Achse Stichprobenquartile
- auf X-Achse erwartete Quartile
  - …eingetragen werden
Wenn sich die reelle und die erwartete Erwartung decken, dann sollte sich nun eine gerade, Diagonale Linie ergeben
Wenn stattdessen die beobachteten Werte von dieser Diagonale abweichen, handelt es sich nicht um die erwartete Verteilung
V.a. am Ende sieht man, ob Quantile der Verteilung folgen
Abweichung nach oben: WErte grösser als erwartet
Abweichung nach unten: Werte kleiner als erwartet

Was wird beim Komolgrov-Smirnov-Test gemacht und was sind die Nach- und Vorteile?

Testung von Normalverteilung -> Normalverteilung als Nullhypothese
- d.h. signifikanter p-Wert = Nullhypothese verwerfen -> Normalverteilung nicht gegeben
Testet, wieviele Werte in welchem Abschnitt der jeweils zu vergleichenden Verteilung liegen
- Unterschied klein: Verteilung gleich
- Unterschied gross: Verteilung unterschiedlich
Kann auch verwendet werden, um Verteilung einer Variable in zwei Gruppen zu vergleichen
Hat geringe Power, Nullhypothese oft beibehalten, obwohl sie falsch ist

Welche Formel kann in R verwendet werden, um einen Q-Q-Plot eines Datensatzes zu erstellen?

qqPlot(fbdaten$Statistik)
Benötigt car Paket
Hier qqPlot zu datensatz fbdaten, spezifisch davon Daten zu Statistik

Wie kann ein Komolgrov-Smirnov-Test in R berechnet werden?

ks.test(fbdaten$Statistik, y = “pnorm”, mean=mean(fbdaten$Statistik, na.rm=TRUE), sd=sd(fbdaten$Statistik, na.rm=TRUE))

ks.test = Test Name
Datensatz fbdaten, daraus Elemente Statistik
y = “pnorm” -> theoretische Verteilung muss hier festgesetzt werden, nicht automatisch -> festlegen auf Normalverteilung (“pnorm”)

Was passiert bei Shapiro-Wilk Test und was muss hier beachtet werden? Welcher r Test kann hierfür verwendet werden?

Dient dazu zu bestimmen, ob Normalverteilung gegeben ist
- ist spezifisch für Normalverteilung konzipiert
Vergleicht empirische Varianz der Daten mit Varianz, die bei Normalverteilung zu erwarten wäre
Wenn Unterschied zwischen zwei Varianzschätzungen klein, dann empirische Verteilung normalverteilt
Wieder Signifikanztes zur Prüfung der Nullhypothese, dass Datensatz Normalverteilt ist -> signifikanter Test weist darauf hin, dass Daten NICHT normalverteilt sind
hat tiefe Power
shapiro.test(fbdaten$Statistik)

Mit welchem Zeichen/Befehl kann man auf R testen, ob ein ungleich einem Vergleichwert ist?

Was macht der Pearson-Korrelationskoeffizient?

Prüft lineare Korrelation von zwei metrischen Variablen -> Prüft, wie gut zwei Variablen auf einer Geraden liegen
Basiert auf Formel der Kovarianz
- sxy = 1/(n-1) x Summe von (xi-x Mittelwert) x (yi x y Mittelwert)
  - Ergibt in Plot oben rechts und unten links positive Werte, oben rechts und unten links negative Werte -> je nach dem wo mehr Werte negative oder positive Korrelation resultat
Output Pearson-Korrelationskoeffizien
- r = 1 -> perfekte positive Beziehung
- r = -1 -> perfekte negative Beziehung
- r = 0 -> keine linearer Korrelation
  - Bei 0 kann Korrelation immernoch existieren, aber einfach nicht linear sein
  - Macht keine Aussage zur Steigung, sondern zur Streuung (wie stark Werte auf einer Gerade liegen oder davon streuen)

Welche Formeln gibt es in R für den Pearson Korrelationskoeffizienten?

cor(dat$weigth, dat$height, use = “na.or.complete”)
-> ergibt einen Korrelationswert, z. bsp. 0.8 (positive Korrelation, recht gerade Linie)
cor.test(dat$weight, dat$height)
- Prüft Korrelation auf statistische Signifikanz
  - H0: die zwei Variablen sind unabhängig voneinander und normalverteilt (d.h. bei signifikantem Wert Nullhypothese beibehalten, da dies auf Unabhängigkeit hinweist)
  - Ergibt p Output

Was macht die einfache lineare Regression?

Statistisches Modell, welches linearen Zusammenhang zwischen zwei Variablen annimmt

Welche verschiedene Namen für x und y gibt es?

x
- unabhängige Variable
- Einflussgrösse
- Prädiktor
- Kovariate
y
- abhängige Variable
- Zielgrösse
- Kriterium
- Response

Welche Annahmen müssen bei der Regressionsanalyse erfüllt sein? Wie können diese Annahmen geprüft werden?

Normalverteilte Fehler/Residuen (um Gerade herum) = nahe bei Gerade am meisten Residuen, weiter weg weniger
- QQ-Plot (soll einigermasse gerade Diagonale ergeben)
Linearer Zusammenhang (für lineare Regression)
Varianzhomogenität der Fehler/Residuen = Homoskedastizität (an jedem Punkt der Geraden Varianz der Fehler ähnlich, z. Bsp. nicht riesige Residuenwolke bei höherem X Wert als bei tiefem X Wert)
- Resiuden-Plot (soll einigermasse Gerade Linie geben)
Unabhängige, zufällige Fehler/Residuen

Wie rechnet man in R eine einfache Regressionsanalyse und was bedeutet der Output?

lm.hw <- lm(height~weight, data = dat)
ODER: lm.hw <- lm(dat$height~dat$weight)
- Weight dabei Prädiktor (x), Height Kriterium (y)
summary(lm.hw)

Output:
- (Intercept) Estimate: Gibt Wert von y bei x = 0 an
- zweite Zeile: Steigung von y, wenn x um 1 Steigt
- Pr(>ItI) = p-Wert, wenn kleiner als 0.05 dann Nullhypothese verwergen (Korrelation signifikant)
Zur Prüfung, ob die Annahmen eingehalten wurden, können basierend auf diesem Befehl noch QQ und Residuenplots generiert werden
- plot(lm.hw) -> gibt einem mehrere Plots zur Prüfung (QQ, Residuenplot) raus

Wie können mehrere metrische Variablen in einem Plot dargestellt werden?

Mit 3 Variablen: 3D plot
Mehr Variablen: z. Bsp. Pairs plot

Was ist ein Pairs-Plot und welche R Formel gibt es hierfür?

Bei Pairs Plot werden immer die Streudiagramme von zwei Variablen in einem Gitter gezeichnet
Beiden Hälften werden durch Diagonale getrennt, und Hälften sind identisch, einfach nur die y und x Achse verwechselt

Wie können die Korrelationen von mehreren metrischen Variablen ausgedrückt werden? Wie kann dies in R gemacht werden?

Korrelationskoeffizient = Abhängigkeit zwischen zwei Variablen
Korrelationstabelle = Abhängigkeit zwischen mehreren Variablen
cor(datensatz)
- Diagonal jede Variable mit sich selbst korreliert (immer 1.0000)
Korrelationstabellen testen: corr.test(datensatz)
- benötigt Packet “psych”

Welche erweiterte Version des Pairsplot existiert, wie kann sie in R erstellt werden und was beinhaltet sie?

ggplot basierte Version
- benötigt Packet ggplot2
- ggpairs()
Beinhaltet
- Histogramm der einzelnen Variablen
- Untere Hälfte: Korrelationen (+ Signifikanz berechnet)
- Obere Hälfte: Streudiagramme

Was versteht man unter “partieller Korrelation”? Wie kann dies in R implementiert werden?

Zwischen zwei Variablen kann es Scheinkorrelationen geben, wenn ihr Zusammenhang durch eine Drittvariable verursacht wird
Partielle Korrelationen drücken einen linearen Zusammenhang zwischen zwei Variablen aus, “bereinigt” vom Einfluss einer Drittvariable
In R:
- library(ppcor)
- Pcor(dataframe)

Wie unterscheiden sich die einfache und die multiple Regression?

Einfache Regression: linearer Zusammenhang zwischen zwei Variablen
- eine Zielvariable (y) wird durch eine Prädiktorvariable x vorhergesagt
Multiple Regression: Mehr als ein Prädiktor für eine Zielvariable
- Ergibt keine Regressionsgerade, sondern eine (multidimensionale) Regressionsebene

Wie kann eine multiple Regression in R berechnet werden und wie kann der Output interpretiert werden?

lm.mlt <- lm(y~ x1 + x2, data = dat)
summary(lm.mlt)

Output
- Interzept
- Steigung für X1
  - Um wieviel steigt Y, wenn X1 um 1 steigt und alles andere (z. Bsp. X2) konstant gehalten wird?
- Steigung für X2
- P Wert (bezieht sich auf H0 = bx = 0)
- RSquared und multiples R Squared
WICHTIG: Korrelation, KEINE Kausalität

Welche statistischen Formeln können verwendet werden, um zu bestimmen, wie gut das berechnete Modell zu den Daten passt?

F-Test
Bestimmtheitsmass R-squared
Standardschätzfehler (Streuung der Residuen)
AIC und BIC

Was ist und was macht das Bestimmtheitsmass R-squared? Welche Variante davon gibt es?

R^2 = Anteil der durch das Regressionsmodell erklärten Streuung an der Gesamtstreuung
- Reicht von 0 bis 1, wobei man einen Wert näher bei 1 anstrebt (1 = 100% der Streuung dur Regressionsmodell erklärt)
Alternative von R^2: Korrigiertes Bestimmtheitsmass/Adjusted R-squared
- R^2, wobei Stichprobenumfang und Anzahl der Prädiktoren berücksichtig werden (R^2 wird sonst artifiziell immer höher (= besser) bei komplexeren Modellen)

Was macht der F-Test? Was bedeuten hierbei die Outputs des F-Tests?

Modellvergleich, wobei das gefittete Modell mit dem Grundmodell (nur bestehend aus Interzept) verglichen wird
Frage, ob hinzugefügter Prädiktor Modell verbessert oder nicht (falls nicht, dann simpleres Modell beibehalten)
H0 = Simpleres Modell = komplexeres Modell = 0
Wenn signifikanter p Wert, dann komplexeres Modell besser als einfacheres -> hinzugefügter Prädiktor hilfreich, beibehalten

Wie werden in der multiplen Regression in R die Modellannahmen geprüft?

gleich wie bei einfacher Regression
qq und Residuenplot mit plot() Funktion prüfen

Was sind AIC und BIC? Wie können AIC und BIC in R implementiert werden?

Masse für die Beurteilung der Modellgüte (wie gut passt Modell zu Daten?)
Vergleich zwischen zwei Modellen (z. Bsp. Einfacheres und komplexeres)
Anzahl der Prädiktoren wird gegenüber Anpassungsgüter an Daten abgewogen
Je kleiner AIC und BIC, desto besser
R Formel: AIC(lm( y ~ x, data = dat))
- Geht sowohl für einfache als auch für multiple Regression
- Gleich für BIC (einfach BIC vorne)

Was macht der T-Test? Wann kann es hier zu Problemen kommen?

Prüft Nullhypothese, dass zwei Gruppen aus zwei (normalen) Verteilungen mit gleichem Mittelwert stammen
Bei grosser Streuung s und kleiem Stichprobenumfang N gibt es grosse zufällige Schwankungen der Mittelwertsdifferenzen

Welche Voraussetzungen müssen für den T-Test erfüllt sein? Wie kann dies etwas umgangen werden?

Intervallskalierte Variablen
Normalverteilung der Daten
- T-Test ist sehr robust, daher muss diese Annahme nicht so genau genommen werden
Variationen
- Student’s T-Test: gleiche Varianzen in beiden Gruppen angenommen
- Welch’s t-Test: gleiche Varianz in beiden Gruppennicht notwendig
  - Automatisch Welchs Test in R wenn nicht anders spezifisiert

Wie wird in R ein T-Test gemacht und was bedeutet der Output?

t.test(y ~ x, data = dat)
ODER
t.test(dat$y, dat$x)

Output

p-Wert: Wenn dieser signifikant (> 0.05) ist, dann unterscheidet sich der Mittelwert zwischen den zwei Gruppen signifikant (Unterschied zwischen Gruppen)
Gibt auch Konfidenzintervall an: dieser gibt Wahrscheinlichkeit an, dass Differenz auch in weiterer Population besteht (nicht auf diese Gruppe begrenzt)
Gibt Mittelwerte der beiden Gruppen an

Was ist der Wilcox-Test?

Nichtparametrische Alternative zum T-Test zum Vergleich von zwei Gruppen
- Nichtparametrisch: Verteilung nicht bekannt/nicht normal
Viel weniger strenge Voraussetzungen als T-Test
- ABER: Voraussetzung Ordinalskalierte Variablen
Vergleicht Rangplätze zwischen zwei Gruppen (v.s. Mittelwerte bei T-Test)
- Gibt es zwischen zwei Gruppen systematisch unterschiedliche (höhere/tiefere) Rangplätze
U-Verteilung: Verteilung zufälliger Rangplatzunterschiede

Sollte man lieber einen Wilcox oder einen T-Test verwenden?

T-Tets braucht Normalverteilung, wenn diese nicht gegeben/nicht bekannt -> Wilcox Test
Wenn möglich jedoch T-Test verwenden, da dieser höhere Power hat

Wie kann in R ein Wilcox Test berechnet werden?

wilcox.test(y~x, data = dat)
Output: p-Value (bei signifikantem p-Wert 0 Hypothese verwerfen)

Was sind unabhängige und abhängige Stichproben und wie hängt dies mit dem T-Test und dem Wilcox Test zusammen?

Unabhängige Stichprobe: Verschiedene Gruppen, bei denen Personen/Fälle nichts miteinander zu tun haben
Abhängige Stichprobe:
- Selbe Person zu verschiedenen Zeitpunkten oder in verschiedenen Bedingungen
- Verschiedene Gruppen, bei denen jeweils eine Person der Gruppe zu einer Person der anderen Gruppe gehört, z. Bsp. Paare, Eltern-Kind, Geschwister etc. (within-subject-design)
Für Mittelwertsvergleiche gibt es bei abhängigen Daten eigene T-Test bzw. Wilcox Tests

Welche Tests eigenen sich für 2 Gruppen vs. mehrere Gruppen, wenn man auch noch zwischen parametrisch und nichtparametrisch unterscheidet?

2 Gruppen — Nichtparametrisch
- Wilcoxon-Test
2 Gruppen — Parametrisch
- T-Test
Mehr als zwei Gruppen — Nichtparametrisch
- Kruskall-Wallis Test
Mehr als zwei Gruppen — Parametrisch
- Varianzanalyse ANOVA

Was ist der Kruskall-Wallis Test?

Gleiches Prinzip wie Wilcoxon Test, einfach für mehrere Gruppen
Dient dem Vergleich mehrere Gruppen
Frage: Gibt es zwischen den Gruppen systematisch unterschiedliche (höhere/niedrigere) Rangplätze?
Berechnet Prüfgrösse annähernd X2-verteilt
Voraussetzung: Ordinalskalierte Variable

Wie kann der Kruskall-Wallis Test in R implementiert werden?

kruskal.test(y ~ x, data = dat)
Output: gibt p-Wert an, d.h. wird klar, ob Gruppen sich voneinander unterscheiden, aber nicht WELCHE Gruppe sich voneinander unterscheidet!

Wann wird eine einfaktorielle ANOVA angewendet?

Y metrisch
x Kategorial (mehr als zwei Levels möglich)
ABER: Nur ein Faktor als Prädiktor
Beispiel: Hat der Bereich des abgeschnlossenen Studiums (i.e. Geisteswissenschaften, Naturwisschenschafte, Sonstiges -> Kategorial) einen Einfluss auf das spätere Einkommen (Y) (-> metrisch)?
Wobei H0: X hat keinen Einfluss auf Y
- Oder: Mittelwert der einzelnen Levels von X unterscheidet sich nicht systematisch

Was macht eine Einfaktorielle ANOVA?

Vergleicht Mittelwert des Nullmodells (alle Levels zusammen) mit vollem Modell (Modell, bei dem Levels aufgeteilt sind)
Wenn Streuung der vollen Modells viel kleiner ist, ist das volle Modell besser -> H0 verwerfen, signifikante Unterschiede
- Spricht für grösseren Anteil der wahren Varianz und dadurch Verminderung der Resiuden

Wie wird in R eine ANOVA berechnet und wie soll der Output interpretiert werden?

aov_Eink <- aov(Einkommen ~ Studiumstyp, data = dat)
Summary(aov_Eink)

Nullmodell angeben lassen (nicht nötig für ANOVA berechnung):
- aov(Einkommen~1, data = dat) -> Kein bzw. nur ein Prädiktor (Achsenabschnitt) = Modell, welches vollständig aus Residuen (unerklärte Fehlervarianz) besteht
Output
- Stuidiumstyp (bzw. X): Durch Studiumstyp erklärte Varianz/”Residuen”, wird auch in mean squared angegeben = durch Prädiktor neu erklärte “Wahre Varianz”
- Resiudals: “unerklärte” Residuen
- Pr(> F) = signifikanzniveau
- X + Residuals = Alle Residuen/ Residuen des Nullmodells

Welche Annahmen müssen für die Durchführung einer ANOVA erfüllt sein?

Abhängige Variable Y intervallskaliert (Varianzberechnung)
Varianzhomogenität: Gleiche Varianz pro Zelle/Gruppe
Normalverteilte REsiduen = normalverteilte Werte pro Zelle/Gruppe
Unabhängige Einzeldaten (d.h. keine gepaarten Stichproben, Within Subject Designs etc)
- F-Test -> Prüft, ob irgendwelche Gruppenunterschiede vorhanden sind (aber nicht welche Gruppenunterschiede)
- Alternative: ANOVA mit Messwiederholungen
Graphische Üperprüfung der Annahmen in R: plot(aov_Eink) (gleich wie bei Regression)

Wieso kann man nicht paarweise Vergleiche mit T-Tests durchfürhen, anstatt einen ANOVA durchzuführen?

Gefahr: multiples Testen:
- Signifikanz im normalfall auf 0.05/5% gesetzt -> 5% Chance, dass H0 möglich ist -> Bei 5% der durchgeführten Daten wird die H0 verworfen, obwohl sie eigentlich stimmen würde
- D.h. umso öfter man Daten prüft, desto höher Wahrscheinlichkeit, dass welche in diese 5% landen und somit ein falscher signifikanter Effekt gefunden wird
ABER: Multiples Testen nicht nur Problem von ANOVA

Was kann gegen die Gefahren von multiplen Testen gemacht werden?

Post-Hoc Korrekturen (verkleinern Signifikanzniveau)
- Bonferroni-Korrektur:
  - sehr konservativ
  - Signifikanzniveau Alpha wird durch Anzahl der Vergleiche geteilt (d.h. z. Bsp. bei 10 Vergleichen -> 0.05/10 -> signifikanz erst bei 0.005)
- Holm-Korrektur
  - weniger konservativ als Bonferroni
- Tukey HSD
  - potentiell konservative bei ungleichen Gruppengrössen

Wie wird die Tukey HDS Post-Hoc Korrektur in R bei einer ANOVA implementiert? Welchen Output ergibt dies?

Zuerst ANOVA durchführen
- aov_Eink <- aov(Einkommen ~ Studiumstyp, data = dat)
Dann Tukey HSD durchführen
- TukeyHSD(aov_Eink)

Output

Was macht eine zweifaktorielle ANOVA?

Kann mit zwei kategorialen Prädiktoren arbeiten (z. Bsp. Ausbildung und Nationalität)
y (metrisch) ~ X1 (kategorial) + X2 (kategorial)

Was ist eine Interaktion (im Zusammenhang mit zweifaktorieller ANOVA)?

Effekt eines Prädiktors hängt vom Wert des anderen Prädiktors ab

Wie werden in R bei einer zweifaktoriellen ANOVA eine Interaktion vs. zwei unabhängige Prädiktoren formuliert? Woran erkennt man, ob eine Interaktion modelliert wurde oder nicht?

Interaktion: aov(y ~ x1*x2, data = dat)
Keine Interaktion: aov(y~x1 + x2, data = dat)
Bei Modellvergleich ereben sich parallele Mittelwert linien, falls keine Interaktion modelliert wurde

Wie unterscheiden sich ANOVA und eine lineare Regression?

Unterscheiden sich NICHT darin, ob Prädiktor metrisch oder kategorial ist (würde bei beiden gleichen Output geben)
ABER: Unterschied in Nullhypothesen
- ANOVA: vergleich von Modellen -> wie gross ist Fehler/Residuenreduktion, ist sie signifikant?
- Lineare Regression: Wie gross ist die Steigung, ist sie signifikant?
  - ABER: bei Korrelation keine Aussage zu Steigung, nur dazu, inwiefern Punkte auf Gerade liengen

Was ist ein Fehler erster Art?

Nullhypothese wird verworfen, obwohl sie eigentlich in der Population stimmt (aber in Stichprobe war zufällig Effekt stark genug)

Welche 4 problematischen Forschungspraktiken existieren?

P-Hacking: So lange Nullhypothese testen, bis etwas signifikantes herauskommt
HARKING: “Hypothezizing after resultrs are known” -> Aufgrund von Ergebnissen erst Hypothese aufstellen un bestätigen -> exploratives Vorgehen wird konformistisch dargestellt
Optional Stopping: Daten werden erhoben, bis Nullhypothese verworfen werden kann, dann hört man auf Daten zu erheben
Outcome Switching: Viele abhängige Variablen messen, viele Nullhypothesen testen und dann nur solche berichten, die signifikant wurden

Was beinhaltet der Begriff Open Science?

Nutzung der Digitalisierung, um alle Bestanteile des wissenschaftlichen Prozesses offen zugänglich und nachnutzbar zu machen
Eröffnet Wissenschaft, Gesellschaft und Wirtschaft neue Möglichkeiten im Umgang mit wissenschaftlichen Erkenntnissen
Beinhaltet
- OPpen Educational Resources
- Open Access
- Open Peer Review
- Open Data
- Open Methodology
- Open Source

Was ist mit “Open Data” im Zusammenhang mit Open Science gemeint?

Daten die frei genutzt, frei weiterverwendet & frei weitergegeben werden könne
Vollständig und möglichst über das Internet verfügbar
Zugriff kann dabei nicht eingeschränkt sein

Was ist mit “Open Source” im Zusammenhang mit Open Science gemeint?

Quellcode der Software
- offen zugänglich
- darf für eigene Zwecke genutzt & Verändert werde
Software darf in ursprünglicher und veränderter Form
- weitergegeben werden
- dabei aber Ursprung kenntlich machen
- Hilfreich: Versionierung im Historie

Was ist mit “Open Methodology” im Zusammenhang mit Open Science gemeint?

Gesamte Dikumentation des Forschungsprozesses
Grundlagen
- Offene Lizenzen
- Offene WErkzeuge
- Offene Plattformen
Zweck
- Transparenter Forschungsprozesse
- Anregung zur aktiven Teilnahme
Beinhaltet u.a.
- Abspeichern R- uns SPSS-Syntax
- Kann Teil der Präregistrierung einer Studie sein (Hypothese, Stichprobe, Variablen)

Was geschieht bei der Präregistrierung durch Journale und inwiefern ist dies hilfreich?

Man muss Journal eine Einleitung und die Methodologie detailiert darbieten
Danach Peer-Review Analyse
Wenn Journal studie gut findet, dann wird veröffentlichung versprochen, selbst bei nicht-signifikanten Ergebnissen -> nimmt Druck weg

Was muss man im Sinne von Open Science bei R abspeichern und veröffentlichen, um die R Analyse prüfbar zu machen?

Rpohdaten der Analyse
verwendete Befehle
Version der verwendeten R-Basissoftware
Versionsnummer der verwendeten R-Pakete

Was is SPSS?

Stand urprünglich für Statistical Package for the Social Sciences
kommerziell (nicht kostenlos, ausser für UZH)
menübasiert, Syntax möglich
Oft in praktischer Arbeit verwendet
Nicht so mächtig wie R

Welche Fenster hat SPSS?

Data Editor:
- Variabelansicht (Eigenschaften von Variablen)
- Datenansicht (Daten eingeben und Werte ändern)
Output Viewer: enthält Ausgaben der Funktionen
Syntax Editor: Erlaubt die Eingabe von Befehlen (aber KEINE Programmiersprache)

Wie unterscheiden sich R-Studio und SPSS?

Unterschiedliche Abläufe führen zu unterschiedlichen Methoden wie man Ergebnisse von Berechnungen abspeichert
Für R
- Man arbeitet mit Objekten
- Funktionen, welche auf diese Objekte angewendet werden, produzieren erneut Objekte
- Objekte können direkt abgespeichert werden
- Alternativ kann man Daten und Syntax abspeichern, mit der Berechnung durchgeführt wurde
- .RData
Für SPSS
- Abspeichern der Datendatei (.sav) und Syntax mit der Ergebnisse erzeugt wurden (.sps)
  -> Erneutes Ausführen erzeugt nochmals die Ergebnisse
- Direktes Abspeichern von Output von SPSS (.spv-Datei)
- Output kann auch in anderes Dateiformat exportier werden (z. Bsp .doc für Word)
- .sav
- ABER: bedient man SPSS nur über grafische Eingabeoberfläche, ist Vorgehen nicht reporiduzierbar

Join Course

Preview

Author

12DayFIsh

Information

Last changed
2 years ago

Report course

RGD

Author

12DayFIsh

Information