Welche sind die Merkmale von R/R Studio und SPSS?
R:
freie Software
syntaxbasiert (Anweisungen tippen)
SPSS
Kommerziell
graphische Oberfläche mit Menüs (Syntax möglich)
Was ist R und was ist R Studio?
R: frei verfügbare, open-source Programmierumgebung
Besteht aus einer Konsole zum eintippen von Befehlen
“objektorientirete” Programmiersprach (Daten, Funktionen & Ergebnisse haben Namen)
ca. 2000 in einem Forschungsumfeld entwickelt worden
ausgeleg, Analysen einfach zu verketten
im Einstig anspruchsvoll, erlaubt aber schnellen Fortschritt
Kann von CRAN heruntergeladenwerden
R Studio: graphische Oberfläche, welche Arbeit mit R erleichtern soll
in Basisversion gratis (sonst keine freie Software)
ausgelegt, um verschiedene Aspekte der Arbeit von R zu integrieren (Programmieren, Texte schreiben, Online-Apps, Webseiten)
Wie benennt man etwas in R? Bsp. man möcht einen Vektor “Sblob” erstellen, der Wert 17 hat
sblob <- 17
Wie erschafft man in R einen einfachen Vektor namens Sblob mit den Werten 2, 8 und 9? Wofür stehen die einzelnen Bestandteile? Was würde geschehen, wenn man dann sblob + 1 rechnen würde?
sblob <- c(2, 8, 9)
c = combine
bei sblob + 1 würde zu jedem Wert des Vektors 1 addiert werden -> sblob = (3, 9, 10)
Wie erhält man die ersten 10 Zeilen eines Datensatzes, z. Bsp. Datensatz sblob?
head(sblob, 10)
head = Anfang
sblob = Datensatz
10 = Anzahl Zeilen
alternative
sblob[1:10, ]
Wie kann man sich in R die Daten eines gesammten Datensatzes anzeigen lassen (z. Bsp. des Datensatzes sblob)?
view(sblob)
Wie kann man in R ein Packet herunterladen und dann laden (z. Bsp. Paket sblob)? Auf was ist hier zu achten?
Paket herunterladen: install.packages(“sblob”)
Paket laden: load(sblob)
-> beim Herunterladen Anführungszeichen um Packet, beim laden keine Anführungszeichen mehr
Wie sehen Datentabellen in R aus?
Spalten (->) sind Variablen (z. Bsp. alter, Intelligenzquotient etc.)
Zeilen (^) sind Personen/Fälle
gleiche Person kann auch in mehreren Zeilen vorkommen, z. Bsp. bei Messwiederholungen
Wie kann in R addiert, multipliziert und geteilt werden?
Addieren: 1 + 1
multiplizieren: 1 * 1
teilen: 1/1
das : Zeichen hat eine andere Bedeutung (Zahlen bis)
Was sind Vektoren und wie können Vektoren in R aussehen?
Vektoren = Aneinanderkettung von mehreren Werten, mit c (combine) erschaffen
Zahlenvektoren: vec1 <- c(20, 28, 39(
Vektoren mit kategorialen Variablen:
vec2 <- c(“Kategorie1”, “Kategorie2”, “Kategorie3”)
eignen sich, um nicht-numerische Variablen zu speichern
Was sind Data frames und wie werden sie erstellt?
Tabellen in R, welche häufig als Format für Datensätze verwendet werden
Spalten in einem Data Frame sind Vektoren
data frame estellen
zuerst einzelne Vektoren benennen:
vec1 <- c(2, 3, 4, 8)
vec2 <- c(“gut”, “mittel”, “schlecht”, “gut”)
vec3 <- c(0.4, 0.8, 0.9, 1.4)
danach einen Dataframe (hier mit Namen “dat”) daraus machen
dat <- data.frame(vec1, vec2, vec3)
-> ergibt dann Tabelle, wobei in Zeilen 1, 2, 3, 4 und in Spalten Werte von vec1, vec2, vec3 angegeben werden
z. Bsp. bei Zeile 1 2 (unter vec1), gut (unter vec2), 0.3 (unter vec3)
Wie kann man in R auf einzelne Elemente eines Datensatzes zugreifen (wenn man einen Vektor vec1 mit (2, 6, 7, 9) hat)? Wie kann man einzelne Elemente eines Vektors ersetzen?
vec1 -> ganzer Vektor anzeigen
Auf bestimmtes Element in Spalte zugreifen:
vec1[2] -> 6
Element ersetzen
vec1[2] <- 100
jetzt zweites Element nicht mehr 6, sondern 100
Wie kann man mehrere Elemente in einem Vektor auswählen (Beispielsvektor: vec1 <- c(2, 100, 7, 9))?
vec1[c(2, 4)]
auf zweites und viertes Element zugreifen
ergibt 100 9
Alternative: neuen Vektor mit den Werten erschaffen
s <- c(2, 4)
vec1[s]
Wie kann man auf ganze Spalten in Dataframes zugreifen? Wie kann dies weiter genutzt werden, um auf einzelne Elemente auf Spalten zuzugreifen
dat$vec1
auf vec1 von Datensatz dat zugreifen
dat$vec1[1]
Auf erstes Element von vec1 aus Datensatz dat
Welche Möglichkeiten gibt es, auf ein bestimmtes Element aus einem Datensatz zuzugreifen?
dat[2, 3]
auf zweite Zeile, dritte Spalte von Datensatz dat zugreifen
wenn links freigelassen wird: nur numerisch angegebene Zeile (ganz) wird angezeigt
dat[2, ]
alle Vektoren von Person 2 werden angezeigt
wenn rechts freigelassen wird: nur numerisch angegebene Spalte (ganz) wird angezeigt
dat[ ,3]
ganzer Vektor 3 von allen Personen wird angezeigt
Auf erstes Element von vec1 aus Datensatz dat zugreifen
vec1[2]
zweites Element von vec1
Wie kann man sich mehrere Zeilen und Spalten eines Dataframes anzeigen lassen?
Positionen wiederum als Vektoren übergeben
Bsp. alle Elemente von Datensatz dat in der zweiten un vierten Zeile von der Zweiten und dritten Spalte (Werte von Person 2 und 4 für Elemente 2 und 3)
dat[c(2, 4), c(2, 3)]
wieder zuerst Zeilen (Personen), danach Spalten (Elemente/Variablen)
Was sind logicals? Wie erstellt man einen Vektor mit logicals? Welche Outputs gibt es hier?
wichtiger Datentyp von R
können nur Werte “wahr” (TRUE) und “falsch” (FALSE) annehmen
Vektor erstellen
Lvec <- c(FALSE, TRUE, FALSE, TRUE)
man kann so R auch Fragen stellen, z.Bsp.
Eingabe: 3 > 5
Output R: FALSE (da 3 nicht grösser als 5 ist)
Oder 4 == 4 (ist 4 das gleiche wie 4 (wichtig: doppeltes Gleichheitszeichen)
Output: TRUE
logicals können auch Werten aus anderem Vektor zugeteilt werden, müssen aber dafür gleich lang sein
alter <- c(22, 34, 19, 18)
alter[c(FALSE, FALSE, TRUE, TRUE)]
dann z. Bsp. eingabe alter < 20 (alter kleiner als 20)
Output: 19 18
gleicher Output: alter[which(alter < 20)]
Position der wahren Werte ermitteln:
which(alter < 20)
Output: 3 4
Wie können Elemente mit logicals ausgewählt werden?
bei Datensatz dat
dat[c(FALSE, FALSE, TRUE, TRUE), ]
nur True wird angezeigt
dat[dat$vec1 > 6, ]
rechts leer, deshalb alle Spalten
alle Zeitel von vec1, welche grösser als 6 sind (in allen Spalten)
Wie sollen Datensätze/Vektoren in R (nicht) benannt werden?
möglich
gross/kleinbuchstaben
Zahlen
Punkte (oder Unterstirche)
am besten möglichst kurze aber eindeutige Namen (damit man schnell erkennt, was dargestellt wird)
nicht möglich
Zahlen an Anfang von Namen (in Mitte oder am Schluss ok)
Sonderzeiche (z. Bsp. @)
keine Namen, die in R statistische Funktionen sind
z. Bsp. mean (aber my_mean ok), $ Zeichen (egal wo)
Wie kann in R ein Vektor zu den Körpergrössen in cm von 6 Probanden erschafft werden?
groesse <- c( 180, 172, 177, 162, 168)
werden automatisch dann Probandennummern zugeteilt, also Person 1 = 180 etc.
Wie kann man einen Plot aus dem Datensatz dat erstellen mit auf der x Achse vec1 und auf der y Achse vec2?
plot(dat$vec1, dat$vec2)
erste Eingabe immer x Achse, zweite Eingabe y Achse
Was sind Text-files im Zusammenhang mit R? Welche sind die Vor- und Nachteile von Text-files und mit welcher Beschreibung werden diese in in R eingelesen?
Datenformat, welches in R eingelesen werden kann
Textfiles am einfachsten
Vorteile
Von praktisch jedem Programm lesbar
Nachteile
Nur Variablen und Werte werden abgespeichert
Einlesen in R:
read.csv(“filename.csv”)
Welche programmspezifische Datenformate gibt es, welche Vor- und Nachteile haben sie und wie werden sie bei R eingelesen?
Programmspezifische Datenformate
R: .RData -> kann mehrere R Objekte enthalten, kann aber nur für R gebraucht werdne
SPSS: .sav
Viele Features + Zusatzinformationen abgespeichert
Schlecht austauschbar zwischen Programmen
Rdata file einlesen
load(“filename.rdata”)
Was ist das Working Directory in R und welche Befehle gibt es hierzu?
R arbeitet immer in Bezug auf bestimmten Ordner auf Computer (= Working Directory)
Sofern nichts spezfisch angegeben wird, sucht R im WD nach Files zum einlesen und speichert die Files dort ab -> Files zum einlesen sollte man im Working Directory platzieren
Befehle
Sich working directory ansehen
getwd()
Working Directory setzen
setwd()
ODER: “Session” -> “Set working directory” -> Ordner auswählen
Welche Schritte werden bei der Vorverarbeitung von Daten gemacht?
Eindruck von Datensatz gewinnen mit folgenden Befehlen
summary() -> rechnet für alle Spalten wichtigsten Deskriptiven Grössen (Min., Max., Streuung etc.)
view() = zeigt Datensatz an wie ExcelTabelle
head() = ziegt erste paar Daten des Datensatzes
str() = Inhaltliche Informationen über Daten, z. Bsp. wieviele Zeilen und Spalten
Fehlende Werte richtig codieren
Fehlerhafte Werte identifizieren und korrigieren (z. Bsp. Alter von 290 Jahre -> wharscheinlich 29)
Variablen verändern/neue Variablen erstellen
Z. Bsp. m in cm umwandeln etc.
Wie kann man in R fehlerhafte Werte finden? Was muss hier noch beachtet werden bezüglich fehlenden Werten?
Grafische Darstellung von Daten, z. Bsp. Boxplot
Deskriptive Statistiken anschauen
mean() = Mittelwert
z. Bsp. mean(dat$alter) -> Durchschnittalter aus Datensatz dat
max() / min()
var() = Varianz
sd() = Standardabweichung
WICHTIG: immer Vektor angeben, von dem man diese Statistik berechnet haben will (z. Bsp. hier Vektor “alter” aus Datesatz “dat”)
BEACHTEN: um mit fehlenden Werten richtig zu rechnen, na.rm=TRUE anfügen
mean(dat$alter, na.rm=TRUE)
Wann muss man Items invertieren und welche Möglichkeiten gibt es, um Items zu invertieren?
In Psychologie häufig invertierte Items, z. Bsp. gleiche Charakteristik wird so gefragt, dass einmal eine hohe Punktzahl = hohe Ausprägung, einmal hohe Punktzahl = tiefe Ausprägung, z. Bsp. bei Befragung niedergeschlagenheit
“Ich war in der letzten Woche häufig traurig”
“Ich war in der letzen Woche hääufig heiter” (invertieren für Niedergeschlagenheitwerte)
Möglichkeiten, um Werte zu Invertieren
Manuelles umkodieren -> Kategorien einzeln vertauschen
1 - -> 5
2 - -> 4
etc
Mit Formel umrechnen
Werte vom Max. und Minimum der Skala abziehen
Daten_invertiert <- 5 + 1 - Datenname (wenn 5 Max un 1 min)
Xinv = Xmax - Xmin - X
Wie kann in einem Dataframe eine neue Spalte (z. Bsp. “Alter”) erschaffen werden?
Mit $ Zeichen
Wenn
dat = bestehender Datensatz/Dataframe
Item1 und Item 2 bestehende Spalten, aus deren Addition sich neu zu erschaffende Spalte ergibt
Dann
dat$neuespalte <- dat$item1 + dat$item2
$ zum Hinzufügen neuer Spalte
danach Name neue Spalte
Was kann zu R-Paketen gesagt werden? Wer erstellt diese?
R unter anderem so beliebt, weil zehntausende R-Pakete/Funktionen für alle möglichen Aufgabenbereiche per Mausklick frei zugänglich sind
R-Pakete werden von R-Anwenderinnen erschaffen und betreut
Jede:r R-Anwender:in kann selbts Pakete schreiben und veröffentlichen oder zu vorhandenen Paketenhinzufügen
Was kann zur Installation von R-Paketen gesagt werden? Welche Befehle gibt es hierzu?
Neues Paket muss zuerst installiert werden
install.packages(“packagename”)
Installation muss nur einmal gemacht werden
Hingegen muss Paket bei jeder Session neu geladen werden
library(packagename)
Wie werden kategoriale Variablen in R auch genannt und wie werden sie gespeichert?
Auch als factor abgespeichert
sollten nicht als Zahlen abgespeichert werden
Factor speichert…
Namen der verschiedenen Kategorien
Welche Kategorien überhaupt möglich sind
Erschaffen eines Faktors in R
dat$Maturaland <- factor(dat$Maturaland, levels=c(1,2,3,4,), labels=c(“Schweiz”, “Oersterreich”, “Deutschland”, ”anderswo”))
auch levels = 1:4 möglich
jedem Level eine Kategorie zugeteilt
Wie können kategoriale Variablen in R grafisch dargestellt werden?
Säulendiagramme
barplot(table(dat$Geschlecht))
Kreisdiagramme
pie(table(dat$Geschlecht))
Häufigkeitstabelle (für Modalwert)
table(dat$Geschlcht)
Wie kann ein statistischer Test zur Abweichung von der beobachteten vs. erwarteten Häufigkeit in R gemacht werden und wie heisst dieser Test? Welcher unterschiede ergibt sich hier bei einer vs. zwei kategorialen Variablen?
X2-Test, z. Bsp. bei Erwartung gleichverteilung
chisq.test(tabelle.geschlecht)
chist.test(tabelle_Geschlecht, p = wahrsch)
p = wahrsch: z. Bsp. 0.5
chisq.test(dat$Wunschbereich, dat$Geschlecht)$observed
vergleich von “gewünschten” Daten (erwartete Häufigkeit fe) mit echten Daten (beobachteter Häufigkeit fb)
Wenn nur Test eingegeben wird und nicths anderes, dann ist die Nullhypothese, dass beide Variablen (fb und fe) unabhängig voneinander sind
P Wert: wie wahrscheinlich, solche Daten zu bekommen, wenn Nullhypothese (= kein Effekt) gilt? -> umso kleiner, desto besser, bei p < 0.05 Nullhypothese verwerfen (heisst NICHT zwingend, dass es einen Effekt gibt)
Bei einer kat. Variable
Prüfung der Unabhängigkeit
Bei zwei kat. Variablen
Prüfung der Häufigkeit
X2 Test NUR für kategoriale Variablen
Was wird beim Chi^2 Test gemacht?
Prüfung der (Un-) Abhängigkeit zweier Variablen
Vergleichen zwischen
beobachtete Häufigkeit: fb
erwarteter Häufigkeit fe (entspricht fe)
Berechnete X2-Prüfgrösse
[(f1b-f1e)^2]/ f1e + [(f2b-f2e)^2]/f2e + […]
Problem: bei kleinen Häufigkeiten (fe < 5) ist Prüfgrösse nicht genau X2 verteilt, X2 Test daher ungenau
Wie funktioniert ein statistischer Test?
Man überlegt sich, wie beobachteten Resultate zustandekommen könnten
erstellen einer Nullhypothese H0 (Kein Effekt vorhanden bzw. entspricht der eigenen Hypothese, weicht nicht signifikant davon ab)
Gegenüberstellung einer Alternativhypothese H1 (Nullhypothese GILT NICHT) (-> Effekt vorhanden)
Vergleichen der Daten mit Nullhypothese -> wie plausibel ist Nullhypothese basierend auf diesen Daten?
Ausrechnen der Plausibilität = p Wert
Wenn p-Wert sehr klein, dann muss die Nullhypothese verworfen werden -> Alternativhypothese akzeptieren
p < 0.05 = Wahrscheinlichkeit, dass Resultate ein Zufall sind sehr klein -> Nullhypothese verwerfen
Kleine p Werte gegen Nullhypothese, da in etwa die Wahrscheinlichkeit eines Zufallsereignisses sinkt
ABER: nicht-signifikanter P-Wert beweist nicht Nullhypothese! (sagt nur, dass beobachteten Resultate unter ihr nicht unwahrscheinlich sind)
kann auch sein, dass sie nur leicht falsch ist oder dass man zu wenig Daten hat
Was ist der Fisher-Test? Wie wird er in R berechnet?
Statistischer Test
X2-Test ist nicht genaue Berechnung, sondern Annäherung
Fisher-Test Alternative zu X2 Test
bei kleinen Häufigkeiten (fe < 5) ist Prüfgrösse nicht genau X2-verteilt und X2-Test daher ungenau -> Fisher-Test verwenden
Fisher Test
exakter Test
Prüft empirische Verteilung von Kategorien-Kombinatoinen gegen alle theoretisch möglichen Verteilungen (rechenaufwendig)
Fisher test Formel
fisher.test()
fisher.test(count)
count = Kreuztabelle
Was ist Unabhängigkeit?
Bedingte
relative
Häufigkeit von X
ist für jede Kategorie von Y gleich
Oder
Für jede Kategorie von Y ist die Verteilung von X gleich
Kenne ich für eine Beobachtung die Kategorie von Y, so gibt mir das keine Information über die Kategorie von X
Welche Tests können verwendet werden, um die (Un)-Abhängigkeit von zwei Merkmalen zu messen?
X^2 Test
Mosaikdiagramme
bei Unabhängigkeit zeigt sich eine ungefähr horizontale Linie
BILD
Wie wird eine Vierfelder-Korrelation Phi berechnet und wie können diese Ergebnisse interpretiert werden?
Kreuz-/Kontingenztabelle zeichnen fpr zwei oder mehrere Merkmale (Z. bsp. für Merkmal Y und X)
Merkmal bei Y und X vorhanden -> Häufigkeit “a”
Merkmal bei Y vorhanden, bei X nicht -> Häufigkeit “b”
Merkmal bei Y nicht vorhanden, bei X vorhanden -> Häufigkeit “c”
Merkmal bei Y und bei X NICHT vorhanden -> Häufigkeit “d”
Daraus Formel:
Vierfelder Korrelation phi =
[(a x d) - (b x c)] / Wurzel von [(a + b) x (a + c) x (d + b) x (d + c)]
Yule’s Q = [ad - bc] / [ad + bc]
Beide Massen liegen zwischen -1 und 1
Interpretation der Werte
Phi
Wert über 0: Häufige Werte finden sich vorallem links oben (ja/ja) (a) oder rechts unten (nein/nein)(d) -> positiver Zusammenhang?
Wert unter 0: Häufige Werte finden sich vorallem rechts oben (b) oder links unten (c) -> negativer Zuammenhang?
Wert von 0: kein systematischer Zusammenhang
NUR Yules Q:
1 bzw. -1 = perfekter Zusammenhang
Welche R Formel braucht man, um einen Mosaikplot zu erstellen?
mosaicplot( ~ Kategorie_1, Kategorie2, Kategorie3, data = dat)
mosaicplot = formel
Kategorien -> Variablen, zwischen welchen (Un-)Abhängigkeit ermittelt werden soll
data -> Datenset, aus dem man die Daten entnimmt
braucht package vcd, je nachdem vorher noch library(“vcd”)
Wie erstellt man in R einen Barplot für eine Kreuztabelle?
Zuerst Kreuztabelle erstellen
count <- table(x, y)
= Kreuztabelle für die Ermittlung der (Un-)Abhängigkeit zwischen x und y
Dann Barplot
barplot(count, beside=TRUE, legend.text=c(“Variable1”,”Variable2”)
barplot = Formel für Barplot
beside=True -> Balken nebeneinander anstatt aufeinander
legend.text=c -> Benennung des barplots
Mit welchen Formeln werden Yules Q und die Vierfelder-Korrelation phi in R berechnet?
Vierfelder-Korrelation
install.packages(“psych”)
library(”psych”)
count
Yules Q
Yule()
Was ist der Nachteil der Vierfelder-Korrelation und wie kann dieser umgangen werden?
liefert bei ungleicher Verteilung (z. Bsp. wenn es deutlich mehr Frauen als Männer hat in der Verteilung) eher niedrige Werte, auch bei starkem Zusammenhang
Alternatives Mass für kategoriale Variablen, welches diesen Nachteil nicht hat: Yule’s Q
Wofür sind grafische Darstellungen von Variablen nützlich und welche verinfachte Darstellungsarten von Variablen gibt es?
Grafische Darstellung einer metrischen Variable ist häufig das beste Mittel, um einen Eindruck ihrer Verteilung zu gewinnen
In der Praxis werden Daten selten als Rohdaten dargestellt, sondern vereinfacht mit u.A. folgenden Methoden:
Barplot
Boxplot
Histogramm
Density Plot
Violin Plot
Was ist/macht ein Barplot und welche Vor- und Nachteile weist er auf?
Starke vereinfachung der Vertilung
Darstellung von Mittelwert und Standardabweichung (Fehlerbalken)
Enthält nicht viel Information, wird selten gemacht (wirkt unprofessionell)
Was ist/macht ein Boxplot und wie kann in R ein Boxplot erstellt werden?
Graphische Darstellung mit
Kasten aus 1. und 3. Quartil (2. und. 3. Viertel der Verteilung, d.h. von 25% bis 75%)
Median (Schwarzer Strich, 50% darüber, 50% darunter)
Whiskers -> von Minimum zum Maximum
Ausreisser (weisse Punkte über Whiskers)
In R
boxplot(x, main = , xlab, ylab)
xlab/ylab -> Benennung der beiden Achsen
main = Benennung des Diagramms
boxpot(fbdaten$alter)
boxplot aus fbdaten für Alter
Was ist ein Histogramm? Wie kann man in R ein Histogramm erstellen?
Gibt die Verteilung in aneinandergereihten Balken an
Breite der Rechtecke ist frei wählbar, hat grossen Einfluss auf die Darstellung
Einteilung der Variablen in Bins, zählt aus, wie häufig Punkt in diesen Bins vorkommt
Ziel: Balance finden zwischen
weder zu wenigen Balken -> wichtige Aspekte der Verteilung gehen verloren
Noch zu viele Balken -> man verliert den Überblick
hist(datensatz$alter)
hist(x, breaks = 10, main=” “, xlab=” “, ylab=” “)
x = Datensatz, zuvor festgelegt, z. Bsp. durch x <- data.set$alter
breaks = Einstellung der Bandbreite, d.h. wieviele Balke in Histogramm?
immer angegebene Zahl + 1
main = benennen des histogramms
xlab/ylab = Benennung der x-/y- Achsen
Wie können in R fehlende Werte aus einem Datensatz entfernt werden?
na.rm=TRUE (werte entferne) vs. na.rm=FALSE (Werte beibehalten)
Was ist ein Density Plot und wie kann er in R erstellt werden?
“Geglättetes” Histogramm
Versucht Verteilung in dieser Variable mit einer durchgehenden Funktion darzustellen
plot(density(x, bw, adjust = 0.7))
adjust = passt Bandbreite an
grosse Werte = bandbreite grösser
kleine Werte = Bandbreite kleiner
bw = Einstellung bez. Bandbreite, kann Zahlenwert oder Zeichencodes sein
plot(density(fbdaten$alter, na.rm=TRUE))
Was ist ein Violinplot?
Gespiegelter und gedrehter Densityplot + Rohwerte und Mittelwerte in Form von Punkten (Rohwerte) und Strichen (Mittelwerten)
ehrlicher als der Barplot
Wie unterscheiden sich Histogramme und Barplots?
Barplots = Kategoriale Variablen -> endliche Anzahl Kategorien, z. Bsp. Rote Kugeln, Blaue Kugeln, gelbe Kugeln
Histogramme = metrische Variablen
(scheinbar) unendliche Anzahl Variablen/kontinuierlich
werden in “bin” eingeteilt, z. Bsp. Menschen zwischen 0 und 20, 21 und 40, 41 und 60, 61 und 80 Jahren)
Welche Arten von Verteilungen gibt es bei (Density) plots?
Symmetrisch vs. asymmetrisch
Auch: Schiefe
linkssteil/rechtsschief
steiler Anstieg bei tiefen Werten, flacherer abstieg bei hohen Werten
Sobald etwas Eintritt, steigt es rasant an, klingt dann aber mit mehr Zugabe davon langsam ab
z. Bsp. Stressoren <-> Depressivität
symmetrisch
gleichmässige Steigung An- und Abstieg
rechtssteil/linksschief
flacher Anstieg bei tiefen Werten, steiler Abstieg bei hohen Werten
d.h. Etwas steigt langsam an und sinkt dann abrupt wenn es zuviel wird
Flachgipflig vs. schmalgipflig
Flachgipflig -> wie ein hügel
normal
Schmalgipflig -> plötzliche steile, dünne Spitze
Eingipflig vs. mehrgipflig
eingipflig = unimodal, homogen
mehrgipflig = multimodal, heterogen
Wieso sind Verteilungsvoraussetzungen wichtig?
Viele Tests unter Annahme entwickelt, dass Daten normalverteilt sind
Wenn diese Annahme verletzt ist, dann sind auch die Resultate der Tests verfälscht
Annahme der Normalverteilung z. Bsp. bei…
t-Test für unabhängige Daten
Signifikanzteste in Regressions- und Varianzanalysen
Konsequenz bei Nichtnormalität/Mange an Normalverteilung: p-Werte können nicht interpretiert werden
Daher wichtig, NV Annahmen zu testen!
Wie kann die Normalverteilungsannahme der Daten getestet werden?
Visuelle Darstellung, z. Bsp. mit Histogramm
Quantile-Quantile Plot
Inferenzstatistisch:
Komolgrov-Smirnov-Test
Shapiro-Wilk-Test
Wofür wird der Q-Q-Plot/Quantile-Quantile-Plot verwendet und wie funktioniert er?
Wird verwendet, um Verteilungsannahmen (z. Bsp. Annahme Normalverteilung) zu bestätigen oder wiederlegen
Quantile geben an, wie viel Prozent der Verteilung unter bestimmten Wert liegt
z. Bsp. bei 5% Quantil liegen 5% der Werte darunter
Unter 20% Quantil liegen 20% der Werte darunter
Man kann den Werten einer Stichprobe Quantile verteilen und diese mit den Quantilen der angenommenen Verteilung vergleichen (z. Bsp. Normalverteilung)
d.h. plotten der Werte der beobachteten Quantile vs. Werte der erwarteten/entsprechenden Quantile
Dann wird Plott erstellt, bei dem
auf Y-Achse Stichprobenquartile
auf X-Achse erwartete Quartile
…eingetragen werden
Wenn sich die reelle und die erwartete Erwartung decken, dann sollte sich nun eine gerade, Diagonale Linie ergeben
Wenn stattdessen die beobachteten Werte von dieser Diagonale abweichen, handelt es sich nicht um die erwartete Verteilung
V.a. am Ende sieht man, ob Quantile der Verteilung folgen
Abweichung nach oben: WErte grösser als erwartet
Abweichung nach unten: Werte kleiner als erwartet
Was wird beim Komolgrov-Smirnov-Test gemacht und was sind die Nach- und Vorteile?
Testung von Normalverteilung -> Normalverteilung als Nullhypothese
d.h. signifikanter p-Wert = Nullhypothese verwerfen -> Normalverteilung nicht gegeben
Testet, wieviele Werte in welchem Abschnitt der jeweils zu vergleichenden Verteilung liegen
Unterschied klein: Verteilung gleich
Unterschied gross: Verteilung unterschiedlich
Kann auch verwendet werden, um Verteilung einer Variable in zwei Gruppen zu vergleichen
Hat geringe Power, Nullhypothese oft beibehalten, obwohl sie falsch ist
Welche Formel kann in R verwendet werden, um einen Q-Q-Plot eines Datensatzes zu erstellen?
qqPlot(fbdaten$Statistik)
Benötigt car Paket
Hier qqPlot zu datensatz fbdaten, spezifisch davon Daten zu Statistik
Wie kann ein Komolgrov-Smirnov-Test in R berechnet werden?
ks.test(fbdaten$Statistik, y = “pnorm”, mean=mean(fbdaten$Statistik, na.rm=TRUE), sd=sd(fbdaten$Statistik, na.rm=TRUE))
ks.test = Test Name
Datensatz fbdaten, daraus Elemente Statistik
y = “pnorm” -> theoretische Verteilung muss hier festgesetzt werden, nicht automatisch -> festlegen auf Normalverteilung (“pnorm”)
Was passiert bei Shapiro-Wilk Test und was muss hier beachtet werden? Welcher r Test kann hierfür verwendet werden?
Dient dazu zu bestimmen, ob Normalverteilung gegeben ist
ist spezifisch für Normalverteilung konzipiert
Vergleicht empirische Varianz der Daten mit Varianz, die bei Normalverteilung zu erwarten wäre
Wenn Unterschied zwischen zwei Varianzschätzungen klein, dann empirische Verteilung normalverteilt
Wieder Signifikanztes zur Prüfung der Nullhypothese, dass Datensatz Normalverteilt ist -> signifikanter Test weist darauf hin, dass Daten NICHT normalverteilt sind
hat tiefe Power
shapiro.test(fbdaten$Statistik)
Mit welchem Zeichen/Befehl kann man auf R testen, ob ein ungleich einem Vergleichwert ist?
!=
Was macht der Pearson-Korrelationskoeffizient?
Prüft lineare Korrelation von zwei metrischen Variablen -> Prüft, wie gut zwei Variablen auf einer Geraden liegen
Basiert auf Formel der Kovarianz
sxy = 1/(n-1) x Summe von (xi-x Mittelwert) x (yi x y Mittelwert)
Ergibt in Plot oben rechts und unten links positive Werte, oben rechts und unten links negative Werte -> je nach dem wo mehr Werte negative oder positive Korrelation resultat
Output Pearson-Korrelationskoeffizien
r = 1 -> perfekte positive Beziehung
r = -1 -> perfekte negative Beziehung
r = 0 -> keine linearer Korrelation
Bei 0 kann Korrelation immernoch existieren, aber einfach nicht linear sein
Macht keine Aussage zur Steigung, sondern zur Streuung (wie stark Werte auf einer Gerade liegen oder davon streuen)
Welche Formeln gibt es in R für den Pearson Korrelationskoeffizienten?
cor(dat$weigth, dat$height, use = “na.or.complete”)
-> ergibt einen Korrelationswert, z. bsp. 0.8 (positive Korrelation, recht gerade Linie)
cor.test(dat$weight, dat$height)
Prüft Korrelation auf statistische Signifikanz
H0: die zwei Variablen sind unabhängig voneinander und normalverteilt (d.h. bei signifikantem Wert Nullhypothese beibehalten, da dies auf Unabhängigkeit hinweist)
Ergibt p Output
Was macht die einfache lineare Regression?
Statistisches Modell, welches linearen Zusammenhang zwischen zwei Variablen annimmt
Welche verschiedene Namen für x und y gibt es?
x
unabhängige Variable
Einflussgrösse
Prädiktor
Kovariate
y
abhängige Variable
Zielgrösse
Kriterium
Response
Welche Annahmen müssen bei der Regressionsanalyse erfüllt sein? Wie können diese Annahmen geprüft werden?
Normalverteilte Fehler/Residuen (um Gerade herum) = nahe bei Gerade am meisten Residuen, weiter weg weniger
QQ-Plot (soll einigermasse gerade Diagonale ergeben)
Linearer Zusammenhang (für lineare Regression)
Varianzhomogenität der Fehler/Residuen = Homoskedastizität (an jedem Punkt der Geraden Varianz der Fehler ähnlich, z. Bsp. nicht riesige Residuenwolke bei höherem X Wert als bei tiefem X Wert)
Resiuden-Plot (soll einigermasse Gerade Linie geben)
Unabhängige, zufällige Fehler/Residuen
Wie rechnet man in R eine einfache Regressionsanalyse und was bedeutet der Output?
lm.hw <- lm(height~weight, data = dat)
ODER: lm.hw <- lm(dat$height~dat$weight)
Weight dabei Prädiktor (x), Height Kriterium (y)
summary(lm.hw)
Output:
(Intercept) Estimate: Gibt Wert von y bei x = 0 an
zweite Zeile: Steigung von y, wenn x um 1 Steigt
Pr(>ItI) = p-Wert, wenn kleiner als 0.05 dann Nullhypothese verwergen (Korrelation signifikant)
Zur Prüfung, ob die Annahmen eingehalten wurden, können basierend auf diesem Befehl noch QQ und Residuenplots generiert werden
plot(lm.hw) -> gibt einem mehrere Plots zur Prüfung (QQ, Residuenplot) raus
Wie können mehrere metrische Variablen in einem Plot dargestellt werden?
Mit 3 Variablen: 3D plot
Mehr Variablen: z. Bsp. Pairs plot
Was ist ein Pairs-Plot und welche R Formel gibt es hierfür?
Bei Pairs Plot werden immer die Streudiagramme von zwei Variablen in einem Gitter gezeichnet
Beiden Hälften werden durch Diagonale getrennt, und Hälften sind identisch, einfach nur die y und x Achse verwechselt
Wie können die Korrelationen von mehreren metrischen Variablen ausgedrückt werden? Wie kann dies in R gemacht werden?
Korrelationskoeffizient = Abhängigkeit zwischen zwei Variablen
Korrelationstabelle = Abhängigkeit zwischen mehreren Variablen
cor(datensatz)
Diagonal jede Variable mit sich selbst korreliert (immer 1.0000)
Korrelationstabellen testen: corr.test(datensatz)
benötigt Packet “psych”
Welche erweiterte Version des Pairsplot existiert, wie kann sie in R erstellt werden und was beinhaltet sie?
ggplot basierte Version
benötigt Packet ggplot2
ggpairs()
Beinhaltet
Histogramm der einzelnen Variablen
Untere Hälfte: Korrelationen (+ Signifikanz berechnet)
Obere Hälfte: Streudiagramme
Was versteht man unter “partieller Korrelation”? Wie kann dies in R implementiert werden?
Zwischen zwei Variablen kann es Scheinkorrelationen geben, wenn ihr Zusammenhang durch eine Drittvariable verursacht wird
Partielle Korrelationen drücken einen linearen Zusammenhang zwischen zwei Variablen aus, “bereinigt” vom Einfluss einer Drittvariable
In R:
library(ppcor)
Pcor(dataframe)
Wie unterscheiden sich die einfache und die multiple Regression?
Einfache Regression: linearer Zusammenhang zwischen zwei Variablen
eine Zielvariable (y) wird durch eine Prädiktorvariable x vorhergesagt
Multiple Regression: Mehr als ein Prädiktor für eine Zielvariable
Ergibt keine Regressionsgerade, sondern eine (multidimensionale) Regressionsebene
Wie kann eine multiple Regression in R berechnet werden und wie kann der Output interpretiert werden?
lm.mlt <- lm(y~ x1 + x2, data = dat)
summary(lm.mlt)
Output
Interzept
Steigung für X1
Um wieviel steigt Y, wenn X1 um 1 steigt und alles andere (z. Bsp. X2) konstant gehalten wird?
Steigung für X2
P Wert (bezieht sich auf H0 = bx = 0)
RSquared und multiples R Squared
WICHTIG: Korrelation, KEINE Kausalität
Welche statistischen Formeln können verwendet werden, um zu bestimmen, wie gut das berechnete Modell zu den Daten passt?
F-Test
Bestimmtheitsmass R-squared
Standardschätzfehler (Streuung der Residuen)
AIC und BIC
Was ist und was macht das Bestimmtheitsmass R-squared? Welche Variante davon gibt es?
R^2 = Anteil der durch das Regressionsmodell erklärten Streuung an der Gesamtstreuung
Reicht von 0 bis 1, wobei man einen Wert näher bei 1 anstrebt (1 = 100% der Streuung dur Regressionsmodell erklärt)
Alternative von R^2: Korrigiertes Bestimmtheitsmass/Adjusted R-squared
R^2, wobei Stichprobenumfang und Anzahl der Prädiktoren berücksichtig werden (R^2 wird sonst artifiziell immer höher (= besser) bei komplexeren Modellen)
Was macht der F-Test? Was bedeuten hierbei die Outputs des F-Tests?
Modellvergleich, wobei das gefittete Modell mit dem Grundmodell (nur bestehend aus Interzept) verglichen wird
Frage, ob hinzugefügter Prädiktor Modell verbessert oder nicht (falls nicht, dann simpleres Modell beibehalten)
H0 = Simpleres Modell = komplexeres Modell = 0
Wenn signifikanter p Wert, dann komplexeres Modell besser als einfacheres -> hinzugefügter Prädiktor hilfreich, beibehalten
Wie werden in der multiplen Regression in R die Modellannahmen geprüft?
gleich wie bei einfacher Regression
qq und Residuenplot mit plot() Funktion prüfen
Was sind AIC und BIC? Wie können AIC und BIC in R implementiert werden?
Masse für die Beurteilung der Modellgüte (wie gut passt Modell zu Daten?)
Vergleich zwischen zwei Modellen (z. Bsp. Einfacheres und komplexeres)
Anzahl der Prädiktoren wird gegenüber Anpassungsgüter an Daten abgewogen
Je kleiner AIC und BIC, desto besser
R Formel: AIC(lm( y ~ x, data = dat))
Geht sowohl für einfache als auch für multiple Regression
Gleich für BIC (einfach BIC vorne)
Was macht der T-Test? Wann kann es hier zu Problemen kommen?
Prüft Nullhypothese, dass zwei Gruppen aus zwei (normalen) Verteilungen mit gleichem Mittelwert stammen
Bei grosser Streuung s und kleiem Stichprobenumfang N gibt es grosse zufällige Schwankungen der Mittelwertsdifferenzen
Welche Voraussetzungen müssen für den T-Test erfüllt sein? Wie kann dies etwas umgangen werden?
Intervallskalierte Variablen
Normalverteilung der Daten
T-Test ist sehr robust, daher muss diese Annahme nicht so genau genommen werden
Variationen
Student’s T-Test: gleiche Varianzen in beiden Gruppen angenommen
Welch’s t-Test: gleiche Varianz in beiden Gruppennicht notwendig
Automatisch Welchs Test in R wenn nicht anders spezifisiert
Wie wird in R ein T-Test gemacht und was bedeutet der Output?
t.test(y ~ x, data = dat)
ODER
t.test(dat$y, dat$x)
p-Wert: Wenn dieser signifikant (> 0.05) ist, dann unterscheidet sich der Mittelwert zwischen den zwei Gruppen signifikant (Unterschied zwischen Gruppen)
Gibt auch Konfidenzintervall an: dieser gibt Wahrscheinlichkeit an, dass Differenz auch in weiterer Population besteht (nicht auf diese Gruppe begrenzt)
Gibt Mittelwerte der beiden Gruppen an
Was ist der Wilcox-Test?
Nichtparametrische Alternative zum T-Test zum Vergleich von zwei Gruppen
Nichtparametrisch: Verteilung nicht bekannt/nicht normal
Viel weniger strenge Voraussetzungen als T-Test
ABER: Voraussetzung Ordinalskalierte Variablen
Vergleicht Rangplätze zwischen zwei Gruppen (v.s. Mittelwerte bei T-Test)
Gibt es zwischen zwei Gruppen systematisch unterschiedliche (höhere/tiefere) Rangplätze
U-Verteilung: Verteilung zufälliger Rangplatzunterschiede
Sollte man lieber einen Wilcox oder einen T-Test verwenden?
T-Tets braucht Normalverteilung, wenn diese nicht gegeben/nicht bekannt -> Wilcox Test
Wenn möglich jedoch T-Test verwenden, da dieser höhere Power hat
Wie kann in R ein Wilcox Test berechnet werden?
wilcox.test(y~x, data = dat)
Output: p-Value (bei signifikantem p-Wert 0 Hypothese verwerfen)
Was sind unabhängige und abhängige Stichproben und wie hängt dies mit dem T-Test und dem Wilcox Test zusammen?
Unabhängige Stichprobe: Verschiedene Gruppen, bei denen Personen/Fälle nichts miteinander zu tun haben
Abhängige Stichprobe:
Selbe Person zu verschiedenen Zeitpunkten oder in verschiedenen Bedingungen
Verschiedene Gruppen, bei denen jeweils eine Person der Gruppe zu einer Person der anderen Gruppe gehört, z. Bsp. Paare, Eltern-Kind, Geschwister etc. (within-subject-design)
Für Mittelwertsvergleiche gibt es bei abhängigen Daten eigene T-Test bzw. Wilcox Tests
Welche Tests eigenen sich für 2 Gruppen vs. mehrere Gruppen, wenn man auch noch zwischen parametrisch und nichtparametrisch unterscheidet?
2 Gruppen — Nichtparametrisch
Wilcoxon-Test
2 Gruppen — Parametrisch
T-Test
Mehr als zwei Gruppen — Nichtparametrisch
Kruskall-Wallis Test
Mehr als zwei Gruppen — Parametrisch
Varianzanalyse ANOVA
Was ist der Kruskall-Wallis Test?
Gleiches Prinzip wie Wilcoxon Test, einfach für mehrere Gruppen
Dient dem Vergleich mehrere Gruppen
Frage: Gibt es zwischen den Gruppen systematisch unterschiedliche (höhere/niedrigere) Rangplätze?
Berechnet Prüfgrösse annähernd X2-verteilt
Voraussetzung: Ordinalskalierte Variable
Wie kann der Kruskall-Wallis Test in R implementiert werden?
kruskal.test(y ~ x, data = dat)
Output: gibt p-Wert an, d.h. wird klar, ob Gruppen sich voneinander unterscheiden, aber nicht WELCHE Gruppe sich voneinander unterscheidet!
Wann wird eine einfaktorielle ANOVA angewendet?
Y metrisch
x Kategorial (mehr als zwei Levels möglich)
ABER: Nur ein Faktor als Prädiktor
Beispiel: Hat der Bereich des abgeschnlossenen Studiums (i.e. Geisteswissenschaften, Naturwisschenschafte, Sonstiges -> Kategorial) einen Einfluss auf das spätere Einkommen (Y) (-> metrisch)?
Wobei H0: X hat keinen Einfluss auf Y
Oder: Mittelwert der einzelnen Levels von X unterscheidet sich nicht systematisch
Was macht eine Einfaktorielle ANOVA?
Vergleicht Mittelwert des Nullmodells (alle Levels zusammen) mit vollem Modell (Modell, bei dem Levels aufgeteilt sind)
Wenn Streuung der vollen Modells viel kleiner ist, ist das volle Modell besser -> H0 verwerfen, signifikante Unterschiede
Spricht für grösseren Anteil der wahren Varianz und dadurch Verminderung der Resiuden
Wie wird in R eine ANOVA berechnet und wie soll der Output interpretiert werden?
aov_Eink <- aov(Einkommen ~ Studiumstyp, data = dat)
Summary(aov_Eink)
Nullmodell angeben lassen (nicht nötig für ANOVA berechnung):
aov(Einkommen~1, data = dat) -> Kein bzw. nur ein Prädiktor (Achsenabschnitt) = Modell, welches vollständig aus Residuen (unerklärte Fehlervarianz) besteht
Stuidiumstyp (bzw. X): Durch Studiumstyp erklärte Varianz/”Residuen”, wird auch in mean squared angegeben = durch Prädiktor neu erklärte “Wahre Varianz”
Resiudals: “unerklärte” Residuen
Pr(> F) = signifikanzniveau
X + Residuals = Alle Residuen/ Residuen des Nullmodells
Welche Annahmen müssen für die Durchführung einer ANOVA erfüllt sein?
Abhängige Variable Y intervallskaliert (Varianzberechnung)
Varianzhomogenität: Gleiche Varianz pro Zelle/Gruppe
Normalverteilte REsiduen = normalverteilte Werte pro Zelle/Gruppe
Unabhängige Einzeldaten (d.h. keine gepaarten Stichproben, Within Subject Designs etc)
F-Test -> Prüft, ob irgendwelche Gruppenunterschiede vorhanden sind (aber nicht welche Gruppenunterschiede)
Alternative: ANOVA mit Messwiederholungen
Graphische Üperprüfung der Annahmen in R: plot(aov_Eink) (gleich wie bei Regression)
Wieso kann man nicht paarweise Vergleiche mit T-Tests durchfürhen, anstatt einen ANOVA durchzuführen?
Gefahr: multiples Testen:
Signifikanz im normalfall auf 0.05/5% gesetzt -> 5% Chance, dass H0 möglich ist -> Bei 5% der durchgeführten Daten wird die H0 verworfen, obwohl sie eigentlich stimmen würde
D.h. umso öfter man Daten prüft, desto höher Wahrscheinlichkeit, dass welche in diese 5% landen und somit ein falscher signifikanter Effekt gefunden wird
ABER: Multiples Testen nicht nur Problem von ANOVA
Was kann gegen die Gefahren von multiplen Testen gemacht werden?
Post-Hoc Korrekturen (verkleinern Signifikanzniveau)
Bonferroni-Korrektur:
sehr konservativ
Signifikanzniveau Alpha wird durch Anzahl der Vergleiche geteilt (d.h. z. Bsp. bei 10 Vergleichen -> 0.05/10 -> signifikanz erst bei 0.005)
Holm-Korrektur
weniger konservativ als Bonferroni
Tukey HSD
potentiell konservative bei ungleichen Gruppengrössen
Wie wird die Tukey HDS Post-Hoc Korrektur in R bei einer ANOVA implementiert? Welchen Output ergibt dies?
Zuerst ANOVA durchführen
Dann Tukey HSD durchführen
TukeyHSD(aov_Eink)
Was macht eine zweifaktorielle ANOVA?
Kann mit zwei kategorialen Prädiktoren arbeiten (z. Bsp. Ausbildung und Nationalität)
y (metrisch) ~ X1 (kategorial) + X2 (kategorial)
Was ist eine Interaktion (im Zusammenhang mit zweifaktorieller ANOVA)?
Effekt eines Prädiktors hängt vom Wert des anderen Prädiktors ab
Wie werden in R bei einer zweifaktoriellen ANOVA eine Interaktion vs. zwei unabhängige Prädiktoren formuliert? Woran erkennt man, ob eine Interaktion modelliert wurde oder nicht?
Interaktion: aov(y ~ x1*x2, data = dat)
Keine Interaktion: aov(y~x1 + x2, data = dat)
Bei Modellvergleich ereben sich parallele Mittelwert linien, falls keine Interaktion modelliert wurde
Wie unterscheiden sich ANOVA und eine lineare Regression?
Unterscheiden sich NICHT darin, ob Prädiktor metrisch oder kategorial ist (würde bei beiden gleichen Output geben)
ABER: Unterschied in Nullhypothesen
ANOVA: vergleich von Modellen -> wie gross ist Fehler/Residuenreduktion, ist sie signifikant?
Lineare Regression: Wie gross ist die Steigung, ist sie signifikant?
ABER: bei Korrelation keine Aussage zu Steigung, nur dazu, inwiefern Punkte auf Gerade liengen
Was ist ein Fehler erster Art?
Nullhypothese wird verworfen, obwohl sie eigentlich in der Population stimmt (aber in Stichprobe war zufällig Effekt stark genug)
Welche 4 problematischen Forschungspraktiken existieren?
P-Hacking: So lange Nullhypothese testen, bis etwas signifikantes herauskommt
HARKING: “Hypothezizing after resultrs are known” -> Aufgrund von Ergebnissen erst Hypothese aufstellen un bestätigen -> exploratives Vorgehen wird konformistisch dargestellt
Optional Stopping: Daten werden erhoben, bis Nullhypothese verworfen werden kann, dann hört man auf Daten zu erheben
Outcome Switching: Viele abhängige Variablen messen, viele Nullhypothesen testen und dann nur solche berichten, die signifikant wurden
Was beinhaltet der Begriff Open Science?
Nutzung der Digitalisierung, um alle Bestanteile des wissenschaftlichen Prozesses offen zugänglich und nachnutzbar zu machen
Eröffnet Wissenschaft, Gesellschaft und Wirtschaft neue Möglichkeiten im Umgang mit wissenschaftlichen Erkenntnissen
OPpen Educational Resources
Open Access
Open Peer Review
Open Data
Open Methodology
Open Source
Was ist mit “Open Data” im Zusammenhang mit Open Science gemeint?
Daten die frei genutzt, frei weiterverwendet & frei weitergegeben werden könne
Vollständig und möglichst über das Internet verfügbar
Zugriff kann dabei nicht eingeschränkt sein
Was ist mit “Open Source” im Zusammenhang mit Open Science gemeint?
Quellcode der Software
offen zugänglich
darf für eigene Zwecke genutzt & Verändert werde
Software darf in ursprünglicher und veränderter Form
weitergegeben werden
dabei aber Ursprung kenntlich machen
Hilfreich: Versionierung im Historie
Was ist mit “Open Methodology” im Zusammenhang mit Open Science gemeint?
Gesamte Dikumentation des Forschungsprozesses
Grundlagen
Offene Lizenzen
Offene WErkzeuge
Offene Plattformen
Zweck
Transparenter Forschungsprozesse
Anregung zur aktiven Teilnahme
Beinhaltet u.a.
Abspeichern R- uns SPSS-Syntax
Kann Teil der Präregistrierung einer Studie sein (Hypothese, Stichprobe, Variablen)
Was geschieht bei der Präregistrierung durch Journale und inwiefern ist dies hilfreich?
Man muss Journal eine Einleitung und die Methodologie detailiert darbieten
Danach Peer-Review Analyse
Wenn Journal studie gut findet, dann wird veröffentlichung versprochen, selbst bei nicht-signifikanten Ergebnissen -> nimmt Druck weg
Was muss man im Sinne von Open Science bei R abspeichern und veröffentlichen, um die R Analyse prüfbar zu machen?
Rpohdaten der Analyse
verwendete Befehle
Version der verwendeten R-Basissoftware
Versionsnummer der verwendeten R-Pakete
Was is SPSS?
Stand urprünglich für Statistical Package for the Social Sciences
kommerziell (nicht kostenlos, ausser für UZH)
menübasiert, Syntax möglich
Oft in praktischer Arbeit verwendet
Nicht so mächtig wie R
Welche Fenster hat SPSS?
Data Editor:
Variabelansicht (Eigenschaften von Variablen)
Datenansicht (Daten eingeben und Werte ändern)
Output Viewer: enthält Ausgaben der Funktionen
Syntax Editor: Erlaubt die Eingabe von Befehlen (aber KEINE Programmiersprache)
Wie unterscheiden sich R-Studio und SPSS?
Unterschiedliche Abläufe führen zu unterschiedlichen Methoden wie man Ergebnisse von Berechnungen abspeichert
Für R
Man arbeitet mit Objekten
Funktionen, welche auf diese Objekte angewendet werden, produzieren erneut Objekte
Objekte können direkt abgespeichert werden
Alternativ kann man Daten und Syntax abspeichern, mit der Berechnung durchgeführt wurde
.RData
Für SPSS
Abspeichern der Datendatei (.sav) und Syntax mit der Ergebnisse erzeugt wurden (.sps)
-> Erneutes Ausführen erzeugt nochmals die Ergebnisse
Direktes Abspeichern von Output von SPSS (.spv-Datei)
Output kann auch in anderes Dateiformat exportier werden (z. Bsp .doc für Word)
.sav
ABER: bedient man SPSS nur über grafische Eingabeoberfläche, ist Vorgehen nicht reporiduzierbar
Zuletzt geändertvor einem Jahr