Der Mittelwert einer Stichprobe beschreibt…
Der Median einer Stichprobe beschreibt…
Ein statistisches Maß ist “robust”, wenn es…
Berechne den Median folgender Stichprobe
4, 2, 2, 6, 6, 1, 5, 0, 3, 2, 3, 6, 5, 4, 1
3
Berechne die Varianz folgender Stichprobe auf 3 Nachkommastellen genau
3.97, 4.22, 4.37, 3.41, 5.12, 4.07, 4.13, 4.10, 2.39, 4.62, 4.91, 3.62, 2.48, 4.18, 2.55
0,713
Berechne den Standardfehler des Mittelwerts für den folgenden Datensatz (auf 2 Nachkommastellen genau)!
20.8, 18.3, 23.7, 27.2, 24, 24.4, 18.9, 24.1, 20.2, 26.3, 20.9, 15.8, 18.8
0.95
Welche Aussage ist falsch?
Welche der Aussagen ist falsch?
Welche der Aussagen zur Verteilung einer kontinuierlichen Zufallsvariablen ist falsch?
Grundlage der maximum likelihood Methode ist die Berechnung der likelihood für eine beliebige Funktion, für gegebene Verteilungsparameter.
Berechne die likelihood (Wahrscheinlichkeitsdichte) des Wertes 3 in einer Poisson-Verteilung mit lambda = 4 auf 3 Kommastellen genau.
0.195
Berechne die likelihood (Wahrscheinlichkeitsdichte) des Wertes 1.2 in einer Standardnormalverteilung (also mit Mittelwert = 0 und Standardabweichung = 1) auf 3 Nachkommastellen ge-
nau.
0.194
Welche der Aussagen zur Normalverteilung ist falsch?
Der Kolmogorov-Smirnov-Test (in R: ks.test) vergleicht zwei kumulative Verteilungen. Führe diesen Test für folgende Daten und die Normalverteilung durch und gib als Antwort den D-Wert an (auf 2 Nachkommastellen genau)!
(13.8, 11.1, 15.6, 18.2, 13.1, 14.1, 9.1, 15.2, 13.1, 9.9, 18.2, 9.5, 15)
(Hinweis: Mittelwert und Standardabweichung berechnet der ks.test NICHT selbst.)
0.14
Bei der log-likelihood werden die Wahrscheinlichkeitsdichten logarithmiert und summiert. Was ist die log-likelihood der Werte (
) unter einer Bernoulliverteilung mit p=0.3?
(Hinweis: In R ist die Bernoulli-Verteilung als Binomialverteilung mit size=1 verfügbar!) Bitte auf 1 Kommastelle genau an-geben.
-6.6
Bei der beta-Verteilung (in R: dbeta) gibt es nur Werte zwischen 0 und 1. Wie "wahrscheinlich" ist es, dass ich mit shape1=shape2=0.2 die Werte (0.25, 0.1, 0.4, 0.2, 0.3) messe?
Gefragt ist hier nach dem Produkt der Wahrscheinlichkeitsdichten! Bitte auf 3 Nachkommastellen genau angeben.
0.015
Wieso sind formale Tests auf Normalverteilung (Kolmogorov-Smirnov, Shapiro-Wilk, Anderson-Darling etc) irgendwie unbefriedigend?
Verteilungen: Welche Aussage ist falsch?
Verteilungen, Parameter und Schätzer.
Was waren das noch für Zeiten, als man einen Zusammenhang zwischen Geschlecht und Rauchen gefunden hat! Jetzt sind die Beispiele viel zu konstruiert um schön zu sein:
In der 1., 2. und 3. Bundesliga der Männer gibt es zusammen 14 Mannschaften, die ein Tier oder eine Pflanze im Wappen, im Namen oder als Spitznamen führen (etwa der FC Aue: die Veilchen). Sind die wohl bei den weiblichen Fans beliebter?
weiblich, Ökosymbol: 1308
weiblich, kein Ökosymbol: 1252
männlich, Ökosymbol: 384030
männlich, kein Ökosymbol: 397299
(Um diese Werte in R zu visualisieren bietet sich der Mosaikplot an:
mosaicplot(matrix(c(1308, 1252, 384030, 397299), 2,2))
Nicht, dass ich glaube, dass diese Abbildung besonders informativ ist: es gibt halt deutlich mehr registrierte männliche
Fußballfans als weibliche.)
Teste dies mittels des X2-Test, sodann mit dem Fisher's Exact-Test.
In der Badischen Zeitung liest Du, dass die Städte in den USA deutlich gewalttätiger sind als das flache Land. Lade den in R mitgelieferten Datensatz USArrests (mittels data(USArrests)) und untersuche diese Behauptung. Korreliere dafür Assault
(Körperverletzung pro 100000 Einwohner) und UrbanPop (%) und lass Dir die Signifikanz dieses Tests angeben.
Gib den Signifikanzwert von Kendalls tau auf 3 Nachkommastellen genau an.
Berechne die Stärke der Korrelation zwischen "Kain" und "Abel".
Kain <- c(12.13, 18.75, 5.29, 7.6, 16.15, 19.56, 19.16, 15.25, 10.19, 1.29, 12.87, 18.32, 1.9, 5.91, 15.4, 5.12, 10.36, 13.56, 2.94, 14.01) Abel <- c(17.92, -4.85, 16.45, 10.55, 1.81, 0.01, 8.93, 0.48, 9.42, 24.34, 11.17, -5.31, 23.46, 7.09, 6.71, 7.38, 10.55, 19.65, 20.42, 4.59) Gib den Mittelwert der drei Korrelationskoeffizienten für Pearson, Spearman und Kendall auf 3 Nachkommastellen genau an.
-0.692
Im Gegensatz zur Korrelation beschreibt eine Regression
Welche Aussage über die Regression ist richtig?
Welche Aussage ist korrekt? Bei einer Regression ...
The Smiths, eine depressive britische Rockband der 80 und 90, sang "some girl's mothers are bigger than other girl's mo-thers" (im Lied "Some girls are bigger than others" auf der LP (!) "The Queen is Dead").
Der Datensatz "women" vergleicht Gewicht (in pounds, abgekürzt "Ib") und Größe (in Zoll, abgekürzt "in") von 15 Amerikanerinnen (vor Jahrzehnten).
Eine typische deutsche Frau ist heute 175 cm = 175/2.54 = 68.9 Zoll groß. Wie schwer wäre sie als Amerikanerin, bitte umgerechnet in kg auf eine Nachkommastelle genau? (1 kg sind 2.2 lb.)(Hinweis. Der Datensatz heißt women und wird mit
"data(women)" geladen.)
68.3 kg
Auch Fische atmen, nur eben unter Wasser. Hier wurde erfasst, wieviel Sauerstoff sie über die Zeit verbrauchen. Neben diesen 6 Datenpunkten gibt es noch den Wert (6, 18).
Bitte berechne die Steigung einer Geraden durch diese 7 Datenpunkte und gib diese auf 2 Nachkommastellen genau an.
Hinweis: Die Daten heißen BOD und werden durch "data(BOD)" geladen. Den neuen Datenpunkt hängen wir an durch:
BOD2 <- rbind(BOD, c(6,18))
"demand" gibt den Sauerstoffverbrauch an, "Time" die Zeit.
1.660
Folgender Datensatz wurde aus einer Poisson-Verteilung mit variablem lambda gezogen:
x <- 1:20
y <- c(0, 1, 3, 1, 5, 2, 4, 2, 2, 2, 5, 1, 3, 6, 6, 6, 4, 6, 9, 7)
Bestimme die Steigung der Geraden auf der link-Skala auf 3 Nachkommastellen genau!
0.088
Nach dem besonders langen Winter 2001 wurde auf vielen Seen Zentraleuropas ein Massensterben von Reiherenten beobachtet. Hier ein Ausschnitt dieses Datensatzes, in dem Seeoberfläche (in ha) und Massensterben (ja/nein) aufgeführt sind. Beim plot sieht man, dass in großen Seen kein Massensterben auftrat. Welche Seegröße hat eine 50/50-Chance auf ein Massensterben (bitte 2 Nachkommastellen)?
Enten <- data.frame("Seeflaeche"=c(13, 5.3, 7.7, 2.7, 17.2, 1.4, 15.7, 10.7, 13.9, 1.9, 12.2, 15.8, 16, 10.6, 11.1, 7.3, 7.1), "Massensterben"=c("nein", "ja", "ja", "ja", "nein", "ja", "nein", "nein", "ja", "ja", "nein", "nein", "nein", "nein", "nein", "nein", "nein"))
(Hinweis: Entweder kann man sich den letzten Schritt mit der Funktion dose.p im Paket MASS errechnen lassen, oder aber einfach ausrechnen, welchen Wert "Seeflaeche" habe muss, damit die Geradengleichung 0 ergibt!)
7.52
Welche Antwort ist falsch?
Die Aufgabe der link-Funktion ist ...
Ordne link-Funktionen Verteilungen zu. Welche Zuordnung ist richtig?
Welchem Wert auf der "response"-Skala entspricht der Wert 1.1 auf der "link"-Skala, wenn die link-Funktion der logit ist (bitte auf 2 Nachkommastellen genau)?
0.75
Von den Standardverteilungen im GLM kommen welche für folgende Daten grundsätzlich in Frage?
x = c(1,2,3,4,5,6,7,8,9, 10,11,12)
y = c(4, 7, 4, 7, 10, 6, 6, 11, 10, 9, 10, 10)
Führe für folgenden Datensatz eine Poisson und eine negative-binomiale Regression durch. Um wieviel ist der AIC im negativ binomialen Modell niedriger? (Bemerkung: Wir vergleichen AIC statt deviance, da im negbin 2 Parameter gefittet werden müssen, im Poisson-Modell nur einer. Dass dann die deviance niedriger ist verwundert zunächst einmal nicht.)
x <- 12:1
y <- c(0, 18, 1, 3, 2, 2, 6, 1, 16, 21, 10, 4)
40.704
Um wieviel nimmt die deviance ab, wenn wir für folgenden Datensatz statt eines linearen ein quadratisches Modell fitten?
y <- c(5.7, 4.9, 6.9, 5.2, 5.9, 4.8, 5.2, 3.6, 2.4, 3.1, 0.1, 0.7, -2.2, -3.9, -3.7, -4.8, -4.7, -7.5, -9.4, -10.3)
Bitte auf 1 Nachkommastelle genau angeben.
30.5
Was kann nicht die Ursache von overdispersion in einem GLM mit Poisson-Verteilung sein?
Residuen sind die Abweichungen zwischen vom Modell vorhergesagten und den tatsächlich gemessenen Datenpunkten.
Ich sollte mir bei der Modelldiagnostik die studentised residuals auf der link scale anschauen, weil ..
Die Varianz kann ich für jeden Datensatz berechnen. Bei welchen Verteilungen ist die Varianz einer Zufallsvariablen abhängig vom Mittelwert?
Hier ein Datensatz:
bsp <- data.frame("Faktor"=rep(LETTERS[1:4], each=10), "Anzahl"=c(4, 1, 0, 3, 2, 1, 8, 1, 5, 3, 3, 2, 5, 3, 3, 5, 3, 4, 2, 3, 3, 2, 8, 3, 5, 7,3, 1, 7, 3, 0, 2, 1, 0, 2, 2, 3, 4, 2, 1))
Rechne ein Poisson-GLM und gib den Schätzwert für den Mittelwert des niedrigsten Levels an (auf 2 Nachkommastellen genau).
(Also: GLM fitten, rausbekommen, welcher Level den niedrigsten Wert hat, diesen ausrechnen und auf die response-scale rücktransformieren.)
1.70
Die Hirschkühe (engl. "hind") auf Rhum haben auch eine Sozialordnung. Hier die Nachkommenen von 10 Hirschkühen (über einen Zeitraum von 10 Jahren) mit niedrigem Sozialstatus ("omegas"):
hinds ‹- data.frame("name"=c("Lucy", "St. Isabel", "Caro", "Ginger", "Spotty", "'Judy", "Pat", "Tiny Joe", "Laura", "Antonia"),
"male"=c(2, 1, 4, 4, 5, 2, 4, 3, 3, 2), "female"=c(5, 6, 4, 3, 3, 5, 4, 4, 4, 6))
Welcher Bruchteil (zwischen 0 und 1, also z.B. 0.465) der Nachkommen ist weiblich? Berechne mit Hilfe eines glms auf 3
Nachkommastellen genau.
(Hinweis: Rücktransformation auf die response-scale nicht vergessen!)
0.595
Wenn ein Datensatz rechtsschief ist, wie ist dann das Verhältnis von Median und Mittelwert?
Rechne mit folgenden Daten eine GLM. Gib dann den geschätzen Wert der Steigung (auf der link-scale) auf 2 Nachkommastellen genau an.
Jannes <- data.frame("highscore.verbessert"=c('nein', 'nein', 'ja', 'ja', 'ja", 'ja', 'nein", 'ja", 'ja', 'ja'), "stunden.gespielt"=c(0.3,
0.5, 0.5, 0.7, 1, 1, 1.5, 2, 2.2, 2.5))
(Hinweis: R macht intern aus "ja" 0 und aus "nein" 1. Eine negative Steigung bedeutet also, dass mit mehr Stunden gespielt auch häufiger der highscore verbessert wurde.)
-1.53
Dein Datensatz ist rechtsschief und besteht aus positiven Kommazahlen. Da das GLM hierfür im Wesentlichen nur die Normalverteilung bereitstellt, musst Du die Daten transformieren, denn so sind die Residuen nicht varianzhomogen. Welche Transformation ist NICHT angezeigt?
Führe für folgenden Datensatz eine Poisson-Regression durch und bestimme dann mittels des anova-Befehls die Signifikanz des Faktors. Gib dessen X2-Wert ("Chisq") auf vier Nachkommastellen genau an.
bsp <- data.frame("Faktor"=rep(LETTERS[1:4], each=10), "Anzahl"=c(3,3,4,6,2,7,7,5,5, 1,4,4,7,5,8,6,7, 13,5,8, 4,1,2,3,2,4,5,2,4,5,3,4,4,3,5,4,5,3,4,3))
0.0020
Im Datensatz "OrchardSprays" (laden mittels data(OrchardSprays)) werden 8 Pestizide hinsichtlich ihrer Wirksamkeit verglichen. Führe eine ANOVA durch und daran anschließend einen Tukey honest significant difference post-hoc Test (Tukey-HSD). Welchen p-Wert hat der Unterschied zwischen treatment "F" und treatment "D" (auf 2 Nachkommastellen genau)?
0.03
Die deviance ist ein Maß für
Welche der folgenden Annahmen ist zentral für eine ANOVA?
Im folgenden Datensatz werden monatliche Todesfälle an Lungenkrankheiten in Großbritannien zwischen 1974 und 1979 angegeben (umgebaut aus dem Datensatz "UKLungDeaths".). Gibt es einen Unterschied zwischen Männern und Frauen?
Wieviel Prozent der ursprünglichen Varianz wird durch diesen Faktor erklärt? (R2 in % bitte auf 1 Nachkommastelle genau angeben, also z.B. 55.21%.)
(Nachsatz: Wir korrigieren hier nicht für die absolute Anzahl Männer und Frauen in GB, und wir betreiben auch keine Modelldiagnostik. Es geht hier nur um die technischen Fähigkeiten, eine ANOVA durchzuführen.)
lungdeaths <- data.frame("gender"=rep(c("male", "female"), each=72), "deaths"=C(as.vector(mdeaths), as.vector(fdeaths)))
66.85
Regression und ANOVA sind eng verwandt. Aber sie unterscheiden sich in der Zielsetzung:
In einem Phosphor-Düngeexperiment (require(MASS); data(opk)) wurde in einem randomised block design experimentiert. Berechne die Signifikanz des Phosphor (P)-Effektes auf "yield" mittels ANOVA, zuerst ohne, dann mit dem block-Effekt. Um wieviel wird der Signifikanz-Wert für Phosphor durch den Blockeffekt verbessert? (Auf 3 Nachkommastellen genau, bitte.)
0.040
Welche Aussage ist FALSCH?
Ich finde bei einer Untersuchung keinen signifikanten Unterschied (0.4 und 1.4, p >0.05) zwischen zwei Behandlungen. Wegen meiner großen Stichprobe (jeweils 1322) ist meine power sehr hoch (0.85). Wie stark ist offensichtlich die VARIANZ (nicht die Standardabweichung!) in meinen Daten?
(Achtung! Hier muss das Argument sd=NULL benutzt werden, da sonst die Grundeinstellung sd=1 benutzt wird!! Bitte auf 1 Nachkommastelle genau.)
73.5 bis 73.7
Welchen Unterschied kann ich als signifikant nachweisen (mit 99%-iger Sicherheit), wenn ich 144 Plots hälftig auf 2 Kalkdüngung und Kontrolle verteile? Voruntersuchungen haben gezeigt, dass die Standardabweichung meines gemessenen Wurzelwachstums 17.2 g/m2 beträgt. Die Teststärke soll ebenfalls hoch sein, nämlich 0.9.
(Das bedeutet, wenn ich einen größeren Unterschied finde, dann ist er signifikant mit p < 0.01, aber wenn der Unterschied kleiner ist, dann bin ich sicher (power > 0.9), dass Kalken keinen Effekt hat.)
Bitte Antwort auf 2 Nachkommastellen genau.
11.09 bis 11.29
Pinguine brüten nur auf der Südhalbkugel. Weshalb? Welche der folgenden Hypothesen ist nicht durch die Falsifizierung der Nullhypothese bestätigbar?
(Diese Frage ist schwer zu stellen. Lies bitte die möglichen Antworten alle durch. Dann sollte eine schon irgendwie auffallen.)
Welche der Aussagen ist richtig?
Eine Interaktion wird durch einen neuen Effekt (einen neuen Modellterm) repräsentiert. Dieser entsteht aus den beteiligten Haupteffekten durch
Der Datensatz warpbreaks (laden mittels: data(warpbreaks)) berichtet die Ergebnisse einer Materialprüfung von Wolle.
Gemessen wurde, wie häufig ein Webfehler auftrat (breaks) pro yard Garn. Getestet wurden zwei Wollarten (wool, mit Le-veln A und B) bei drei angelegten Spannungen (tension, L (low), M (medium), H (high)).
Fitte ein GLM für breaks mit quasi-Poisson-Verteilung und Interaktion zwischen wool und tension. Berechne dann die erwartet Anzahl breaks für Wolltyp A bei hoher Spannung (H). Gib diesen Wert als ganze Zahl gerundet an.
23.6 bis 25.6
Wieso ist eine multiple Regression sinnvoller als einzelne Regressionen je Prädiktor? Finde die FALSCHE Antwort:
Wir erhalten bei einer Analyse folgende Modellausgabe:
Welche Höhe (hier übrigens in feet angegeben) hat eine Weihrauchkiefer (Pinus taeda, loblolly pine) im Alter von 22 Jahren, wenn sie aus der Samenkollektion 323 stammt? Bitte auf 1 Nachkommastelle genau.
57.4
Ich “darf” einen Term nicht aus dem Modell entfernen, wenn..
Es ist wichtig, die Variablen bei einer PCA zu Standardisieren! Diese Aufgabe soll den Effekt verdeutlichen.
Führe für folgenden Datensatz zwei Hauptkomponentenanalysen durch, einmal mit Standardisierung, einmal ohne. Wieviel erklärte Varianz erhält die zweite Achse (PC2) durch die Standardisierung HINZU (nicht in Prozent, sondern als Anteil)? Bitte auf 3 Nachkommastellen genau angeben.
set.seed(333)
AA <- runif(20, 0, 100)
BB <- rnorm(20, 15, 5)
CC <- runif(20, 0, 1)
DD <- runif(20, 0, 1000)
EE <- rnorm(20, 15, 5)
FF <- rnorm(20, 15, 5)
dats <- cbind(AA, BB, CC, DD, EE, FF)
0.247 bis 0.249
Reduziere folgendes Modell so weit wie möglich mittels des BIC-Kriteriums (Argument k=… in step). Wie groß ist die residual deviance (auf 1 Nachkommastelle)?
(Hinweis 1: Den folgenden R-Code im Block nach R kopieren. fm ist das Startmodell, das es zu vereinfachen gilt.) (Hinweis 2: Bitte nicht per Hand vereinfachen, sondern mit der step-Funktion! Die Handvariante führt häufig zu recht unterschiedlichen Ergebnissen.)
set.seed(14)
A <- runif(23, 0, 100)
B <- rnorm(23, 15, 5)
C <- runif(23, 0, 1)
D <- runif(23, 0, 1000)
y <- 2+2*B + 10*B*C + rnorm(23, 0, 10)
fm <- glm(y ~ (A+B+C+D)^2)
anova(fm, test="F")
1139 bis 1139.2
Ein Kollege in Schweden und Du analysieren denselben Datensatz. Auf einem workshop vergleicht Ihr Eure Ergebnisse. Du hast die Interaktion der zwei Prädiktoren A und B im Modell, er nicht.
Um wieviel Prozent unterscheiden sich Eure Modelle für den Punkt (A=10, B=20)? Genauer: Um wievel Prozent liegt Dein Erwartungswert unter seinem?
(Hinweis: Was gesucht ist, ist die Differenz Deines Modells zu seinem relativ zu seinem.
Es bedarf folgender Schritte:
* Interaktion aus fm entfernen;
* mit beiden Modellen auf (10, 20) vorhersagen;
* Vorhersagewert des Modells ohne Interaktion - Vorhersagewert des Modells mit Interaktion, dann durch Vorhersagewert des Modells ohne Interaktion teilen und mit 100% multiplizieren (oder auch (e-i)/e*100, wobei i der Wert aus dem Interaktionsmodell ist und e aus dem einfachen);
* auf 1 Nachkommastelle genau angeben.)
set.seed(44)
A <- round(runif(23, 0, 100),2)
B <- round(rnorm(23, 15, 5),2)
y <- 0.5*A-0.5*B+0.25*A*B + rnorm(23, 0, 10)
fm <- lm(y ~ A*B)
summary(fm)
anova(fm)
predict(fm, newdata=data.frame("A"=10, "B"=20)) # Vorhersage berechnen
56.2
Bei der Modellselektion braucht man ein Gütemaß, also ein Kriterium, an dem man 2 Modelle vergleichen kann. Welches kommt dafür nicht infrage?
Last changed13 hours ago