Welches Skalenniveau hat Variable 'TEMP [deg C]' (Temperatur; in Spalte I)?
nominalskaliert
ordinalskaliert
intervallskaliert
verhältnisskaliert
Welches Skalenniveau hat Variable 'Type' (in Spalte C)?
Welchen Datentyp haben die Werte in Variable 'Cruise' (in Spalte A)?
Text
Zahl
Datum/Zeit
Welches Skalenniveau hat Variable 'DOXY [ml/l]' (Sauerstoffkonz.; in Spalte K)?
Die Tabelle zeigt die Anzahl der Fänge von 3 Fischarten in 5 Zügen (‘trawls’) an:
Wie viele Variablen siehst du?
Du solltest 3 sehen:
Die nominale Variable Art.
Eine (versteckte) nominale Variable mit den Gruppen Gefangen und Nicht Gefangen.
Die eigentliche Anzahl in diesen 2 Gruppen als diskrete Variable.
Welche der folgenden Aussagen ist NICHT korrekt?
Informationen sind strukturierte, organisierte Daten.
Daten haben keinen Zweckbezug.
Daten sind immer bedeutsam.
Informationen sind immer bedeutsam.
Daten sind immer bedeutsam
In welches Skalenniveau könnte man Abundanzdaten auch einstufen, wenn nur wenige Werte in der Variable vorkommen (wie z.B. 0, 1 und 2)?
Welche Datentypen können nominale Daten haben?
nur Text
nur Zahlen
nur Datum/Zeit
Text und Zahlen
Text und Datum/Zeit
Zahlen und Datum/Zeit
Daten in Tabellenkalkulationsprogrammen sind..?
unstrukturiert
quasi-strukturiert
semi-strukturiert
strukturiert
Eine Datenbank besitzt eine Datenbankverwaltung und ein Datenbankmanagementsystem.
Eine Datenbank erlaubt nur den zeitlich getrennten Zugriff mehrerer Benutzer.
Eine Datenbank erlaubt den Zugriff mehrerer Benutzer gleichzeitig.
Eine Datenbank ist eine strukturierte Datensammlung.
Welches der folgenden Dateiformate zählt nicht zu den Textformaten?
.csv
.rtf
.txt
.xlsx
Folgende Werte wurden gemessen:
51 51 54 54 54 54 57 57 57 65 75 75 75 75 75 75 75 75 75 75 76 77 77 77 83 83 95 95 95 95 96 96 96 96 96
Welcher Wert repräsentiert den Modalwert?
54
57
75
95
96
Folgende Datenverteilung wurde beobachtet:
Welche Reihenfolge passt zu der Verteilung links?
Median > Modalwert > Mittelwert
Modalwert > Median > Mittelwert
Mittelwert > Median > Modalwert
Mittelwert > Modalwert > Median
Die gesuchte Stichprobenstatistik ist:
Median
arithmetischer Mittelwert
Varianz
Standardabweichung
Standardfehler
Wie würdest Du die Verteilung beschreiben?
linksschief
rechtsschief
normal verteilt
multimodal
Wie würdest Du die Kurtosis der Verteilung beschreiben?
schmal- oder steilgipflig
normalgipflig
breit- oder flachgipflig
Wie würdest Du die Kurtosis dieser Verteilung beschreiben?
Welche der folgenden Aussagen trifft am ehesten zu?
Verteilungen sind normal, Varianzen sind gleich, im Mittel unterscheiden sich Gruppen stark
Verteilungen sind nicht normal, Varianzen sind ungleich, im Mittel unterscheiden sich Gruppen stark
Verteilungen sind nicht normal, Varianzen sind ungleich, im Mittel unterscheiden sich Gruppen kaum
Gewichtsverteilung von Küken mit vier unterschiediedlichen Ernährungen
Wozu wird die deskriptive Statistik nicht angewendet?
Datenexploration
Zusammenfassung von Datenpunkten
Erkennung von Mustern
Ableitung von Eigenschaften der Stichprobe auf die Grundgesamtheit
Mit der numerischen deskriptiven Statistik macht man Aussagen über die
Zentriertheit und Streuung der Datenpunkte
Verteilung der Werte
Parameter werden mit
lateinischen Buchstaben definiert
griechischen Buchstaben definiert
kyrillischen Buchstaben definiert
griechischen Buchstaben
Was stellt die Stichprobenstatistik NICHT dar?
eine Zufallsmenge
eine Variable
eine Population
Welches ist kein Lagemaß?
2. Quartil
Maximum
Modalwert
Welches ist kein Streuungsparameter?
Variationskoeffizient
Standardweite
Spannweite
Welcher Lageparameter eignet sich bei nominalen Daten?
gewichteter Mittelwert
Welches Quartil stellt der Median dar?
1. Quartil
3. Quartil
4. Quartil
Quantil
Welchen der folgenden Mittelwerte gibt es NICHT?
harmonischer
geometrischer
arithmetischer
probalistischer
gewichteter
getrimmter
Wie ist das Verhältnis von Varianz zu (arithmetischem) Mittelwert wenn das Muster in der Natur ZUFÄLLIG ist?
Varianz < Mittelwert
Varianz = Mittelwert
Varianz > Mittelwert
Was sind Residuen?
Abweichungen des Mittelwerts von der Varianz
Abweichungen der Einzelwerte von der Varianz
Abweichungen der Einzelwerte vom Mittelwert
Die Summe der Residuen ist immer
gleich Null
größer Null
kleiner Null
Die Varianz ist der Quotient aus
Summenquadrate und Stichprobenzahl
Mittlere Summenquadrate und Stichprobenzahl
Mittlere Summenquadrate und Freiheitsgrade
Summenquadrate und Freiheitsgrade
Der Variationskoeffizient erlaubt den Vergleich von Gruppen, die sich in folgendem unterscheiden:
im Mittelwert
in der Varianz
in der Stichprobengröße
Wie wird eine Häufigkeitsverteilung auch genannt?
Hypothetische Verteilung
Theoretische Verteilung
Empirische Verteilung
Bei der Normalverteilung sind wieviel Prozent aller Datenpunkte innerhalb -1SD und +1SD?
38%
50%
68%
75%
95%
Welche der folgenden Eigenschaften gehört nicht zur Normalverteilung?
die Kurtosis ist positiv
kontinuierliche, symmetrische Verteilung
lässt sich mit dem Mittelwert und der Varianz spezifizieren
die Schiefe ist null
Kurtosis ist positiv
Welche Eigenschaft weist die Verteilung von Abundanzdaten oft auf?
schmalgipflig
breitgipflig
Bei welchen Daten eignet sich das Histogramm?
kontinuierlichen Daten
diskreten Daten
nominalen Daten
Prozentdaten
kontinuierliche Daten
Bei welchen Daten eignet sich das Säulendiagramm NICHT??
Bei welchen Daten eignet sich der Boxplot NICHT??
nominale Daten
Was ist der Unterschied zwischen einer Korrelation und einer Regression?
Die Korrelation prüft auf Beziehungen mit Kausalität, die Regression ohne Kausalität.
Die Korrelation prüft auf Beziehungen ohne Kausalität, die Regression mit Kausalität.
Welcher der folgenden Optionen is KEIN Charakteristikum von bivariaten Beziehungen?
Ausreißer
Stärke
Richtung
Unterschied der Mittelwerte
Form
Was ist das Problem bei der Kovarianz als Maß einer linearen Beziehung?
Ihre Größe hängt vom Stichprobenumfang ab.
Ihre Größe hängt von den Einheiten beider Variablen ab.
Die Kovarianz kann nur eine Aussage über die Gesamtstreuung machen, nicht über die Stärke der Beziehung.
Der Wertebereich des Korrelationskoeffizienten liegt zwischen..?
-1 und 1
0 und 1
0 und 100
-∞ und +∞
Ein Koeffizient von -0.82 repräsentiert..?
keine Korrelation
eine schwach negative Korrelation
eine stark negative Korrelation
Wozu werden statistische Modelle in der Biologie NICHT primär benutzt?
Interpolation
Identifizierung wichtiger Einflussgrößen
Extrapolation
Was ist die Y-Variable in statistischen Modellen?
abhängige Variable
erklärende Variable
Was stellt b in der linearen Geradengleichung (y = a + bx) dar?
Y-Achsenabschnitt
Steigungskoeffizient
Welcher lineare Funktionstyp stellt am besten das isometrische Wachstum dar?
Typ A (positive/r Achsenabschnitt und Steigung)
Typ B (positive Steigung, Achsenabschnitt Null)
Typ C (positiver Achsenabschnitt, negative Steigung)
Typ D (negativer Achsenabschnitt, positive Steigung)
Mit welcher Transformation kann man die Parameter einer Exponentialfunktion mittels linearer Regression bestimmen?
Logarithmus zur Basis 2
Logarithmus zur Basis 10
Logarithmus zur Basis e (natürlicher Logarithmus)
Wurzeltransformation
Was wird bei der 'Ordinary Least Squares' Methode minimiert?
Abweichungsquadrate
Summenquadrate
Abweichungssummen
Abweichungssummenquadrate
Was sagt ein R^2 von 0.9 über ein Modell aus?
eine sehr niedrige Modellgüte
sehr hohe Modellgüte
einen solchen Wert gibt es beim R^2 nicht
Code: Subtrahieren Sie 10 von 23 und multiplizieren Sie das Ergebnis mit 2.
(23-10)*2
[1] 26
Code: Subtrahieren Sie 10 von 23, multiplizieren Sie das Ergebnis mit 2, addieren Sie dann 100 dazu und Sie das Ergebnis durch 5.
((23-10)*2+100)/5
[1] 25.2
Code: Subtrahiere Sie 23 von 10, multiplizieren Sie das Ergebnis mit -10 und nehmen Sie dann davon die Quadratwurzel (verwenden Sie die Funktion sqrt()).
sqrt()
sqrt((10-23)*-10)
[1] 11.40175
Welches könnte ein weiteres Grundelement bei den Programmiersprachen C++, Java, JavaScript, Python und R sein (denken Sie an die Klasse, die sie alle vereint)?
Operatoren
Datenytpen
Anweisungen
Objekte
Wie bezeichnet man die Gesamtheit aller Anweisungen, die in einer bestimmten Programmiersprache geschrieben sind?
Codequelle
Quellcode
Syntax
Es gibt keinen Namen dafür.
Was ist ein Programm?
Die Umsetzung eines Algorithmus und der zugehörigen Datenbereiche in eine Programmiersprache.
Die Umsetzung einer Programmiersprache und der zugehörigen Datenbereiche in einen Algorithmus.
Die Umsetzung eines Datenbereiche in einen Algorithmus und der zugehörigen Programmiersprache.
Was lässt sich mit einer Programmiersprache formulieren?
Eine Datei
Daten
Eine Rechenvorschrift
Welches der folgenden Antworten ist KEINE Klasse einer Programmiersprache?
Funktionale Programmierung
Datenorientierte Programmierung
Objektorientierte Programmierung
Imperative Programmierung
Bei welchen der 3 Übersetzungstypen wird der Quellcode während der Laufzeit des Programms übersetzt?
Compiler
Interpreter
JIT-Compiler
Was ist KEIN Algorithmus?
Reihe von Anweisungen um eine Aufgabe oder ein Problem zu lösen.
Rezept
Bedienungsanleitung eines Fernseher
Notfall- und Alarmplan
Zeitungsartikel
Welches der 4 Grundelemente einer Programmiersprache stellt Code dar, der solange ausgeführt wird, wie die Bedingung wahr ist?
Variable
Bedingung
Schleife
Funktion
Bei welchem der 4 Grundelemente einer Programmiersprache wird Code ausgeführt, wenn eine Abfrage zutrifft?
Welches der 4 Grundelemente einer Programmiersprache stellt Code dar, der jederzeit über den jeweiligen Namen aufgerufen werden kann?
Welches der 4 Grundelemente einer Programmiersprache stellt eine Möglichkeit dar, im Programm einen Wert (Zahl, Zeichen,..) zu speichern?
name ??? 'John Doe'
< -
=
<=
- >
??? < - ???
50
x
x < - 50
a < - 20
??? < - 4
y <??? n * a + 110
k
= >
-
m
n
+
n < - 4
y < - n * a + 110
my_value ??? 'A1'
???(my_value)
[1] TRUE
as.numeric
is.character
is.double
is.integer
as.character
my_value < - 'A1'
is.character(my_value)
Welche der folgenden Anweisungen ist NICHT korrekt?
c(2,4,6,8,10)
seq(from = 2, to = 10, by = 2)
rep(2,4,6,8,10)
??? ??? ???
[1] 6 7 8 9 10
)
rep
6
:
10
(
6 : 10
Teste Dein Verständnis und sage das richtige Ergebnis voraus: c('a', 1)
c('a', 1)
logischer Vektor
'integer' Vektor
'double' Vektor
'character' Vektor
NA
Fehlermeldung
Teste Dein Verständnis und sage das richtige Ergebnis voraus: c(1, FALSE)
c(1, FALSE)
Teste Dein Verständnis und sage das richtige Ergebnis voraus: c(TRUE, 1L)
c(TRUE, 1L)
Was ist die Summe von allen Elementen in folgendem Vektor: x <- c(TRUE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE,
x <- c(TRUE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE,
TRUE, TRUE, FALSE)
5
0
7
Die Summe lässt sich nicht berechnen.
x < - c(3,0,1,8,0,NA,8,0,4,NA,5,1,NA,7,7,9,2,1,NA,5,1,NA,0)
???( ???(x))
[1] 5
is.na
as.na
sum
count
na
sum(is.na(x))
Welcher Output ist bei folgender Berechnung zu erwarten: a <- c(10,5,100) b <- 1:5 (a*b)*3
a <- c(10,5,100) b <- 1:5 (a*b)*3
Der Output ist ein Vektor der Länge 1.
Der Output ist ein Vektor der Länge 3, das letzte Element hat den Wert 900.
Der Output ist ein Vektor der Länge 5, das letzte Element hat den Wert 75.
Der Output ist ein Vektor der Länge 5, das letzte Element hat den Wert NA.
Fülle den Code aus, um das 5. Element in 'x' auszuwählen
x ??? ??? ???
[
]
x[5]
Fülle den Code aus, um die Summe aus den Elementen 3 bis 12 zu berechnen.
???(x[ ???])
3:12
3;12
summe
3-12
sum(x[3:12]
Fülle den Code aus, um die Summe aus allen Elementen AUSSER Element 2 und 18 zu berechnen.
sum(x[??? ???])
2+18
c(2,18)
2,18
sum(x[-c(2,18)])
Fülle den Code aus, um alle geraden Zahlen auszuwählen.
???[vec ??? 2 ??? ??? ]
/
vec
==
%%
*
2
y
vec[vec %% 2 == 0]
Fülle den Code aus, um alle ungeraden Zahlen auszuwählen.
??? [vec ??? 2 ??? ??? ]
1, 2
1
vec[vec %% 2 == 1 ]
Fülle den Code aus, um die letzten 10 Elemente auszuwählen.
nvec[( ??? ): ???]
length(nvec)-9
length(nvec)
nvec[( length(nvec)-9 ): length(nvec)]
Was passiert, wenn mit einer positiven ganzen Zahl indexiert wird, die höher ist als die Länge des Vektors?
Es gibt eine Fehlermeldung.
Nichts.
Der Vektor wird recycled (z.B. wird das 2. Element bei einem Vektor der Länge 10 ausgegeben wenn der Index 12 ist).
NA wird zurückgegeben.
Welchen Wert hat das fünfte Element des zurückgegebenen Vektors aus folgender Berechnung: c(2, 4, 6, 8, 10, 0) * 1:3
c(2, 4, 6, 8, 10, 0) * 1:3
20
30
Fülle den Code aus, um die Varianz von x in Einzelschritten zu berechnen.
x < - c(26, 35, 76, 73, 108, 25, 76, 102, 11)
mean_x < - ??? (x)
df < - ??? (x) - 1
var_x <- sum( (??? - ???)^2 ) / ???
[1] 1268.611
mean_x
mw
length
mean
df
mean_x < - mean(x)
df < - length(x) - 1
varx <- sum( (x - meanx)^2 ) / df
Schau Dir folgenden Datensatz an:
head(iris, 3)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
Zu welchem Objekttyp gehört der 'iris' Datensatz
Vektor
Liste
Matrix
Data frame
Schau Dir die Struktur vom iris Datensatz an:
iris
str(iris)
'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ Species : Factor w/ 3 levels "setosa","versicolor",..:
1 1 1 1 1 1 1 1 1 1 ...
Wie groß sind die Dimensionen im 'iris' Datensatz
5 Zeilen, 150 Spalten
150 Zeilen, 5 Spalten
Die Dimensionsgrößen sind dem Output nicht zu entnehmen.
Aus welchem der beiden Pakete wird R die Funktionen filter() und lag()verwenden?
filter()
lag()
stats
dplyr
Entfernen Sie alle Zeilen, wo es fehlende Werte bei der Salinität gibt:
sample1_mod1 < - ??? (sample1, ??? )
doxy
fill
psal
temp
drop_na
replace_na
sample1_mod1 < - drop_na(sample1, psal)
Füllen Sie die NAs in allen 3 Parametern mit den jeweils vorherigen (ansonsten nachfolgenden) Werten auf:
sample1_mod2 < - ???(??? ,
temp:doxy, .direction = ??? )
'down'
'downup'
sample1
'up'
sample1_mod2 < - fill( sample1,
temp:doxy, .direction = 'downup' )
Tauschen Sie die NAs mit dem Median des jeweiligen Parameters aus:
sample1_mod3 < - ???(sample1, list(
temp = ???(sample1$temp, na.rm=TRUE),
psal = median(??? , na.rm=TRUE),
doxy = median(sample1$doxy, ???) )
na.rm = FALSE
na.rm=TRUE
sample1$psal
median
sample_1mod3 < - replace_na(sample1, list(
temp = median(sample1$temp, na.rm=TRUE),
psal = median(sample$psal , na.rm=TRUE),
doxy = median(sample1$doxy, na.rm=TRUE) )
stocks_mod1 < - ??? (
stocks,
names_from = ???,
??? = stock_return
names_to
values_to
values_from
pivot_wider
'quarter'
quarter
pivot_longer
stocks_mod1 < - pivot_vider (
names_from = quarter,
values_from = stock_return
Vervollständigen Sie den Code, um den Datensatz zurück ins ursprüngliche Format zu bringen:
stocks_mod2 < - ???(
stocks_mod1,
??? = 'quarter',
values_to = ???
'stock_return'
stock_return
names_from
stocks_mod2 < - pivot_longer(
names_to = 'quarter',
values_to = 'stock_return'
Zurück zur Eingangsfrage:
Warum sind pivot_longer() und pivot_wider() nicht perfekt symmetrisch?
pivot_longer()
pivot_wider()
Worin unterscheiden sich der (lange) Originaldatensatz stocks und der (lange) Datensatz stocks_mod2?
stocks
stocks_mod2
Fehlende 'year'-'quarter' Kombinationen wurden mit NAs aufgefüllt.
Die Reihenfolge der Zeilen hat sich geändert.
Der Datentyp der 'quarter' Spalte hat sich geändert.
Alle 3 genannten Unterschiede treffen zu.
Füllen Sie den Code aus, um die Spalten quarter und year (mit ‘/’ als Trennzeichen) zusammenzufügen:
year
stocks1 < - ???(
stocks, quarter, year,
??? = 'time',
??? = '/'
cols
unite
separate
dec
sep
col
stocks1 < - unite(
col = 'time',
sep = '/'
Füllen Sie den Code aus, um die Spalten quarter und year (mit ‘/’ als Trennzeichen) zu trennen:
stocks2 <- ???(
stocks1, ???
into = ???
c('quarter', 'year')
separatec(quarter, year)
time
'time'
stocks2 <- separate(
stocks1, time
into = c('quarter', 'year')
Welcher der folgenden Punkte gehört NICHT zur Datenprüfung und -bereinigung?
Entfernung von irrelevanten Daten und Ausreißern
Maskierung privater oder **sensibler** Dateneinträge.
Berichtigung von Informationen.
Anpassung der Daten an ein standardisiertes Muster.
Bildung von Teildatensätzen
Handling fehlender Werte.
Wo sucht R als ERSTES nach Funktionen?
Im zuletzt geladenen Paket.
Im zuerst geladenen Paket.
In der Arbeitsumgebung.
In der sog. base environment.
Welches der hier gelisteten Pakete wird NICHT automatisch mit dem 'tidyverse' Paket geladen?
ggplot2
lubridate
forcats
purrr
tibble
tidyr
stringr
readr
Welches Argument kommt bei (fast) allen Funktionen der 'tidyverse' Pakete an erster Stelle?
na.rm
data
Mit welcher Funktion lassen sich nicht nur deskriptive Statistiken anzeigen, sondern auch die Anzahl an fehlenden Werten?
summary(data.frame)
is.na(data.frame)
aggregate(data.frame)
statistics(data.frame)
Mit welcher 'tidyr' Funktion lassen sich Zeilen mit fehlenden Werten entfernen?
replace__na()
drop_na()
fill()
unite()
separate()
Mit welcher 'tidyr' Funktion lassen Informationen einer Spalte auf 2 oder mehr trennen?
In welches Format wandelt die Funktion pivot_longer() eine Tabelle?
Vom langen ins weite Format.
Vom weiten ins lange Format.
Die Funktion hat nichts mit Formatänderungen zu tun.
Welchen zusätzlichen Klassentyp haben 'tibbles' Objekte?
list
array
keinen
tbl_df
tdl_df
Wir wollen uns die Verteilung der Kelchblattlänge bei der Art Iris versicolor anschauen:
x <- iris ???
???(Species == 'versicolor')
hist(x$Sepal.Length)
|>
select
>%>
arrange
filter
transmute
x <- iris |>
filter(Species == 'versicolor')
Gibt es eine Beziehung zwischen dem Längen/Breiten-Verhältnis bei Kron- und Kelchblättern der Art Iris setosa? Um dies grafisch untersuchen zu können, transformieren Sie den iris Datensatz:
??? (Species ??? 'setosa') |>
???(
sepal_lw = Sepal.Length/Sepal.Width,
petal_lw = Petal.Length/Petal.Width
plot(x$sepal_lw, x$petal_lw)
mutate
filter(Species == 'setosa') |>
mutate(
Erstellen Sie einen ‘tibble’ basierend auf dem iris Datensatz, welcher nur die Spalte ‘Species’ enthält und eine neue (absteigend sortierte) Spalte mit dem Quotienten aus der Kelchblattlänge zu -breite. Der ‘tibble’ soll aber nur die Arten I. versicolor und I. virginica und Quotientenwerte größer 2 enthalten:
iris |>
???(sepal_lw = Sepal.Length/Sepal.Width) |>
???(??? %in% c('versicolor', 'virginica'), ??? > 2) |>
???(Species, sepal_lw) |>
???(desc(sepal_lw)) |>
???()
sepal_lw
Species
as_tibble
mutate(sepal_lw = Sepal.Length/Sepal.Width) |>
select(Species %in% c('versicolor', 'virginica'), sepal_lw > 2) |>
filter(Species, sepal_lw) |>
arrange(desc(sepal_lw)) |>
as_tibble()
Berechnen Sie pro Art: Median, Mittelwert, Standardabweichung und Minimalwert für die Kronblattlänge:
???(Species) |>
pl_median = ??? (Petal.Length),
pl_mean = ??? (Petal.Length),
pl_sd = ???(Petal.Length),
pl_min = ???(Petal.Length)
summarise
group_by
stdev
minimal
min
sd
group_by(Species) |>
summarise(
pl_median = median(Petal.Length),
pl_mean = mean(Petal.Length),
pl_sd = sd(Petal.Length),
pl_min = min(Petal.Length)
ChickWeight |>
???(Diet) |>
group
distinct
group_by(Diet) |>
count()
x < - iris ???
x < - iris |>
Welcher der folgenden Punkte gehört NICHT zur Datentransformation und -anreicherung?
Bildung von Teildatensätzen.
Berechnung zusammenfassender Statistiken.
Kombination von Datensätzen zur Anreicherung und Verbindung zusammenhängender Informationen.
Hinzufügen neuer Variablen.
An welche Position gehört der sog. pipe Operator?
Vor jedem Befehl.
Nach jedem Befehl.
Nach jedem Befehl
Welche der folgenden Funktionen reduziert Variablen zu Einzelwerten?
arrange()
select()
summarise()
transmute()
group_by()
bind_cols()
Welche der folgenden Funktionen extrahiert Zeilen, die ein logisches Kriterium erfüllen?
inner_join()
bind_rows()
arrrange()
Was macht die Funktion distinct()?
Sie extrahiert einzigartige Zeilen.
Sie sortiert Zeilen nach spezifischen Variablen.
Sie hängt 2 oder mehr Tabellen spaltenweise aneinander.
Was ist der Unterschied zwischen der Funktion count() und n() ?
Beide geben die gruppen-spezifische Anzahl an Beobachtungen (Zeilen) aus; count() wird aber innerhalb von summarise() verwendet und n() anstelle von summarise().
Beide geben die gruppen-spezifische Anzahl an Beobachtungen (Zeilen) aus; n() wird aber innerhalb von summarise() verwendet und count() anstelle von summarise().
Welche der XXX_join() Funktionen gibt nur die Zeilen zurück, wo die übereinstimmenden Spalten gleiche Werte enthalten?
left_join()
full_join()
right_join()
Was ist der Unterschied zwischen der Funktion mutate() und transmute() ?
Beide erstellen neue Variablen, aber mutate() behält dabei die Originalvariablen, während transmute() diese entfernt.
Beide erstellen neue Variablen, aber transmute() behält dabei die Originalvariablen, während mutate() diese entfernt.
Mit welcher dplyr Funktion können Namen von Variablen ersetzt werden?
rename()
mutate()
Wie viele Variablen werden in der Grafik repräsentiert?
3
4
Größe
Farbe
Position in x-Richtung
Position in y-Richtung)
Und wie viele der 5 hier dargestellten Variablen könnten davon quantitativ und wie viele kategorial sein?
alle quantitativ
4 quantitativ, 1 kategorial
3 quantitativ, 2 kategorial
2 quantitativ, 3 kategorial
1 quantitativ, 4 kategorial
alle kategorial
Größe (quantitativ)
Form (kategorial)
Farbe (kategorial)
Position in x-Richtung (quantitativ)
Position in y-Richtung)(quantitativ)
Welcher Diagrammtyp wird dargestellt?
Boxplot
Säulendiagramm mit Fehlerbalken
Gestapeltes Säulendiagramm
Wasserfall Diagramm
Histogramm
In welche Kategorie lässt sich die Grafik am ehesten einordnen?
Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien
Wie viele Variablen werden in jedem einzelnen Bild (im Englischen 'panel') dargestellt?
Welchem Datentyp gehören die Variablen an?
nur nominal
nur ordinal
nur kontinuierlich
nominal und kontinuierlich
ordinal und kontinuierlich
Wie viele Variablen werden in jedem einzelnen Bild dargestellt?
Zu welchem Datentyp gehört die Variable?
diskret
kontinuierlich
Welcher Diagrammtyp wird im ersten Bild oben links dargestellt?
Verbundener Punktplot
Punkteplot
Liniendiagramm
QQ Plot
Punkteplot mit Glättungskurve (smoother)
nur diskret
diskret und kontinuierlich
Welcher Diagrammtyp wird im unteren Teil der Abbildung dargestellt?
Gruppiertes Säulendiagramm
gruppiertes Säulendiagramm
In welche Kategorie lässt sich das untere Diagramm am ehesten einordnen?
Wie viele Variablen werden im untere Diagramm dargestellt?
Welcher Diagrammtyp wird jeweils dargestellt?
Radar Chart
Polar Chart
Donut Chart
Sunburst Chart
Chord Diagram
In welche Kategorie lassen sich beide Diagramme am ehesten einordnen?
Wie viele Variablen werden jeweils dargestellt?
Welches könnte noch eine Kategorie von Diagrammtypen sein, die in dieser Vorlesung nicht gelistet wurden?
Infografiken
Karten
Zeichnungen
Sketche
Karten?
Welche der 5 Designschichten einer Grafik fehlt in dieser Auflistung: Datendarstellung, Interaktivität, Farbe, Komposition, ..?
Stimmung
Linien
Annotation
Welche der beiden Aussagen ist korrekt?
Visual encoding entspricht dem top-down Ansatz, die Verwendung von fertigen Diagrammtypen dem bottom-up Ansatz.
Visual encoding entspricht dem bottom-up Ansatz, die Verwendung von fertigen Diagrammtypen dem top-down Ansatz.
Welches der folgenden gehört nicht zu den Grundelementen des 'visual encoding'?
Volumen
Punkte
Farben
Flächen
Welches der folgenden Attribute gehört nicht zu den quantitativen Attributen?
Symbole
Farbgradient
Winkel
Position
Welches der folgenden Attribute gehört nicht zu den kategorialen (nominalen) Attributen?
Diskrete Farben
Zu welcher Kategorie gehört der Blasenplot?
Zu welcher Kategorie gehört das Liniendiagramm?
Ab wie viel Variablen kann der 'gruppierte Punkteplot' verwendet werden?
Ab wie viel Variablen kann das Säulen/Balkendiagramm verwendet werden?
Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.
ggplot(??? = iris,
??? = aes(x = Petal.Length)) +
geom_line
aesthetics
geom_col
mapping
geom_bar
geom_histogram
ggplot(data = iris,
mapping = aes(x = Petal.Length)) +
geom_histogramm()
ggplot(iris,
???(x = Species,
y = Petal.Width)) +
geom_boxplot(???)
fill = Species
aes
aes(fill = Species)
gplot(iris,
aes(x = Species,
geom_boxplot(aes(fill = Species))
???(??? = Species,
??? = Petal.Width)) +
???(alpha = 0.1, size = 5,
colour = 'red')
geom_density
geom_point
geom_point(alpha = 0.1, size = 5,
ggplot(aes(x = Petal.Length, y = Sepal.Length)) +
???(??? = ???)
aes(size
Petal.Width)
size geom_path
geom_point(aes(size = Petal.Width) )
???(data = mtcars,
aes(wt, mpg, label = rownames(mtcars))) +
???(aes(size = gear)) +
???(aes(colour = factor(cyl)),
hjust = 0, nudge_x = 0.05) +
xlim(1,8)
geom_path
ggplot
geom
geom_text
ggplot(data = mtcars,
geom_point(aes(size = gear)) +
geom_text(aes(colour = factor(cyl)),
Wo müssen Variablen-spezifische Attribute definiert werden, damit sie global (also für alle Ebenen) gelten?
Innerhalb der ggplot() Funktion.
Innerhalb der geom_XXX() Funktionen.
Innerhalb der coord_XXX() Funktionen.
Innerhalb der scale_XXX() Funktionen.
Welches ist die Funktion, mit der man ein Diagramm startet oder initialisiert?
aes()
geom_point()
ggplot()
ggplot2()
coord_flip()
Wie nennt man die Zuweisung Variablen-spezifischer Attribute?
aesthetic mapping
Was macht folgender Funktionsaufruf: aes(size = 10)
Weist dem Attribut Größe fälschlicherweise den Einheitswert 10 zu, wo eigentlich eine Variable zugewiesen werden müsste.
Weist dem Attribute Größe korrekt den einheitlichen Wert 10 zu.
Was machen die sog. geom_XXX() Funktion?
Sie bestimmen die Darstellung des XY-Koordinatensystems.
Sie bestimmen die Anzeige aller Nicht-Datenelemente des Plots.
Sie kombinieren ein Grundelement, welches die Daten repräsentiert, mit den Abbildungseigenschaften, einer Statistik und einer Positionsanpassung.
Mit welcher Funktion kannst Du Titel, Untertitel, und Achsenbeschriftungen hinzufügen?
title()
lims()
labs()
Es soll ein sog. Blasenplot (‘bubble plot’) erstellt werden, sprich ein Streudiagramm bei dem die Größe der Punkte abhängig ist von einer dritten, quantitativen Variable (‘z’).
Welcher der rechten Codeschnipsel ist korrekt?
Der erste.
Der zweite.
Der dritte.
Mögliche Codeschnipsel
ggplot(df, aes(x, y), size = z) +
ggplot(df, aes(x, y)) +
geom_point(aes(size = z))
geom_point(size = z)
Der zweite
Folgendes Diagramm soll erstellt werden:
Codeversuch zur Rekonstruktion
aes(x = Species, y = Petal.Width)) +
geom_point(colour = Species,
shape = Species, alpha = 0.5)
Was ist an dem obigen Code falsch?
x und y dürfen nicht innerhalb der aes() Funktion sein.
alpha muss innerhalb der aes() Funktion stehen.
x muss außerhalb der aes() Funktion stehen.
colour und shape müssen innerhalb der aes() Funktion stehen.
Farbanpassung im Streudiagramm
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width)) +
geom_point(aes(colour = Species)) +
scale_colour_gradient(low = "yellow", high = "red")
Die kategoriale Variable 'Species' kann nicht dem Farbattribut colour zugewiesen werden.
Es fehlt eine dritte Farbe in der scale_colour_gradient() Funktion.
scale_colour_gradient() kann nur bei quantitativen Variablen verwendet werden.
scale_colour_gradient() kann nur bei qualitativen/kategorialen Variablen verwendet werden.
Beim sog. Blasenplot (‘bubble plot’) soll die Größenskala angepasst werden. Und zwar sollen die Größenstufen in 1er-Schritten von 2 bis 10 gehen.
geom_point(aes(size = z)) +
scale_size(breaks = seq(2,20,2.5))
scale_size(range = seq(2,20,2.5))
scale_size(limits = seq(2,20,2.5))
Der erste
Ein Streudiagramm soll entsprechend einer kategorialen Variable (‘z’) in Teildiagramme (‘facets’) aufgeteilt werden. Diese Teildiagramme sollen dabei in einer Spalte angeordnet werden.
Welcher der rechten Codeschnipsel ist entsprechend korrekt?
facet_wrap(~ z)
facet_wrap(~ z, ncol = 1)
facet_wrap(~ z, nrow = 1)
Füllen Sie die Lücke, um rechtes Diagramm zu erstellen:
CO2 |>
ggplot(aes(x = conc, y = uptake)) +
geom_point() + geom_smooth() +
???(??? ,
labeller = label_both)
facet_grid
~ Treatment, nrow = 2
Treatment ~ Type
facet_wrap
Type ~ Treatment
facet_grid(Type ~ Treatment ,
Welche ggplot2 Funktion wird für das Koordinatensystem als Standard verwendet?
coord_equal()
coord_fixed()
coord_cartesian()
coord_trans()
coord_map()
Füllen Sie die Lücke, um das Diagramm (sog. 'coxcomb plot') rechts zu erstellen.
mtcars |>
ggplot(aes(x = factor(cyl))) +
geom_bar(aes(fill = ??? (cyl)), width = 1) +
factor
coord_trans
coord_polar
coord_equal
coord_sf
geom_bar(aes(fill = factor(cyl)), width = 1) +
coord_polar()
Wie kann die von ggplot2 automatisch erstellte Legende im Blasenplot (‘bubble plot’) wieder entfernt werden?
Welcher der rechten Codeschnipsel wird NICHT funktionieren?
guides("none")
guides(size = guide_none())
geom_point(size = z) +
guides(size = "none")
Füllen Sie die Lücke, um das rechte Diagramm zu erstellen.
geom_point(aes(shape = Species, colour = Petal.Width)) +
???( colour = ???(
order = 2, label.position = 'right'),
shape = ???(
order = 1, label.position = 'left')
guide_bins
guide_coloursteps
guide_colourbar
guide_axis
guides
guide_legend
guides(
colour = guide_colourbar(
shape = guide_legend(
bshydro15 |>
ggplot(aes(x = month)) +
geom_bar() +
axis.text.x = ???(angle = 45),
axis.line = ???(colour = 'grey50'),
panel.background = ???
element_text
element_line
element_blank()
theme
theme(
axis.text.x = element_text(angle = 45),
axis.line = element_line(colour = 'grey50'),
panel.background = element_blank()
Fülle die Lücke um rechtes Diagramm zu rekonstruieren.
ggplot(daphnia,
??? = treatment, y = offspring)) +
geom_boxplot(??? = treatment))
aes( x
aes( fill
aes( x = treatment, y = offspring)) +
geom_boxplot(aes( fill = treatment))
aes(x = treatment, y = offspring)) +
geom_boxplot(aes(fill = treatment)) +
scale_??? (name = 'Treatment',
??? = c('yellow', 'orange'))
manual_brewer
fill_discrete
colour_manual
colour_brewer
fill_manual
values
scale_fill_maual(name = 'Treatment',
values = c('yellow', 'orange'))
scale_fill_manual(name = 'Treatment'
values = c('yellow', 'orange'))+
???(??? ~ ???)
pop
.
facet_grid(pop ~ .)
facet_grid(pop~.) +
coord??? ()
_map
_cartesian
_fixed
_flip
_trans
_polar
coord_flip() +
???('Populations differences') +
???('Total number of offsprings') +
???('Treatment') +
ylab
ggtitle
theme_bw
xlab
ggtitle('Populations differences') +
ylab('Total number of offsprings') +
xlab('Treatment') +
theme_bw()
mantas <- data.frame(
month = ??? (c(9, 3, 5, 1, 7, 12),
???= 1:12,
???= c('Jan','Feb','Mar','Apr','May','Jun',
'Jul','Aug','Sep','Oct','Nov','Dec') ),
catch = c(13,11,26,5,22,8) )
ggplot(mantas, aes(x = month, y = catch)) +
as.factor
levels
lvl
labels
month = factor(c(9, 3, 5, 1, 7, 12),
levels= 1:12,
labels= c('Jan','Feb','Mar','Apr','May','Jun',
geom_col()
mantas |>
mutate(month = ???(
.f = month, .x = catch)) |>
ggplot(aes(x = month, y = catch)) +
fct_reorder
fct_collapse
fct_rev
fct_relevel
fct_inorder
mutate(month = fct_reorder(
mutate(SL_lvl = ???(Sepal.Length, ???)) |>
ggplot(aes(Petal.Length, Petal.Width)) +
geom_point(aes(colour = SL_lvl))
ordered
cut
mutate(SL_lvl = cut(Sepal.Length, 2)) |>
summarise(SL_m = mean(Sepal.Length), SL_sd = sd(Sepal.Length) ) |>
ggplot(aes(x = ???(Species), y = SL_m)) +
geom_col(fill = 'orange') +
geom_??? (aes(ymin = SL_m-SL_sd, ymax = SL_m+SL_sd))
error
fct_reverse
bar
errorbar
ggplot(aes(x = fct_rev(Species), y = SL_m)) +
geom_errorbar(aes(ymin = SL_m-SL_sd, ymax = SL_m+SL_sd))
Folgender Vektor des Datentyp ‘POSIXcl’ soll in den Datentyp ‘Date’ umgewandelt werden:
d1
[1] "2015-07-26 18:16:00 UTC" "2015-07-03 16:42:00 UTC"
[3] "2015-09-01 04:45:00 UTC"
Füllen Sie die Lücke, um den Vektor entsprechend zu konvertieren.
d2 < - ???(d1)
ymd
as_datetime
make_date
ymd_hms
as_date
d2 < - as_date(d1)
Füllen Sie die Lücke, um jede Variable in den entsprechenden 'Date' bzw. 'POSIXcl' Datentyp zu konvertieren.
tbl <- mutate(tbl,
x1 = ???(x1), x2 = ???(x2),
x3 = ???(x3), x4 = ???(x4),
x5 = ???(x5) )
dym_hm
ydm
mdy
dmy
dmy_hms
myd
dym
dmy_hm
x1 = ymd(x1), x2 = ydm(x2),
x3 = mdy(x3), x4 = ymd_hms(x4),
x5 = dmy_hm(x5) )
Aus der Spalte x4 sollen nun folgende Komponenten extrahiert werden: Jahr, Monat, Monatstag, Stunde:
x4
tbl2 < - transmute(tbl,
Jahr = ???(x4),
Monat = ???(x4),
Monatstag = ???(x4),
Stunde = ???(x4)
hour
minute
mday
semester
month
yday
Jahr = year(x4),
Monat = month(x4),
Monatstag = mday(x4),
Stunde = hour(x4)
[1] "Placement in the"
[2] "genus is provisional pending"
[3] "the discovery of juvenile specimens."
[1] "Placement In The"
[2] "Genus Is Provisional Pending"
[3] "The Discovery Of Juvenile Specimens."
Mit welcher der folgenden Funktionen wurde Vektor x zu Vektor y konvertiert?
str_to_lower()
str_to_upper()
str_to_sentence()
str_to_title()
[1] "Germany" "England" "Italy" "France"
"Sweden" "Norway" "Portugal"
[1] "GER" "ENG" "ITA" "FRA"
"SWE" "NOR" "POR"
y < - ???(??? = x, start = 1, ??? = 3) |>
str_to_upper
str_sub
string
end
y < - str_sub(string = x, start = 1, end = 3) |>
???('A', 1:5, ??? = '/')
[1] 'A/1' 'A/2' 'A/3' 'A/4' 'A/5'
str_c
collapse
str_combine
replacement
pattern
str_replace
str_c('A', 1:5, sep = '/')
str_c('A', 1:5, sep = ??? , collapse = ??? )
[1] 'A.1 / A.2 / A.3 / A.4 / A.5'
'.'
' / '
'/'
NULL
' '
str_c('A', 1:5, sep = '.' , collapse = ' / ' )
Wie viele Arten gehören der Gattung Carcharhinus (Requiemhaie) an (bzw. sind im sharks_fb tibble und somit in der fishbase.org Datenbank enthalten)?
sharks_fb
data(sharks_fb, package = 'marinedata')
???(sharks_fb$Species, pattern = '^Carcharhinus') |>
sum()
[1] 35
str_detect
str_which
str_detect(sharks_fb$Species, pattern = '^Carcharhinus') |>
Sie haben folgenden Vektor x und wollen nun die Anfangsnullen entfernen (aus “file_001.csv” also “file_1.csv”,… machen):
[1] "file_001.csv" "file_002.csv"
"file_003.csv" "file_004.csv" "file_005.csv"
[6] "file_006.csv" "file_007.csv"
"file_008.csv" "file_009.csv" "file_010.csv"
???(x, pattern = ' ??? ',
replacement = '_')
_0
str_subset
str_split
_00
(_00|_0)
str_replace(x, pattern = '(_00|_0)',
Für welche Art von Variablentypen eignet sich der zusammengesetzte R Datentyp Faktor?
Metrische Variablen.
Kategoriale Variablen.
Kategoriale Variable
Welches Attribut gehört NICHT zum Faktor?
class factor
groups
Was passiert mit Werten, die nicht dem levels Argument zugewiesen werden?
Sie bleiben wie sie sind.
Sie werden leise zu NA konvertiert.
Sie werden leise zu NULL konvertiert.
Mit welchem Argument können Sie die angezeigten Werte in Faktoren ändern?
names
Welche Funktion bietet sich an, wenn Sie ordinal-skalierte Variablen haben?
sorted()
ordinal()
ordered()
Mit welcher Funktion können Sie eine kontinuierliche Variable in einen Faktor umwandeln?
factor()
cut()
breaks()
continuous_factor()
Wie viele Klassen gibt es in R für Datum und Zeit?
Nach welchem Kalender wird das Datum in R angezeigt?
Gregorianischer Kalender.
Julianischer Kalender.
Kyrillischer Kalender.
Gregorianischer Kalender
Welches Datum dient als Grundlage, vom dem aus das aktuelle Datum (in Sekunden) gezählt wird?
1.1.1850
1.1.1900
1.1.1970
1.1.2000
Welche der folgenden ist die korrekte R Klasse für Datum- UND Zeitangaben?
POSIX
XIPOSct
POXISct
POSIXct
Folgende Datum- und Zeitangabe ist als Zeichenkette gegeben: 12/31/1999 23:59:59 Mit welcher lubridate Funktion kann diese Zeichenkette in den Typ POSIXct korrekt umgewandelt werden??
mdy()
dmy_h()
mdy_hm()
mdy_hms()
ymd_hms()
Zu welchem Datentyp gehören Zeichenketten in R?
complex
character
logical
Mit welcher stringr Funktion lassen sich Leerzeichen entfernen?
str_trim()
str_remove_space()
str_pad()
Welche stringr Funktion kombiniert strings, ähnlich wie die Basisfunktion paste()?
str_paste()
str_combine()
str_c()
str_extract()
Welche regulären Ausdrücke definieren die Anfangs- und Endpunkte einer Zeichenkette?
% und !
^ und $
? und §
Welche stringr Funktion ist ein wrapper für x[str_detect(x, pattern)]?
x[str_detect(x, pattern)]
str_sub()
str_split()
str_subset()
Last changed2 years ago