undefined

Buffl

Data Science

by Lena K.

Welches Skalenniveau hat Variable 'TEMP [deg C]' (Temperatur; in Spalte I)?

nominalskaliert
ordinalskaliert
intervallskaliert
verhältnisskaliert

intervallskaliert

Welches Skalenniveau hat Variable 'Type' (in Spalte C)?

nominalskaliert

ordinalskaliert
intervallskaliert
verhältnisskaliert

nominalskaliert

Welchen Datentyp haben die Werte in Variable 'Cruise' (in Spalte A)?

Text
Zahl
Datum/Zeit

Text

Welches Skalenniveau hat Variable 'DOXY [ml/l]' (Sauerstoffkonz.; in Spalte K)?

nominalskaliert

ordinalskaliert
intervallskaliert
verhältnisskaliert

verhältnisskaliert

Die Tabelle zeigt die Anzahl der Fänge von 3 Fischarten in 5 Zügen (‘trawls’) an:

Wie viele Variablen siehst du?

Du solltest 3 sehen:

Die nominale Variable Art.
Eine (versteckte) nominale Variable mit den Gruppen Gefangen und Nicht Gefangen.
Die eigentliche Anzahl in diesen 2 Gruppen als diskrete Variable.

Welche der folgenden Aussagen ist NICHT korrekt?

Informationen sind strukturierte, organisierte Daten.
Daten haben keinen Zweckbezug.
Daten sind immer bedeutsam.
Informationen sind immer bedeutsam.

Daten sind immer bedeutsam

In welches Skalenniveau könnte man Abundanzdaten auch einstufen, wenn nur wenige Werte in der Variable vorkommen (wie z.B. 0, 1 und 2)?

nominalskaliert
ordinalskaliert
intervallskaliert
verhältnisskaliert

ordinalskaliert

Welche Datentypen können nominale Daten haben?

nur Text
nur Zahlen
nur Datum/Zeit
Text und Zahlen
Text und Datum/Zeit
Zahlen und Datum/Zeit

Text und Zahlen

Daten in Tabellenkalkulationsprogrammen sind..?

unstrukturiert
quasi-strukturiert
semi-strukturiert
strukturiert

semi-strukturiert

Welche der folgenden Aussagen ist NICHT korrekt?

Eine Datenbank besitzt eine Datenbankverwaltung und ein Datenbankmanagementsystem.
Eine Datenbank erlaubt nur den zeitlich getrennten Zugriff mehrerer Benutzer.
Eine Datenbank erlaubt den Zugriff mehrerer Benutzer gleichzeitig.
Eine Datenbank ist eine strukturierte Datensammlung.

Eine Datenbank erlaubt nur den zeitlich getrennten Zugriff mehrerer Benutzer.

Welches der folgenden Dateiformate zählt nicht zu den Textformaten?

.csv
.rtf
.txt
.xlsx

.xlsx

Folgende Werte wurden gemessen:

51 51 54 54 54 54 57 57 57 65 75 75 75 75 75 75 75 75 75 75 76 77 77 77 83 83 95 95 95 95 96 96 96 96 96

Welcher Wert repräsentiert den Modalwert?

Folgende Datenverteilung wurde beobachtet:

Welche Reihenfolge passt zu der Verteilung links?

Median > Modalwert > Mittelwert
Modalwert > Median > Mittelwert
Mittelwert > Median > Modalwert
Mittelwert > Modalwert > Median

Modalwert > Median > Mittelwert

Die gesuchte Stichprobenstatistik ist:

Median
arithmetischer Mittelwert
Varianz
Standardabweichung
Standardfehler

Standardabweichung

Die gesuchte Stichprobenstatistik ist:

Median
arithmetischer Mittelwert
Varianz
Standardabweichung
Standardfehler

arithmetischer Mittelwert

Wie würdest Du die Verteilung beschreiben?

linksschief
rechtsschief
normal verteilt
multimodal

rechtsschief

Wie würdest Du die Kurtosis der Verteilung beschreiben?

schmal- oder steilgipflig
normalgipflig
breit- oder flachgipflig

normalgipflig

Wie würdest Du die Kurtosis dieser Verteilung beschreiben?

schmal- oder steilgipflig
normalgipflig
breit- oder flachgipflig

schmal- oder steilgipflig

Wie würdest Du die Verteilung beschreiben?

linksschief
rechtsschief
normal verteilt

linksschief

Welche der folgenden Aussagen trifft am ehesten zu?

Verteilungen sind normal, Varianzen sind gleich, im Mittel unterscheiden sich Gruppen stark
Verteilungen sind nicht normal, Varianzen sind ungleich, im Mittel unterscheiden sich Gruppen stark
Verteilungen sind nicht normal, Varianzen sind ungleich, im Mittel unterscheiden sich Gruppen kaum

Gewichtsverteilung von Küken mit vier unterschiediedlichen Ernährungen

Verteilungen sind nicht normal, Varianzen sind ungleich, im Mittel unterscheiden sich Gruppen kaum

Wozu wird die deskriptive Statistik nicht angewendet?

Datenexploration
Zusammenfassung von Datenpunkten

Erkennung von Mustern

Ableitung von Eigenschaften der Stichprobe auf die Grundgesamtheit

Ableitung von Eigenschaften der Stichprobe auf die Grundgesamtheit

Mit der numerischen deskriptiven Statistik macht man Aussagen über die

Zentriertheit und Streuung der Datenpunkte
Verteilung der Werte

Zentriertheit und Streuung der Datenpunkte

Parameter werden mit

lateinischen Buchstaben definiert
griechischen Buchstaben definiert
kyrillischen Buchstaben definiert

griechischen Buchstaben

Was stellt die Stichprobenstatistik NICHT dar?

eine Zufallsmenge
eine Variable
eine Population

eine Population

Welches ist kein Lagemaß?

Median
arithmetischer Mittelwert
2. Quartil
Maximum
Modalwert

Maximum

Welches ist kein Streuungsparameter?

Variationskoeffizient
Standardweite
Varianz
Standardfehler
Spannweite
Standardabweichung

Standardweite

Welcher Lageparameter eignet sich bei nominalen Daten?

Median
arithmetischer Mittelwert
Modalwert
gewichteter Mittelwert

Modalwert

Welches Quartil stellt der Median dar?

1. Quartil
2. Quartil
3. Quartil
4. Quartil

Quantil

Welchen der folgenden Mittelwerte gibt es NICHT?

harmonischer
geometrischer
arithmetischer
probalistischer
gewichteter
getrimmter

probalistischer

Wie ist das Verhältnis von Varianz zu (arithmetischem) Mittelwert wenn das Muster in der Natur ZUFÄLLIG ist?

Varianz < Mittelwert
Varianz = Mittelwert
Varianz > Mittelwert

Varianz = Mittelwert

Was sind Residuen?

Abweichungen des Mittelwerts von der Varianz
Abweichungen der Einzelwerte von der Varianz
Abweichungen der Einzelwerte vom Mittelwert

Abweichungen der Einzelwerte vom Mittelwert

Die Summe der Residuen ist immer

gleich Null
größer Null
kleiner Null

gleich Null

Die Varianz ist der Quotient aus

Summenquadrate und Stichprobenzahl
Mittlere Summenquadrate und Stichprobenzahl
Mittlere Summenquadrate und Freiheitsgrade
Summenquadrate und Freiheitsgrade

Summenquadrate und Freiheitsgrade

Der Variationskoeffizient erlaubt den Vergleich von Gruppen, die sich in folgendem unterscheiden:

im Mittelwert
in der Varianz
in der Stichprobengröße

im Mittelwert

Wie wird eine Häufigkeitsverteilung auch genannt?

Hypothetische Verteilung
Theoretische Verteilung
Empirische Verteilung

Empirische Verteilung

Bei der Normalverteilung sind wieviel Prozent aller Datenpunkte innerhalb -1SD und +1SD?

68%

Welche der folgenden Eigenschaften gehört nicht zur Normalverteilung?

die Kurtosis ist positiv
kontinuierliche, symmetrische Verteilung
lässt sich mit dem Mittelwert und der Varianz spezifizieren
die Schiefe ist null

Kurtosis ist positiv

Welche Eigenschaft weist die Verteilung von Abundanzdaten oft auf?

linksschief
rechtsschief
schmalgipflig
breitgipflig

rechtsschief

Bei welchen Daten eignet sich das Histogramm?

kontinuierlichen Daten
diskreten Daten
nominalen Daten
Prozentdaten

kontinuierliche Daten

Bei welchen Daten eignet sich das Säulendiagramm NICHT??

kontinuierlichen Daten
diskreten Daten
nominalen Daten

kontinuierliche Daten

Bei welchen Daten eignet sich der Boxplot NICHT??

kontinuierlichen Daten
diskreten Daten
nominalen Daten
Prozentdaten

nominale Daten

Was ist der Unterschied zwischen einer Korrelation und einer Regression?

Die Korrelation prüft auf Beziehungen mit Kausalität, die Regression ohne Kausalität.
Die Korrelation prüft auf Beziehungen ohne Kausalität, die Regression mit Kausalität.

Die Korrelation prüft auf Beziehungen ohne Kausalität, die Regression mit Kausalität.

Welcher der folgenden Optionen is KEIN Charakteristikum von bivariaten Beziehungen?

Ausreißer
Stärke
Richtung
Unterschied der Mittelwerte
Form

Unterschied der Mittelwerte

Was ist das Problem bei der Kovarianz als Maß einer linearen Beziehung?

Ihre Größe hängt vom Stichprobenumfang ab.
Ihre Größe hängt von den Einheiten beider Variablen ab.
Die Kovarianz kann nur eine Aussage über die Gesamtstreuung machen, nicht über die Stärke der Beziehung.

Ihre Größe hängt von den Einheiten beider Variablen ab.

Der Wertebereich des Korrelationskoeffizienten liegt zwischen..?

-1 und 1
0 und 1
0 und 100
-∞ und +∞

-1 und 1

Ein Koeffizient von -0.82 repräsentiert..?

keine Korrelation
eine schwach negative Korrelation
eine stark negative Korrelation

eine stark negative Korrelation

Wozu werden statistische Modelle in der Biologie NICHT primär benutzt?

Datenexploration
Interpolation
Identifizierung wichtiger Einflussgrößen
Extrapolation

Datenexploration

Was ist die Y-Variable in statistischen Modellen?

abhängige Variable
erklärende Variable

abhängige Variable

Was stellt b in der linearen Geradengleichung (y = a + bx) dar?

erklärende Variable
abhängige Variable
Y-Achsenabschnitt
Steigungskoeffizient

Steigungskoeffizient

Welcher lineare Funktionstyp stellt am besten das isometrische Wachstum dar?

Typ A (positive/r Achsenabschnitt und Steigung)
Typ B (positive Steigung, Achsenabschnitt Null)
Typ C (positiver Achsenabschnitt, negative Steigung)
Typ D (negativer Achsenabschnitt, positive Steigung)

Typ B (positive Steigung, Achsenabschnitt Null)

Mit welcher Transformation kann man die Parameter einer Exponentialfunktion mittels linearer Regression bestimmen?

Logarithmus zur Basis 2
Logarithmus zur Basis 10
Logarithmus zur Basis e (natürlicher Logarithmus)
Wurzeltransformation

Logarithmus zur Basis e (natürlicher Logarithmus)

Was wird bei der 'Ordinary Least Squares' Methode minimiert?

Abweichungsquadrate
Summenquadrate
Abweichungssummen
Abweichungssummenquadrate

Abweichungssummenquadrate

Was sagt ein R^2 von 0.9 über ein Modell aus?

eine sehr niedrige Modellgüte
sehr hohe Modellgüte
einen solchen Wert gibt es beim R^2 nicht

sehr hohe Modellgüte

Code: Subtrahieren Sie 10 von 23 und multiplizieren Sie das Ergebnis mit 2.

(23-10)*2

[1] 26

Code: Subtrahieren Sie 10 von 23, multiplizieren Sie das Ergebnis mit 2, addieren Sie dann 100 dazu und Sie das Ergebnis durch 5.

((23-10)*2+100)/5

[1] 25.2

Code: Subtrahiere Sie 23 von 10, multiplizieren Sie das Ergebnis mit -10 und nehmen Sie dann davon die Quadratwurzel (verwenden Sie die Funktion sqrt()).

sqrt((10-23)*-10)

[1] 11.40175

Welches könnte ein weiteres Grundelement bei den Programmiersprachen C++, Java, JavaScript, Python und R sein (denken Sie an die Klasse, die sie alle vereint)?

Operatoren
Datenytpen
Anweisungen
Objekte

Objekte

Wie bezeichnet man die Gesamtheit aller Anweisungen, die in einer bestimmten Programmiersprache geschrieben sind?

Codequelle
Quellcode
Syntax
Es gibt keinen Namen dafür.

Quellcode

Was ist ein Programm?

Die Umsetzung eines Algorithmus und der zugehörigen Datenbereiche in eine Programmiersprache.
Die Umsetzung einer Programmiersprache und der zugehörigen Datenbereiche in einen Algorithmus.
Die Umsetzung eines Datenbereiche in einen Algorithmus und der zugehörigen Programmiersprache.

Die Umsetzung eines Algorithmus und der zugehörigen Datenbereiche in eine Programmiersprache.

Was lässt sich mit einer Programmiersprache formulieren?

Eine Datei
Daten
Eine Rechenvorschrift

Eine Rechenvorschrift

Welches der folgenden Antworten ist KEINE Klasse einer Programmiersprache?

Funktionale Programmierung
Datenorientierte Programmierung
Objektorientierte Programmierung
Imperative Programmierung

Datenorientierte Programmierung

Bei welchen der 3 Übersetzungstypen wird der Quellcode während der Laufzeit des Programms übersetzt?

Compiler
Interpreter
JIT-Compiler

Interpreter

Was ist KEIN Algorithmus?

Reihe von Anweisungen um eine Aufgabe oder ein Problem zu lösen.
Rezept
Bedienungsanleitung eines Fernseher
Notfall- und Alarmplan
Zeitungsartikel

Zeitungsartikel

Welches der 4 Grundelemente einer Programmiersprache stellt Code dar, der solange ausgeführt wird, wie die Bedingung wahr ist?

Variable
Bedingung
Schleife
Funktion

Schleife

Bei welchem der 4 Grundelemente einer Programmiersprache wird Code ausgeführt, wenn eine Abfrage zutrifft?

Variable
Bedingung
Schleife
Funktion

Bedingung

Welches der 4 Grundelemente einer Programmiersprache stellt Code dar, der jederzeit über den jeweiligen Namen aufgerufen werden kann?

Variable
Bedingung
Schleife
Funktion

Funktion

Welches der 4 Grundelemente einer Programmiersprache stellt eine Möglichkeit dar, im Programm einen Wert (Zahl, Zeichen,..) zu speichern?

Variable
Bedingung
Schleife
Funktion

Variable

name ??? 'John Doe'

< -

??? < - ???

x < - 50

a < - 20

??? < - 4

y <??? n * a + 110

a < - 20

n < - 4

y < - n * a + 110

my_value ??? 'A1'

???(my_value)

[1] TRUE

=
as.numeric
is.character
is.double
is.integer
< -
- >
as.character

my_value < - 'A1'

is.character(my_value)

[1] TRUE

Welche der folgenden Anweisungen ist NICHT korrekt?

c(2,4,6,8,10)

seq(from = 2, to = 10, by = 2)

rep(2,4,6,8,10)

rep(2,4,6,8,10)

??? ??? ???

[1] 6 7 8 9 10

)
rep
6
-
:
10
(

6 : 10

Teste Dein Verständnis und sage das richtige Ergebnis voraus: c('a', 1)

logischer Vektor
'integer' Vektor
'double' Vektor
'character' Vektor
NA
Fehlermeldung

'character' Vektor

Teste Dein Verständnis und sage das richtige Ergebnis voraus: c(1, FALSE)

logischer Vektor
'integer' Vektor
'double' Vektor
'character' Vektor
NA
Fehlermeldung

'double' Vektor

Teste Dein Verständnis und sage das richtige Ergebnis voraus: c(TRUE, 1L)

logischer Vektor
'integer' Vektor
'double' Vektor
'character' Vektor
NA
Fehlermeldung

'integer' Vektor

Was ist die Summe von allen Elementen in folgendem Vektor: x <- c(TRUE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE,

TRUE, TRUE, FALSE)

5
10
0
7
Die Summe lässt sich nicht berechnen.

x < - c(3,0,1,8,0,NA,8,0,4,NA,5,1,NA,7,7,9,2,1,NA,5,1,NA,0)

???( ???(x))

[1] 5

is.na
as.na
sum
count
na

x < - c(3,0,1,8,0,NA,8,0,4,NA,5,1,NA,7,7,9,2,1,NA,5,1,NA,0)

sum(is.na(x))

[1] 5

Welcher Output ist bei folgender Berechnung zu erwarten: a <- c(10,5,100) b <- 1:5 (a*b)*3

Der Output ist ein Vektor der Länge 1.
Der Output ist ein Vektor der Länge 3, das letzte Element hat den Wert 900.
Der Output ist ein Vektor der Länge 5, das letzte Element hat den Wert 75.
Der Output ist ein Vektor der Länge 5, das letzte Element hat den Wert NA.

Der Output ist ein Vektor der Länge 5, das letzte Element hat den Wert 75.

Fülle den Code aus, um das 5. Element in 'x' auszuwählen

x ??? ??? ???

(
5
-
5
[
]
)

x[5]

Fülle den Code aus, um die Summe aus den Elementen 3 bis 12 zu berechnen.

???(x[ ???])

3:12
3;12
summe
3-12
sum

sum(x[3:12]

Fülle den Code aus, um die Summe aus allen Elementen AUSSER Element 2 und 18 zu berechnen.

sum(x[??? ???])

+
2+18
c(2,18)
2,18
-

sum(x[-c(2,18)])

Fülle den Code aus, um alle geraden Zahlen auszuwählen.

???[vec ??? 2 ??? ??? ]

vec[vec %% 2 == 0]

Fülle den Code aus, um alle ungeraden Zahlen auszuwählen.

??? [vec ??? 2 ??? ??? ]

1, 2
1
*
/
%%
vec
==
y
x

vec[vec %% 2 == 1 ]

Fülle den Code aus, um die letzten 10 Elemente auszuwählen.

nvec[( ??? ): ???]

length(nvec)-9
length(nvec)

nvec[( length(nvec)-9 ): length(nvec)]

Was passiert, wenn mit einer positiven ganzen Zahl indexiert wird, die höher ist als die Länge des Vektors?

Es gibt eine Fehlermeldung.
Nichts.
Der Vektor wird recycled (z.B. wird das 2. Element bei einem Vektor der Länge 10 ausgegeben wenn der Index 12 ist).
NA wird zurückgegeben.

NA wird zurückgegeben.

Welchen Wert hat das fünfte Element des zurückgegebenen Vektors aus folgender Berechnung: c(2, 4, 6, 8, 10, 0) * 1:3

Fülle den Code aus, um die Varianz von x in Einzelschritten zu berechnen.

x < - c(26, 35, 76, 73, 108, 25, 76, 102, 11)

mean_x < - ??? (x)

df < - ??? (x) - 1

var_x <- sum( (??? - ???)^2 ) / ???

[1] 1268.611

mean_x
mw
n
length
x
count
mean
df

x < - c(26, 35, 76, 73, 108, 25, 76, 102, 11)

mean_x < - mean(x)

df < - length(x) - 1

varx <- sum( (x - meanx)^2 ) / df

[1] 1268.611

Schau Dir folgenden Datensatz an:

head(iris, 3)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1 5.1 3.5 1.4 0.2 setosa

2 4.9 3.0 1.4 0.2 setosa

3 4.7 3.2 1.3 0.2 setosa

Zu welchem Objekttyp gehört der 'iris' Datensatz

Vektor
Liste
Matrix
Data frame

Data frame

Schau Dir die Struktur vom iris Datensatz an:

str(iris)

'data.frame': 150 obs. of 5 variables:

$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...

$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...

$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...

$ Species : Factor w/ 3 levels "setosa","versicolor",..:

1 1 1 1 1 1 1 1 1 1 ...

Wie groß sind die Dimensionen im 'iris' Datensatz

5 Zeilen, 150 Spalten
150 Zeilen, 5 Spalten
Die Dimensionsgrößen sind dem Output nicht zu entnehmen.

150 Zeilen, 5 Spalten

Aus welchem der beiden Pakete wird R die Funktionen filter() und lag()verwenden?

stats
dplyr

dplyr

Entfernen Sie alle Zeilen, wo es fehlende Werte bei der Salinität gibt:

sample1_mod1 < - ??? (sample1, ??? )

doxy
fill
psal
temp
drop_na
replace_na

sample1_mod1 < - drop_na(sample1, psal)

Füllen Sie die NAs in allen 3 Parametern mit den jeweils vorherigen (ansonsten nachfolgenden) Werten auf:

sample1_mod2 < - ???(??? ,

temp:doxy, .direction = ??? )

drop_na
replace_na
fill
'down'
'downup'
sample1
'up'

sample1_mod2 < - fill( sample1,

temp:doxy, .direction = 'downup' )

Tauschen Sie die NAs mit dem Median des jeweiligen Parameters aus:

sample1_mod3 < - ???(sample1, list(

temp = ???(sample1$temp, na.rm=TRUE),

psal = median(??? , na.rm=TRUE),

doxy = median(sample1$doxy, ???) )

)

fill
drop_na
na.rm = FALSE
na.rm=TRUE
replace_na
mean
sample1$psal
median

sample_1mod3 < - replace_na(sample1, list(

temp = median(sample1$temp, na.rm=TRUE),

psal = median(sample$psal , na.rm=TRUE),

doxy = median(sample1$doxy, na.rm=TRUE) )

)

stocks_mod1 < - ??? (

stocks,

names_from = ???,

??? = stock_return

)

names_to
values_to
values_from
pivot_wider
'quarter'
quarter
pivot_longer

stocks_mod1 < - pivot_vider (

stocks,

names_from = quarter,

values_from = stock_return

)

Vervollständigen Sie den Code, um den Datensatz zurück ins ursprüngliche Format zu bringen:

stocks_mod2 < - ???(

stocks_mod1,

??? = 'quarter',

values_to = ???

)

'stock_return'
names_to
pivot_longer
stock_return
names_from
pivot_wider

stocks_mod2 < - pivot_longer(

stocks_mod1,

names_to = 'quarter',

values_to = 'stock_return'

)

Zurück zur Eingangsfrage:

Warum sind pivot_longer() und pivot_wider() nicht perfekt symmetrisch?

Worin unterscheiden sich der (lange) Originaldatensatz stocks und der (lange) Datensatz stocks_mod2?

Fehlende 'year'-'quarter' Kombinationen wurden mit NAs aufgefüllt.
Die Reihenfolge der Zeilen hat sich geändert.
Der Datentyp der 'quarter' Spalte hat sich geändert.
Alle 3 genannten Unterschiede treffen zu.

Alle 3 genannten Unterschiede treffen zu.

Füllen Sie den Code aus, um die Spalten quarter und year (mit ‘/’ als Trennzeichen) zusammenzufügen:

stocks1 < - ???(

stocks, quarter, year,

??? = 'time',

??? = '/'

)

cols
unite
separate
dec
sep
col

stocks1 < - unite(

stocks, quarter, year,

col = 'time',

sep = '/'

)

Füllen Sie den Code aus, um die Spalten quarter und year (mit ‘/’ als Trennzeichen) zu trennen:

stocks2 <- ???(

stocks1, ???

into = ???

)

unite
c('quarter', 'year')
separatec(quarter, year)
time
'time'

stocks2 <- separate(

stocks1, time

into = c('quarter', 'year')

)

Welcher der folgenden Punkte gehört NICHT zur Datenprüfung und -bereinigung?

Entfernung von irrelevanten Daten und Ausreißern
Maskierung privater oder **sensibler** Dateneinträge.
Berichtigung von Informationen.
Anpassung der Daten an ein standardisiertes Muster.
Bildung von Teildatensätzen
Handling fehlender Werte.

Bildung von Teildatensätzen

Wo sucht R als ERSTES nach Funktionen?

Im zuletzt geladenen Paket.
Im zuerst geladenen Paket.
In der Arbeitsumgebung.
In der sog. base environment.

In der Arbeitsumgebung.

Welches der hier gelisteten Pakete wird NICHT automatisch mit dem 'tidyverse' Paket geladen?

ggplot2
lubridate
forcats
purrr
tibble
tidyr
dplyr
stringr
readr

lubridate

Welches Argument kommt bei (fast) allen Funktionen der 'tidyverse' Pakete an erster Stelle?

na.rm
col
sep
data

data

Mit welcher Funktion lassen sich nicht nur deskriptive Statistiken anzeigen, sondern auch die Anzahl an fehlenden Werten?

summary(data.frame)
is.na(data.frame)
aggregate(data.frame)
statistics(data.frame)

summary(data.frame)

Mit welcher 'tidyr' Funktion lassen sich Zeilen mit fehlenden Werten entfernen?

replace__na()
drop_na()
fill()
unite()
separate()

drop_na()

Mit welcher 'tidyr' Funktion lassen Informationen einer Spalte auf 2 oder mehr trennen?

replace__na()
drop_na()
fill()
unite()
separate()

separate()

In welches Format wandelt die Funktion pivot_longer() eine Tabelle?

Vom langen ins weite Format.
Vom weiten ins lange Format.
Die Funktion hat nichts mit Formatänderungen zu tun.

Vom weiten ins lange Format.

Welchen zusätzlichen Klassentyp haben 'tibbles' Objekte?

list
array
keinen
tbl_df

tdl_df

Wir wollen uns die Verteilung der Kelchblattlänge bei der Art Iris versicolor anschauen:

x <- iris ???

???(Species == 'versicolor')

hist(x$Sepal.Length)

|>
select
>%>
arrange
filter
transmute

x <- iris |>

filter(Species == 'versicolor')

hist(x$Sepal.Length)

Gibt es eine Beziehung zwischen dem Längen/Breiten-Verhältnis bei Kron- und Kelchblättern der Art Iris setosa? Um dies grafisch untersuchen zu können, transformieren Sie den iris Datensatz:

x <- iris |>

??? (Species ??? 'setosa') |>

???(

sepal_lw = Sepal.Length/Sepal.Width,

petal_lw = Petal.Length/Petal.Width

)

plot(x$sepal_lw, x$petal_lw)

arrange
==
mutate
filter
select
=

x <- iris |>

filter(Species == 'setosa') |>

mutate(

sepal_lw = Sepal.Length/Sepal.Width,

petal_lw = Petal.Length/Petal.Width

)

Erstellen Sie einen ‘tibble’ basierend auf dem iris Datensatz, welcher nur die Spalte ‘Species’ enthält und eine neue (absteigend sortierte) Spalte mit dem Quotienten aus der Kelchblattlänge zu -breite. Der ‘tibble’ soll aber nur die Arten I. versicolor und I. virginica und Quotientenwerte größer 2 enthalten:

iris |>

???(sepal_lw = Sepal.Length/Sepal.Width) |>

???(??? %in% c('versicolor', 'virginica'), ??? > 2) |>

???(Species, sepal_lw) |>

???(desc(sepal_lw)) |>

???()

tibble
sepal_lw
Species
transmute
filter
mutate
arrange
as_tibble
select

iris |>

mutate(sepal_lw = Sepal.Length/Sepal.Width) |>

select(Species %in% c('versicolor', 'virginica'), sepal_lw > 2) |>

filter(Species, sepal_lw) |>

arrange(desc(sepal_lw)) |>

as_tibble()

Berechnen Sie pro Art: Median, Mittelwert, Standardabweichung und Minimalwert für die Kronblattlänge:

iris |>

???(Species) |>

???(

pl_median = ??? (Petal.Length),

pl_mean = ??? (Petal.Length),

pl_sd = ???(Petal.Length),

pl_min = ???(Petal.Length)

)

filter
summarise
median
mutate
group_by
stdev
mean
minimal
min
sd

iris |>

group_by(Species) |>

summarise(

pl_median = median(Petal.Length),

pl_mean = mean(Petal.Length),

pl_sd = sd(Petal.Length),

pl_min = min(Petal.Length)

)

ChickWeight |>

???(Diet) |>

???()

group_by
group
summarise
distinct
count

ChickWeight |>

group_by(Diet) |>

count()

Wir wollen uns die Verteilung der Kelchblattlänge bei der Art Iris versicolor anschauen:

x < - iris ???

???(Species == 'versicolor')

hist(x$Sepal.Length)

|>
select
>%>
arrange
filter
transmute

x < - iris |>

filter(Species == 'versicolor')

hist(x$Sepal.Length)

Welcher der folgenden Punkte gehört NICHT zur Datentransformation und -anreicherung?

Bildung von Teildatensätzen.
Berechnung zusammenfassender Statistiken.
Kombination von Datensätzen zur Anreicherung und Verbindung zusammenhängender Informationen.
Anpassung der Daten an ein standardisiertes Muster.
Hinzufügen neuer Variablen.

Anpassung der Daten an ein standardisiertes Muster.

An welche Position gehört der sog. pipe Operator?

Vor jedem Befehl.
Nach jedem Befehl.

Nach jedem Befehl

Welche der folgenden Funktionen reduziert Variablen zu Einzelwerten?

arrange()
filter()
select()
summarise()
transmute()
group_by()
bind_cols()

summarise()

Welche der folgenden Funktionen extrahiert Zeilen, die ein logisches Kriterium erfüllen?

inner_join()
bind_rows()
transmute()
arrrange()
select()
filter()

filter()

Was macht die Funktion distinct()?

Sie extrahiert einzigartige Zeilen.
Sie sortiert Zeilen nach spezifischen Variablen.
Sie hängt 2 oder mehr Tabellen spaltenweise aneinander.

Sie extrahiert einzigartige Zeilen.

Was ist der Unterschied zwischen der Funktion count() und n() ?

Beide geben die gruppen-spezifische Anzahl an Beobachtungen (Zeilen) aus; count() wird aber innerhalb von summarise() verwendet und n() anstelle von summarise().
Beide geben die gruppen-spezifische Anzahl an Beobachtungen (Zeilen) aus; n() wird aber innerhalb von summarise() verwendet und count() anstelle von summarise().

Beide geben die gruppen-spezifische Anzahl an Beobachtungen (Zeilen) aus; n() wird aber innerhalb von summarise() verwendet und count() anstelle von summarise().

Welche der XXX_join() Funktionen gibt nur die Zeilen zurück, wo die übereinstimmenden Spalten gleiche Werte enthalten?

left_join()
full_join()
inner_join()
right_join()

inner_join()

Was ist der Unterschied zwischen der Funktion mutate() und transmute() ?

Beide erstellen neue Variablen, aber mutate() behält dabei die Originalvariablen, während transmute() diese entfernt.
Beide erstellen neue Variablen, aber transmute() behält dabei die Originalvariablen, während mutate() diese entfernt.

Beide erstellen neue Variablen, aber mutate() behält dabei die Originalvariablen, während transmute() diese entfernt.

Mit welcher dplyr Funktion können Namen von Variablen ersetzt werden?

arrange()
filter()
select()
rename()
mutate()
transmute()

rename()

Wie viele Variablen werden in der Grafik repräsentiert?

Größe
Form
Farbe
Position in x-Richtung
Position in y-Richtung)

Und wie viele der 5 hier dargestellten Variablen könnten davon quantitativ und wie viele kategorial sein?

alle quantitativ
4 quantitativ, 1 kategorial
3 quantitativ, 2 kategorial
2 quantitativ, 3 kategorial
1 quantitativ, 4 kategorial
alle kategorial

3 quantitativ, 2 kategorial

Größe (quantitativ)
Form (kategorial)
Farbe (kategorial)
Position in x-Richtung (quantitativ)
Position in y-Richtung)(quantitativ)

Welcher Diagrammtyp wird dargestellt?

Boxplot
Säulendiagramm mit Fehlerbalken
Gestapeltes Säulendiagramm
Wasserfall Diagramm
Histogramm

Säulendiagramm mit Fehlerbalken

In welche Kategorie lässt sich die Grafik am ehesten einordnen?

Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien

Gruppenvergleich

Wie viele Variablen werden in jedem einzelnen Bild (im Englischen 'panel') dargestellt?

Welchem Datentyp gehören die Variablen an?

nur nominal
nur ordinal
nur kontinuierlich
nominal und kontinuierlich
ordinal und kontinuierlich

ordinal und kontinuierlich

Welcher Diagrammtyp wird dargestellt?

Boxplot
Säulendiagramm mit Fehlerbalken
Gestapeltes Säulendiagramm
Wasserfall Diagramm
Histogramm

Histogramm

In welche Kategorie lässt sich die Grafik am ehesten einordnen?

Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien

Verteilung

Wie viele Variablen werden in jedem einzelnen Bild dargestellt?

Zu welchem Datentyp gehört die Variable?

nominalskaliert
ordinalskaliert
diskret
kontinuierlich

kontinuierlich

Welcher Diagrammtyp wird im ersten Bild oben links dargestellt?

Verbundener Punktplot
Punkteplot
Liniendiagramm
QQ Plot
Punkteplot mit Glättungskurve (smoother)

Punkteplot mit Glättungskurve (smoother)

In welche Kategorie lässt sich die Grafik am ehesten einordnen?

Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien

Trends

Wie viele Variablen werden in jedem einzelnen Bild (im Englischen 'panel') dargestellt?

Welchem Datentyp gehören die Variablen an?

nur ordinal
nur diskret
nur kontinuierlich
ordinal und kontinuierlich
diskret und kontinuierlich

diskret und kontinuierlich

Welcher Diagrammtyp wird im unteren Teil der Abbildung dargestellt?

Boxplot
Säulendiagramm mit Fehlerbalken
Gestapeltes Säulendiagramm
Gruppiertes Säulendiagramm
Histogramm

gruppiertes Säulendiagramm

In welche Kategorie lässt sich das untere Diagramm am ehesten einordnen?

Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien

Gruppenvergleich

Wie viele Variablen werden im untere Diagramm dargestellt?

Welchem Datentyp gehören die Variablen an?

nur nominal
nur ordinal
nur kontinuierlich
nominal und kontinuierlich
ordinal und kontinuierlich

nominal und kontinuierlich

Welcher Diagrammtyp wird jeweils dargestellt?

Radar Chart
Polar Chart
Donut Chart
Sunburst Chart
Chord Diagram

Radar Chart

In welche Kategorie lassen sich beide Diagramme am ehesten einordnen?

Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien

Gruppenvergleich

Wie viele Variablen werden jeweils dargestellt?

Welchem Datentyp gehören die Variablen an?

nur nominal
nur ordinal
nur kontinuierlich
nominal und kontinuierlich
ordinal und kontinuierlich

nominal und kontinuierlich

Welches könnte noch eine Kategorie von Diagrammtypen sein, die in dieser Vorlesung nicht gelistet wurden?

Infografiken
Karten
Zeichnungen
Sketche

Karten?

Welche der 5 Designschichten einer Grafik fehlt in dieser Auflistung: Datendarstellung, Interaktivität, Farbe, Komposition, ..?

Größe
Stimmung
Linien
Annotation

Annotation

Welche der beiden Aussagen ist korrekt?

Visual encoding entspricht dem top-down Ansatz, die Verwendung von fertigen Diagrammtypen dem bottom-up Ansatz.
Visual encoding entspricht dem bottom-up Ansatz, die Verwendung von fertigen Diagrammtypen dem top-down Ansatz.

Visual encoding entspricht dem bottom-up Ansatz, die Verwendung von fertigen Diagrammtypen dem top-down Ansatz.

Welches der folgenden gehört nicht zu den Grundelementen des 'visual encoding'?

Volumen
Punkte
Farben
Linien
Flächen

Farben

Welches der folgenden Attribute gehört nicht zu den quantitativen Attributen?

Symbole
Farbgradient
Winkel
Position

Symbole

Welches der folgenden Attribute gehört nicht zu den kategorialen (nominalen) Attributen?

Symbole
Diskrete Farben
Größe

Größe

Zu welcher Kategorie gehört der Blasenplot?

Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien

Beziehungen

Zu welcher Kategorie gehört das Liniendiagramm?

Verteilung
Gruppenvergleich
Teile-des-Ganzen
Beziehungen
Trends
Verbindungen
Hierarchien

Trends

Ab wie viel Variablen kann der 'gruppierte Punkteplot' verwendet werden?

Ab wie viel Variablen kann das Säulen/Balkendiagramm verwendet werden?

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

ggplot(??? = iris,

??? = aes(x = Petal.Length)) +

???()

geom_line
data
aesthetics
geom_col
mapping
geom_bar
geom_histogram

ggplot(data = iris,

mapping = aes(x = Petal.Length)) +

geom_histogramm()

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

ggplot(iris,

???(x = Species,

y = Petal.Width)) +

geom_boxplot(???)

fill = Species
aes
mapping
aes(fill = Species)

gplot(iris,

aes(x = Species,

y = Petal.Width)) +

geom_boxplot(aes(fill = Species))

ggplot(iris,

???(??? = Species,

??? = Petal.Width)) +

???(alpha = 0.1, size = 5,

colour = 'red')

aes
mapping
y
geom_density
x
geom_point

ggplot(iris,

aes(x = Species,

y = Petal.Width)) +

geom_point(alpha = 0.1, size = 5,

colour = 'red')

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

iris |>

ggplot(aes(x = Petal.Length, y = Sepal.Length)) +

???(??? = ???)

geom_point
aes(size
Petal.Width)
size geom_path

iris |>

ggplot(aes(x = Petal.Length, y = Sepal.Length)) +

geom_point(aes(size = Petal.Width) )

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

???(data = mtcars,

aes(wt, mpg, label = rownames(mtcars))) +

???(aes(size = gear)) +

???(aes(colour = factor(cyl)),

hjust = 0, nudge_x = 0.05) +

xlim(1,8)

geom_path
geom_point
ggplot
geom
geom_text

ggplot(data = mtcars,

aes(wt, mpg, label = rownames(mtcars))) +

geom_point(aes(size = gear)) +

geom_text(aes(colour = factor(cyl)),

hjust = 0, nudge_x = 0.05) +

xlim(1,8)

Wo müssen Variablen-spezifische Attribute definiert werden, damit sie global (also für alle Ebenen) gelten?

Innerhalb der ggplot() Funktion.
Innerhalb der geom_XXX() Funktionen.
Innerhalb der coord_XXX() Funktionen.
Innerhalb der scale_XXX() Funktionen.

Innerhalb der ggplot() Funktion.

Welches ist die Funktion, mit der man ein Diagramm startet oder initialisiert?

aes()
geom_point()
ggplot()
ggplot2()
coord_flip()

ggplot()

Wie nennt man die Zuweisung Variablen-spezifischer Attribute?

aesthetics
mapping
aesthetic mapping

aesthetic mapping

Was macht folgender Funktionsaufruf: aes(size = 10)

Weist dem Attribut Größe fälschlicherweise den Einheitswert 10 zu, wo eigentlich eine Variable zugewiesen werden müsste.
Weist dem Attribute Größe korrekt den einheitlichen Wert 10 zu.

Weist dem Attribut Größe fälschlicherweise den Einheitswert 10 zu, wo eigentlich eine Variable zugewiesen werden müsste.

Was machen die sog. geom_XXX() Funktion?

Sie bestimmen die Darstellung des XY-Koordinatensystems.
Sie bestimmen die Anzeige aller Nicht-Datenelemente des Plots.
Sie kombinieren ein Grundelement, welches die Daten repräsentiert, mit den Abbildungseigenschaften, einer Statistik und einer Positionsanpassung.

Sie kombinieren ein Grundelement, welches die Daten repräsentiert, mit den Abbildungseigenschaften, einer Statistik und einer Positionsanpassung.

Mit welcher Funktion kannst Du Titel, Untertitel, und Achsenbeschriftungen hinzufügen?

title()
lims()
labs()

labs()

Es soll ein sog. Blasenplot (‘bubble plot’) erstellt werden, sprich ein Streudiagramm bei dem die Größe der Punkte abhängig ist von einer dritten, quantitativen Variable (‘z’).

Welcher der rechten Codeschnipsel ist korrekt?

Der erste.
Der zweite.
Der dritte.

Mögliche Codeschnipsel

ggplot(df, aes(x, y), size = z) +

geom_point()

ggplot(df, aes(x, y)) +

geom_point(aes(size = z))

ggplot(df, aes(x, y)) +

geom_point(size = z)

Der zweite

Folgendes Diagramm soll erstellt werden:

Codeversuch zur Rekonstruktion

ggplot(iris,

aes(x = Species, y = Petal.Width)) +

geom_point(colour = Species,

shape = Species, alpha = 0.5)

Was ist an dem obigen Code falsch?

x und y dürfen nicht innerhalb der aes() Funktion sein.
alpha muss innerhalb der aes() Funktion stehen.
x muss außerhalb der aes() Funktion stehen.
colour und shape müssen innerhalb der aes() Funktion stehen.

colour und shape müssen innerhalb der aes() Funktion stehen.

Farbanpassung im Streudiagramm

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width)) +

geom_point(aes(colour = Species)) +

scale_colour_gradient(low = "yellow", high = "red")

Was ist an dem obigen Code falsch?

Die kategoriale Variable 'Species' kann nicht dem Farbattribut colour zugewiesen werden.
Es fehlt eine dritte Farbe in der scale_colour_gradient() Funktion.
scale_colour_gradient() kann nur bei quantitativen Variablen verwendet werden.
scale_colour_gradient() kann nur bei qualitativen/kategorialen Variablen verwendet werden.

scale_colour_gradient() kann nur bei quantitativen Variablen verwendet werden.

Beim sog. Blasenplot (‘bubble plot’) soll die Größenskala angepasst werden. Und zwar sollen die Größenstufen in 1er-Schritten von 2 bis 10 gehen.

Welcher der rechten Codeschnipsel ist korrekt?

Der erste.
Der zweite.
Der dritte.

Mögliche Codeschnipsel

ggplot(df, aes(x, y)) +

geom_point(aes(size = z)) +

scale_size(breaks = seq(2,20,2.5))

ggplot(df, aes(x, y)) +

geom_point(aes(size = z)) +

scale_size(range = seq(2,20,2.5))

ggplot(df, aes(x, y)) +

geom_point(aes(size = z)) +

scale_size(limits = seq(2,20,2.5))

Der erste

Ein Streudiagramm soll entsprechend einer kategorialen Variable (‘z’) in Teildiagramme (‘facets’) aufgeteilt werden. Diese Teildiagramme sollen dabei in einer Spalte angeordnet werden.

Welcher der rechten Codeschnipsel ist entsprechend korrekt?

Der erste.
Der zweite.
Der dritte.

Mögliche Codeschnipsel

ggplot(df, aes(x, y)) +

facet_wrap(~ z)

ggplot(df, aes(x, y)) +

facet_wrap(~ z, ncol = 1)

ggplot(df, aes(x, y)) +

facet_wrap(~ z, nrow = 1)

Der zweite

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen:

CO2 |>

ggplot(aes(x = conc, y = uptake)) +

geom_point() + geom_smooth() +

???(??? ,

labeller = label_both)

facet_grid
~ Treatment, nrow = 2
Treatment ~ Type
facet_wrap
Type ~ Treatment

CO2 |>

ggplot(aes(x = conc, y = uptake)) +

geom_point() + geom_smooth() +

facet_grid(Type ~ Treatment ,

labeller = label_both)

Welche ggplot2 Funktion wird für das Koordinatensystem als Standard verwendet?

coord_equal()
coord_fixed()
coord_cartesian()
coord_trans()
coord_map()

coord_cartesian()

Füllen Sie die Lücke, um das Diagramm (sog. 'coxcomb plot') rechts zu erstellen.

mtcars |>

ggplot(aes(x = factor(cyl))) +

geom_bar(aes(fill = ??? (cyl)), width = 1) +

???()

factor
coord_trans
coord_polar
coord_equal
coord_sf

mtcars |>

ggplot(aes(x = factor(cyl))) +

geom_bar(aes(fill = factor(cyl)), width = 1) +

coord_polar()

Wie kann die von ggplot2 automatisch erstellte Legende im Blasenplot (‘bubble plot’) wieder entfernt werden?

Welcher der rechten Codeschnipsel wird NICHT funktionieren?

Der erste.
Der zweite.
Der dritte.

Mögliche Codeschnipsel

ggplot(df, aes(x, y)) +

geom_point(aes(size = z)) +

guides("none")

ggplot(df, aes(x, y)) +

geom_point(aes(size = z)) +

guides(size = guide_none())

ggplot(df, aes(x, y)) +

geom_point(size = z) +

guides(size = "none")

Der erste

Füllen Sie die Lücke, um das rechte Diagramm zu erstellen.

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width)) +

geom_point(aes(shape = Species, colour = Petal.Width)) +

???( colour = ???(

order = 2, label.position = 'right'),

shape = ???(

order = 1, label.position = 'left')

)

guide_bins
guide_coloursteps
guide_colourbar
guide_axis
guides
guide_legend

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width)) +

geom_point(aes(shape = Species, colour = Petal.Width)) +

guides(

colour = guide_colourbar(

order = 2, label.position = 'right'),

shape = guide_legend(

order = 1, label.position = 'left')

)

Füllen Sie die Lücke, um das rechte Diagramm zu erstellen.

bshydro15 |>

ggplot(aes(x = month)) +

geom_bar() +

???(

axis.text.x = ???(angle = 45),

axis.line = ???(colour = 'grey50'),

panel.background = ???

)

element_text
element_line
element_blank()
theme

bshydro15 |>

ggplot(aes(x = month)) +

geom_bar() +

theme(

axis.text.x = element_text(angle = 45),

axis.line = element_line(colour = 'grey50'),

panel.background = element_blank()

)

Fülle die Lücke um rechtes Diagramm zu rekonstruieren.

ggplot(daphnia,

??? = treatment, y = offspring)) +

geom_boxplot(??? = treatment))

fill
x
aes( x
aes( fill

ggplot(daphnia,

aes( x = treatment, y = offspring)) +

geom_boxplot(aes( fill = treatment))

Fülle die Lücke um rechtes Diagramm zu rekonstruieren.

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_??? (name = 'Treatment',

??? = c('yellow', 'orange'))

manual_brewer
fill_discrete
colour_manual
colour_brewer
fill_manual
values

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_fill_maual(name = 'Treatment',

values = c('yellow', 'orange'))

Fülle die Lücke um rechtes Diagramm zu rekonstruieren.

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_fill_manual(name = 'Treatment'

values = c('yellow', 'orange'))+

???(??? ~ ???)

pop
facet_grid
facet_wrap
.

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_fill_manual(name = 'Treatment'

values = c('yellow', 'orange'))+

facet_grid(pop ~ .)

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_fill_manual(name = 'Treatment'

values = c('yellow', 'orange'))+

facet_grid(pop~.) +

coord??? ()

_map
_cartesian
_fixed
_flip
_trans
_polar

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_fill_manual(name = 'Treatment'

values = c('yellow', 'orange'))+

facet_grid(pop~.) +

coord_flip()

Fülle die Lücke um rechtes Diagramm zu rekonstruieren.

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_fill_manual(name = 'Treatment'

values = c('yellow', 'orange'))+

facet_grid(pop~.) +

coord_flip() +

???('Populations differences') +

???('Total number of offsprings') +

???('Treatment') +

???()

ylab
ggtitle
theme_bw
theme
xlab

ggplot(daphnia,

aes(x = treatment, y = offspring)) +

geom_boxplot(aes(fill = treatment)) +

scale_fill_manual(name = 'Treatment'

values = c('yellow', 'orange'))+

facet_grid(pop~.) +

coord_flip() +

ggtitle('Populations differences') +

ylab('Total number of offsprings') +

xlab('Treatment') +

theme_bw()

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

mantas <- data.frame(

month = ??? (c(9, 3, 5, 1, 7, 12),

???= 1:12,

???= c('Jan','Feb','Mar','Apr','May','Jun',

'Jul','Aug','Sep','Oct','Nov','Dec') ),

catch = c(13,11,26,5,22,8) )

ggplot(mantas, aes(x = month, y = catch)) +

???()

geom_bar
as.factor
factor
geom_col
levels
lvl
labels

mantas <- data.frame(

month = factor(c(9, 3, 5, 1, 7, 12),

levels= 1:12,

labels= c('Jan','Feb','Mar','Apr','May','Jun',

'Jul','Aug','Sep','Oct','Nov','Dec') ),

catch = c(13,11,26,5,22,8) )

ggplot(mantas, aes(x = month, y = catch)) +

geom_col()

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

mantas |>

mutate(month = ???(

.f = month, .x = catch)) |>

ggplot(aes(x = month, y = catch)) +

geom_col()

fct_reorder
fct_collapse
fct_rev
fct_relevel
fct_inorder

mantas |>

mutate(month = fct_reorder(

.f = month, .x = catch)) |>

ggplot(aes(x = month, y = catch)) +

geom_col()

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

iris |>

mutate(SL_lvl = ???(Sepal.Length, ???)) |>

ggplot(aes(Petal.Length, Petal.Width)) +

geom_point(aes(colour = SL_lvl))

4
factor
ordered
2
cut
3

iris |>

mutate(SL_lvl = cut(Sepal.Length, 2)) |>

ggplot(aes(Petal.Length, Petal.Width)) +

geom_point(aes(colour = SL_lvl))

Füllen Sie die Lücke, um rechtes Diagramm zu erstellen.

iris |>

group_by(Species) |>

summarise(SL_m = mean(Sepal.Length), SL_sd = sd(Sepal.Length) ) |>

ggplot(aes(x = ???(Species), y = SL_m)) +

geom_col(fill = 'orange') +

geom_??? (aes(ymin = SL_m-SL_sd, ymax = SL_m+SL_sd))

error
fct_rev
fct_reverse
bar
errorbar

iris |>

group_by(Species) |>

summarise(SL_m = mean(Sepal.Length), SL_sd = sd(Sepal.Length) ) |>

ggplot(aes(x = fct_rev(Species), y = SL_m)) +

geom_col(fill = 'orange') +

geom_errorbar(aes(ymin = SL_m-SL_sd, ymax = SL_m+SL_sd))

Folgender Vektor des Datentyp ‘POSIXcl’ soll in den Datentyp ‘Date’ umgewandelt werden:

d1

[1] "2015-07-26 18:16:00 UTC" "2015-07-03 16:42:00 UTC"

[3] "2015-09-01 04:45:00 UTC"

Füllen Sie die Lücke, um den Vektor entsprechend zu konvertieren.

d2 < - ???(d1)

ymd
as_datetime
make_date
ymd_hms
as_date

d2 < - as_date(d1)

Füllen Sie die Lücke, um jede Variable in den entsprechenden 'Date' bzw. 'POSIXcl' Datentyp zu konvertieren.

tbl <- mutate(tbl,

x1 = ???(x1), x2 = ???(x2),

x3 = ???(x3), x4 = ???(x4),

x5 = ???(x5) )

dym_hm
ydm
mdy
dmy
dmy_hms
ymd_hms
myd
dym
dmy_hm
ymd

tbl <- mutate(tbl,

x1 = ymd(x1), x2 = ydm(x2),

x3 = mdy(x3), x4 = ymd_hms(x4),

x5 = dmy_hm(x5) )

Aus der Spalte x4 sollen nun folgende Komponenten extrahiert werden: Jahr, Monat, Monatstag, Stunde:

tbl2 < - transmute(tbl,

Jahr = ???(x4),

Monat = ???(x4),

Monatstag = ???(x4),

Stunde = ???(x4)

)

hour
minute
mday
semester
month
year
yday

tbl2 < - transmute(tbl,

Jahr = year(x4),

Monat = month(x4),

Monatstag = mday(x4),

Stunde = hour(x4)

)

x

[1] "Placement in the"

[2] "genus is provisional pending"

[3] "the discovery of juvenile specimens."

y

[1] "Placement In The"

[2] "Genus Is Provisional Pending"

[3] "The Discovery Of Juvenile Specimens."

Mit welcher der folgenden Funktionen wurde Vektor x zu Vektor y konvertiert?

str_to_lower()
str_to_upper()
str_to_sentence()
str_to_title()

str_to_title()

x

[1] "Germany" "England" "Italy" "France"

"Sweden" "Norway" "Portugal"

y

[1] "GER" "ENG" "ITA" "FRA"

"SWE" "NOR" "POR"

y < - ???(??? = x, start = 1, ??? = 3) |>

???()

str_to_upper
str_sub
string
end

y < - str_sub(string = x, start = 1, end = 3) |>

str_to_upper()

???('A', 1:5, ??? = '/')

[1] 'A/1' 'A/2' 'A/3' 'A/4' 'A/5'

str_c
collapse
str_combine
sep
replacement
pattern
str_replace

str_c('A', 1:5, sep = '/')

[1] 'A/1' 'A/2' 'A/3' 'A/4' 'A/5'

str_c('A', 1:5, sep = ??? , collapse = ??? )

[1] 'A.1 / A.2 / A.3 / A.4 / A.5'

'.'
' / '
'/'
NULL
' '

str_c('A', 1:5, sep = '.' , collapse = ' / ' )

[1] 'A.1 / A.2 / A.3 / A.4 / A.5'

Wie viele Arten gehören der Gattung Carcharhinus (Requiemhaie) an (bzw. sind im sharks_fb tibble und somit in der fishbase.org Datenbank enthalten)?

data(sharks_fb, package = 'marinedata')

???(sharks_fb$Species, pattern = '^Carcharhinus') |>

sum()

[1] 35

str_detect
str_which
str_replace

data(sharks_fb, package = 'marinedata')

str_detect(sharks_fb$Species, pattern = '^Carcharhinus') |>

sum()

[1] 35

Sie haben folgenden Vektor x und wollen nun die Anfangsnullen entfernen (aus “file_001.csv” also “file_1.csv”,… machen):

x

[1] "file_001.csv" "file_002.csv"

"file_003.csv" "file_004.csv" "file_005.csv"

[6] "file_006.csv" "file_007.csv"

"file_008.csv" "file_009.csv" "file_010.csv"

???(x, pattern = ' ??? ',

replacement = '_')

_0
str_subset
str_replace
str_detect
str_split
_00
(_00|_0)

str_replace(x, pattern = '(_00|_0)',

replacement = '_')

Für welche Art von Variablentypen eignet sich der zusammengesetzte R Datentyp Faktor?

Metrische Variablen.
Kategoriale Variablen.

Kategoriale Variable

Welches Attribut gehört NICHT zum Faktor?

levels
class factor
groups

groups

Was passiert mit Werten, die nicht dem levels Argument zugewiesen werden?

Sie bleiben wie sie sind.
Sie werden leise zu NA konvertiert.
Sie werden leise zu NULL konvertiert.

Sie werden leise zu NA konvertiert.

Mit welchem Argument können Sie die angezeigten Werte in Faktoren ändern?

labels
levels
names
values

labels

Welche Funktion bietet sich an, wenn Sie ordinal-skalierte Variablen haben?

sorted()
ordinal()
ordered()

ordered()

Mit welcher Funktion können Sie eine kontinuierliche Variable in einen Faktor umwandeln?

factor()
cut()
breaks()
continuous_factor()

cut()

Wie viele Klassen gibt es in R für Datum und Zeit?

Nach welchem Kalender wird das Datum in R angezeigt?

Gregorianischer Kalender.
Julianischer Kalender.
Kyrillischer Kalender.

Gregorianischer Kalender

Welches Datum dient als Grundlage, vom dem aus das aktuelle Datum (in Sekunden) gezählt wird?

1.1.1850
1.1.1900
1.1.1970
1.1.2000

1.1.1970

Welche der folgenden ist die korrekte R Klasse für Datum- UND Zeitangaben?

POSIX
XIPOSct
POXISct
POSIXct

POSIXct

Folgende Datum- und Zeitangabe ist als Zeichenkette gegeben: 12/31/1999 23:59:59 Mit welcher lubridate Funktion kann diese Zeichenkette in den Typ POSIXct korrekt umgewandelt werden??

mdy()
dmy_h()
mdy_hm()
mdy_hms()
ymd_hms()

mdy_hms()

Zu welchem Datentyp gehören Zeichenketten in R?

complex
character
factor
logical

character

Mit welcher stringr Funktion lassen sich Leerzeichen entfernen?

str_trim()
str_remove_space()
str_pad()

Welche stringr Funktion kombiniert strings, ähnlich wie die Basisfunktion paste()?

str_paste()
str_combine()
str_c()
str_extract()

str_c()

Welche regulären Ausdrücke definieren die Anfangs- und Endpunkte einer Zeichenkette?

% und !
^ und $
? und §

^ und $

Welche stringr Funktion ist ein wrapper für x[str_detect(x, pattern)]?

str_extract()
str_sub()
str_split()
str_subset()

str_subset()

Join Course

Preview

Author

Lena K.

Information

Last changed
3 years ago

Report course

Semester 1 - Fragen

Author

Lena K.

Information