Linux commands
cp -> kopieren
mkdir -> Ordner anlegen
ls -> Alle dateien anzeigen lassen
rm -> löschen
cd .. -> in vorherigen Ordner gehen
cd xx -> in Ordner xx gehen
chmod -> Zugriffsrechte ändern
mv -> Bewegen oder Name ändern
pwd -> Pfad anzeigen lassen (in welchem Ordner man ist)
touch -> Datei erzeugen
Nenne 3 Sequenzierungsmethoden und beschreibe sie mit ihrer Read länge und qualität und throughput.
Sowie eine Low throughput methode
Illumina: short read (150 - 300 bp), 0.1% error rate; high throughput
PacBio: long read (10 - 25 kb), 15% error rate, high throuhput
Oxford Nanopore: full length (2.3 Mb), high error rate, high throuhput
Low throughput
Sanger Sequencing; Readlange ca. 1000bp, hohe Qualität; [Error-rate: 0,001% kann auser Acht gelassen werden]; low throughput
Was ist ein Genom-Index und wozu dient er?
“telephone book” for the genome
alphabetically ordered suffix array of the genome
speeds up search of specific sequences
used as a reference for example in read mapping in the analysis of RNAseq data
Welche Aussagen über BLAST sind korrekt?
A) BLAST nutzt lokale Aligments
B) BLAST nutzt globale Aligments
C) Der E-Value ist abhängig von der Größe der verwendeten Datenbank und sagt aus wie viele zufällige Treffer auftreten.
A + C sind richtig
Definiere den Begriff contig and scaffold.
= Bestandteile bei der Genomassemblierung
contig: continuous sequence = kontinuierliche Folge von sequenzierten Basen
scaffold: combined contigs with Ns inbetween = kombinierte Contigs mit Ns dazwischen
Woran erkennt man eine Kontamination der Proben in einem GC Plot (FastQC)? Wodurch können solche Kontaminationen zustande kommen?
Ungleichmäßige Verteilung der Kurve, extra Peak in der Verteilungskurve, abweichender CG Gehalt vom sequenzierten Organismus
bakterielle Kontaminationen
Wie können zu viele Fehlentscheidungen bei einem geringen p-value, aber hoher Testzahl vermieden werden?
Durch die Bonferroni Korrektur einen neuen p-value cutoff ermitteln ( p-value durch Anzahl der Tests teilen)
alpha_adj= [alpha/j]
alpha= gewünschtes Signifikanzniveau; j= anzahl der Tests; alpha_adj= korrigiertes alpha_Noveau für jeden einzelnen Test.
Alternative: FDR-Korrektur (False Discovery Rate) -> Anteile der falsch positiver Entscheidungen werden geschätzt -> kann die Wahrscheinlichkeit von Fehlentscheidungen minimieren
Was ist der neue p-value cutoff bei 20 Tests mit einem p-value von 1% nach Bonferroni Korrektur und welche alternative gibt es dazu?
p-value cutoff durch Anzahl an Tests teilen ergibt neuen p-value cutoff 0.01/20=0.0005 (0.05 %)
Was ist ein CIGAR string? “Übersetze” folgenden CIGAR string: 3M1I3M1D5M
Code von Matches
Zeichenkette die Länge und Art von Operationen in einer Sequenc-Alignment-Analyse beschreibt.
3M1I3M1D5M = 3 Matches, 1 Insert, 3 Matches, 1 Deletion, 5 Matches
Was bedeuten die Abkürzungen TPM und FPKM?
TPM: Transcripts Per Kilobase Million
FPKM: Fragments per kilobase per million mapped fragments
Beispiel Hidden Markovnikov Model Berechne:
AC
AYA
AAC
Wofür wird das Programm DeSeq2 verwendet?
für die differentielle Genexpressionsanalyse, um Hoch- oder Runterregulation von bestimmten Genen zwischen zwei experimentellen Bedingungen (z.B. verdauen/nicht verdauen) zu untersuchen
Beispiel plots nach p-val sortieren. Plot 1,3,5
höchste P-Value -> Plot 3
mittelster P-Value -> Plot 5
niedrigester P-Value -> Plot 1
=> Abhängig von Signifikanz -> niedriger P-Value besser
Zuletzt geändertvor 2 Jahren