undefined

Buffl

Bioinformatik

by jonathan M.

Linux commands

cp -> kopieren
mkdir -> Ordner anlegen
ls -> Alle dateien anzeigen lassen
rm -> löschen
cd .. -> in vorherigen Ordner gehen
cd xx -> in Ordner xx gehen
chmod -> Zugriffsrechte ändern
mv -> Bewegen oder Name ändern
pwd -> Pfad anzeigen lassen (in welchem Ordner man ist)
touch -> Datei erzeugen

Nenne 3 Sequenzierungsmethoden und beschreibe sie mit ihrer Read länge und qualität und throughput.

Sowie eine Low throughput methode

Illumina: short read (150 - 300 bp), 0.1% error rate; high throughput

PacBio: long read (10 - 25 kb), 15% error rate, high throuhput
Oxford Nanopore: full length (2.3 Mb), high error rate, high throuhput

Low throughput

Sanger Sequencing; Readlange ca. 1000bp, hohe Qualität; [Error-rate: 0,001% kann auser Acht gelassen werden]; low throughput

Was ist ein Genom-Index und wozu dient er?

“telephone book” for the genome
alphabetically ordered suffix array of the genome
speeds up search of specific sequences
used as a reference for example in read mapping in the analysis of RNAseq data

Welche Aussagen über BLAST sind korrekt?

A) BLAST nutzt lokale Aligments
B) BLAST nutzt globale Aligments
C) Der E-Value ist abhängig von der Größe der verwendeten Datenbank und sagt aus wie viele zufällige Treffer auftreten.

A + C sind richtig

Definiere den Begriff contig and scaffold.

= Bestandteile bei der Genomassemblierung

contig: continuous sequence = kontinuierliche Folge von sequenzierten Basen
scaffold: combined contigs with Ns inbetween = kombinierte Contigs mit Ns dazwischen

Woran erkennt man eine Kontamination der Proben in einem GC Plot (FastQC)? Wodurch können solche Kontaminationen zustande kommen?

Ungleichmäßige Verteilung der Kurve, extra Peak in der Verteilungskurve, abweichender CG Gehalt vom sequenzierten Organismus
bakterielle Kontaminationen

Wie können zu viele Fehlentscheidungen bei einem geringen p-value, aber hoher Testzahl vermieden werden?

Durch die Bonferroni Korrektur einen neuen p-value cutoff ermitteln ( p-value durch Anzahl der Tests teilen)

alpha_adj= [alpha/j]
alpha= gewünschtes Signifikanzniveau; j= anzahl der Tests; alpha_adj= korrigiertes alpha_Noveau für jeden einzelnen Test.

Alternative: FDR-Korrektur (False Discovery Rate) -> Anteile der falsch positiver Entscheidungen werden geschätzt -> kann die Wahrscheinlichkeit von Fehlentscheidungen minimieren

Was ist der neue p-value cutoff bei 20 Tests mit einem p-value von 1% nach Bonferroni Korrektur und welche alternative gibt es dazu?

p-value cutoff durch Anzahl an Tests teilen ergibt neuen p-value cutoff 0.01/20=0.0005 (0.05 %)

Was ist ein CIGAR string? “Übersetze” folgenden CIGAR string: 3M1I3M1D5M

Code von Matches
Zeichenkette die Länge und Art von Operationen in einer Sequenc-Alignment-Analyse beschreibt.
3M1I3M1D5M = 3 Matches, 1 Insert, 3 Matches, 1 Deletion, 5 Matches

Was bedeuten die Abkürzungen TPM und FPKM?

TPM: Transcripts Per Kilobase Million
FPKM: Fragments per kilobase per million mapped fragments

Beispiel Hidden Markovnikov Model Berechne:

AYA

AAC

Wofür wird das Programm DeSeq2 verwendet?

für die differentielle Genexpressionsanalyse, um Hoch- oder Runterregulation von bestimmten Genen zwischen zwei experimentellen Bedingungen (z.B. verdauen/nicht verdauen) zu untersuchen

Beispiel plots nach p-val sortieren. Plot 1,3,5