Erklaere FastQ
common format for data exchange between tools
extension of the fasta format:
ability to store a numeric quality score for a nucleotide
minimal representation of a sequencing read
different variations: PHRED, Illumina, Sanger…
GeneMark output, was bedeutet Strand?
positiver oder negativer strand
gibt an ob normal oder reverse transkribiert werden muss
auf welcher seite der Doppelhelix das Gen liegt
Erläuterung Ka/Ks Ratio und was für Berechnung verwendet wird
SNPs:
Ka, Zahl der nicht synonymen Mutationen
Ks, Zahl der synonymen Mutationen
Ratio höher mit niedriger Konservierung
Ratio < 1: negativer Selektionsdruck
Ratio > 1: positiver Selektionsdruck
(Beispielfragen einfach mit rein)
Was sind Pseudogene? Was sind die 2 Hauptklassen?
nicht funktionale Gene
aus funktionalen Genen hervorgegangen
besitzen degenerative eigenschaften die Expression verhindern
Hauptklassen:
conventional
processed
Was sind die drei Strategien bei der Genvorhersage?
Content based: ORFs
Site based: splice sides
comparative: Protein sequence similarity
Erklärung und Verwendung von Repeatmasker
manuell annotierte Datenbank mit Wiederholungsfamilien
Verwendet vorkompilierte repräsentative Sequenzbibliotheken zum Auffinden homologe Kopien von bekannten Wiederholungsfamilien
Für neue Genome müssen neue Wiederholungsbibliotheken zunächst manuell kompiliert werden
Verwendung:
Repeats finden
simple repeats
Lines
Sines
Alus
masks repetitive DNA in fasta
Warum so schwer auf Motiven von biologischen Sequenzen zu schließen/ diese herauszufinden
Eukaryoten:
mehrere Transkriptionsfaktoren pro Gen
kürzere Motife
long range effects
inexactly repeating patterns
wissen das Motif nicht
Kein Wissen wo relativ zum Sequenz Start
Wie unterscheiden von random Motiven?
Nennen und erläutern von zwei arten von alternativen Splicen
constitutive:
immer mehr als ein Produkt wird aus dem Gen hergestellt
regulated:
Produkt ist abhängig von: zeit, kondition, zelltyp
Was sind N50 und L50 Parameter?
N50:
Kürzeste contig Länge die benötigt wird um 50% des Genoms abzudecken
alle contigs dieser länge und länger ergeben 50% des genoms
L50:
Die niedrigste Anzahl der contigs die benötigt wird um die hälfte des Genoms abzudecken
ab N50 wert bis oben Anzahl
Zwei Annahmen bei Aminosäurensubstitution
AAS = non-synonymous SNP
disesase causing:
conserved positions
structural difference
not:
no significant change in protein function
Erklären des k-mer Approach
Sequenzen werden durchsucht nach überrepräsentierten String bestimmter Länge
mismatches können hilfreich sein
Challenge: Richtige Länge k für String und Anzahl mismatches bestimmen
Erklären des Genome-Assembly-Approach
Fragment DNA and Sequence
Find overlaps between reads
Assemble overlaps into contigs
Assemble contigs into scaffolds
Erklären eines Verfahren zur RNA-secondary-structure Vorhersage
base pair maximation:
Paar i,j gibt +1, sont keine Score erhöhung
4 Fälle die unterschieden werden müssen
rekursiv -> dynamic programming
energy minimization:
Thermodynamic Stability
Estimated using experimental techniques
Theory : Most Stable is the Most likely
No Pseudknots due to algorithm limitations
Uses Dynamic Programming alignment technique
Attempts to maximize the score taking into account thermodynamics
MFOLD and ViennaRNA
covariance model:
Describes both the secondary structure and the primary sequence consensus of an RNA
Can be applied to several RNA analysis problems
consensus secondary structure prediction
multiple sequence alignment
database similarity searching
Covariance models are constructed automatically
from existing RNA sequence alignments
even from initially unaligned example sequences
Iterative training procedure
Optimal algorithm for RNA secondary structure prediction based on pairwise covariations in multiple alignments
Erklärung und Verwendung/Nutzen von Normalisierung von Genomlängen bei NGS
Zwei Hauptquellen für systematische Variabilität, die eine Normalisierung erfordern
Die RNA-Fragmentierung während des Aufbaus der Bibliothek führt dazu, dass längere Transkripte mehr Reads erzeugen als kürzere Transkripte, die in der gleichen Häufigkeit in der Probe vorhanden sind
die Variabilität in der Anzahl der für jeden Lauf produzierten Reads führt zu Schwankungen in der Anzahl der Fragmente, die über die Proben hinweg abgebildet werden
Übersetzt mit DeepL.com (kostenlose Version)
Lösungen:
RKPM
normalize reads by length and total numbert of mapped reads
FKPM
for paired-end reads
TPM
first length, then sequencing depth compared to RPKM
Schritte von TargetScan
(Übung weil nichts in Vorlesung gefunden)
spezies auswählen
Gen oder Transkript angeben
Auswahl
miRNA Familie
MirBase annotation
miRNA name
Was ist ein PanGenom?
Combination of multiple genomes into one
better captures complexity of the variants
Last changed5 months ago