Altklausur SS23

Buffl

Methoden der Genomanalyse

by Anton S.

Erklaere FastQ

common format for data exchange between tools
extension of the fasta format:
- ability to store a numeric quality score for a nucleotide
minimal representation of a sequencing read
different variations: PHRED, Illumina, Sanger…

GeneMark output, was bedeutet Strand?

positiver oder negativer strand
gibt an ob normal oder reverse transkribiert werden muss
auf welcher seite der Doppelhelix das Gen liegt

Erläuterung Ka/Ks Ratio und was für Berechnung verwendet wird

SNPs:

Ka, Zahl der nicht synonymen Mutationen
Ks, Zahl der synonymen Mutationen
Ratio höher mit niedriger Konservierung
Ratio < 1: negativer Selektionsdruck
Ratio > 1: positiver Selektionsdruck

(Beispielfragen einfach mit rein)

Was sind Pseudogene? Was sind die 2 Hauptklassen?

nicht funktionale Gene
aus funktionalen Genen hervorgegangen
besitzen degenerative eigenschaften die Expression verhindern

Hauptklassen:

conventional
processed

(Beispielfragen einfach mit rein)

Was sind die drei Strategien bei der Genvorhersage?

Content based: ORFs
Site based: splice sides
comparative: Protein sequence similarity

Erklärung und Verwendung von Repeatmasker

manuell annotierte Datenbank mit Wiederholungsfamilien
Verwendet vorkompilierte repräsentative Sequenzbibliotheken zum Auffinden homologe Kopien von bekannten Wiederholungsfamilien
Für neue Genome müssen neue Wiederholungsbibliotheken zunächst manuell kompiliert werden

Verwendung:

Repeats finden
- simple repeats
- Lines
- Sines
- Alus
- masks repetitive DNA in fasta

Warum so schwer auf Motiven von biologischen Sequenzen zu schließen/ diese herauszufinden

Eukaryoten:
- mehrere Transkriptionsfaktoren pro Gen
- kürzere Motife
- long range effects
inexactly repeating patterns
wissen das Motif nicht
Kein Wissen wo relativ zum Sequenz Start
Wie unterscheiden von random Motiven?

Nennen und erläutern von zwei arten von alternativen Splicen

constitutive:
- immer mehr als ein Produkt wird aus dem Gen hergestellt
regulated:
- Produkt ist abhängig von: zeit, kondition, zelltyp

Was sind N50 und L50 Parameter?

N50:

Kürzeste contig Länge die benötigt wird um 50% des Genoms abzudecken
alle contigs dieser länge und länger ergeben 50% des genoms

L50:

Die niedrigste Anzahl der contigs die benötigt wird um die hälfte des Genoms abzudecken
ab N50 wert bis oben Anzahl

Zwei Annahmen bei Aminosäurensubstitution

AAS = non-synonymous SNP

disesase causing:

conserved positions
structural difference

not:

no significant change in protein function

Erklären des k-mer Approach

Sequenzen werden durchsucht nach überrepräsentierten String bestimmter Länge
- mismatches können hilfreich sein
Challenge: Richtige Länge k für String und Anzahl mismatches bestimmen

Erklären des Genome-Assembly-Approach

Fragment DNA and Sequence
Find overlaps between reads
Assemble overlaps into contigs
Assemble contigs into scaffolds

Erklären eines Verfahren zur RNA-secondary-structure Vorhersage

base pair maximation:

Paar i,j gibt +1, sont keine Score erhöhung
4 Fälle die unterschieden werden müssen
rekursiv -> dynamic programming

energy minimization:

Thermodynamic Stability
- Estimated using experimental techniques
- Theory : Most Stable is the Most likely
No Pseudknots due to algorithm limitations
Uses Dynamic Programming alignment technique
Attempts to maximize the score taking into account thermodynamics
MFOLD and ViennaRNA

covariance model:

Describes both the secondary structure and the primary sequence consensus of an RNA
Can be applied to several RNA analysis problems
- consensus secondary structure prediction
- multiple sequence alignment
- database similarity searching
Covariance models are constructed automatically
- from existing RNA sequence alignments
- even from initially unaligned example sequences
Iterative training procedure
Optimal algorithm for RNA secondary structure prediction based on pairwise covariations in multiple alignments

Erklärung und Verwendung/Nutzen von Normalisierung von Genomlängen bei NGS

Zwei Hauptquellen für systematische Variabilität, die eine Normalisierung erfordern
- Die RNA-Fragmentierung während des Aufbaus der Bibliothek führt dazu, dass längere Transkripte mehr Reads erzeugen als kürzere Transkripte, die in der gleichen Häufigkeit in der Probe vorhanden sind
- die Variabilität in der Anzahl der für jeden Lauf produzierten Reads führt zu Schwankungen in der Anzahl der Fragmente, die über die Proben hinweg abgebildet werden

Übersetzt mit DeepL.com (kostenlose Version)

Lösungen:

RKPM
- normalize reads by length and total numbert of mapped reads
FKPM
- for paired-end reads
TPM
- first length, then sequencing depth compared to RPKM

Schritte von TargetScan

(Übung weil nichts in Vorlesung gefunden)

spezies auswählen
Gen oder Transkript angeben
Auswahl
- miRNA Familie
- MirBase annotation
- miRNA name

Was ist ein PanGenom?

Combination of multiple genomes into one
better captures complexity of the variants

Join Course

Preview

Author

Anton S.

Information

Last changed
2 years ago

Report course