Altklausurfragen pre 2023

Buffl

Methoden der Genomanalyse

by Daniela W.

Wie unterscheidet sich die Gendichte von Bakterien mit der von höheren Eukaryoten?

Gendichte bei Prokaryoten (~ 90%) >>> Gendichte bei Eukaryonten (~ 1-2%)

In Bakterien liegt die Gendichte bei 1 Gen pro 1.000 - 1400 Basen und in höheren Eukaryoten liegt die Gendichte bei 1 Gen pro 100.000 Basen.
Bakterien haben also eine höhere Gendichte als höhere Eukaryoten.

Wie wird das Sequenzlogo mit dem EM-Algorithmus dargestellt?

start with initial guesses for region and size (e.g. region of a binding site is already known from prior experiments)
1) expectation step:
- position-wise composition of the site is used to estimate the probability of finding the site at any position of the seqs
- these probabilities are used in turn to provide new information as to the expected base distribution for each column
2) maximization step: new counts of bases for each position in the site found in E-step are substituted for the previous set
E- and M-steps repeated until convergence
This is e.g. done by the MEME (Multiple EM for Motif Elucidation)

Was wird mit der Höhe der Abschnitte in einem Sequenzlogo ausgesagt?

measure of conservation of the base at the position
information content / entropy in bits

GREY:

can be corrected by base frequencies of the bases
data might include pseudocounts to overcome effects of missing data
the maximum value for DNA bases is 2 bits. (log2(4))

Warum ist es wichtig auch Pseudogene zu kennen?

pseudogenes: Nonfunctional sequences of genomic DNA that are originally derived from functional genes, but exhibit such degenerative features as premature stop codons and frameshift mutations that prevent their expression
might interfer with experiments
- PCR and hybridization experiments
- transcribed pseudogenes
- interference with disease diagnostics and treatment

molecular record of dynamics and evolution of genomes
- rate of nucleotide substitutions
- rate of DNA loss
improvement of gene prediction and annotation efforts

Was bedeutet "multiplicity" und "co-operativity" in Zusammenhang mit miRNA target Interaktionen?

multiplicity: one miRNA can target more than one gene
co-operativity: one gene can be controlled by more than one miRNA

Wie verändert sich der positive Vorhersagewert, wenn das Target mit dem Informanten stark übereinstimmt?

Genvorhersage für D. melanogaster:

too diverged → number of mismatches low because most of sequence can not be aligned
too close → number of mismatches low because sequence is unchanged
for D. melanogaster best acc. with using D. ananassae with ~1 substitution per synonymous site
for Human mouse would be a good informant (~0.6 substitutions per synonymous site)

Wie kann es dazu kommen, dass in ein Transkript ein alternatives Exon hinzugefügt wird und das zu einem verkürzten Protein-Produkt führt?

exon has alternative stop codon
alternative exon leads to frame shift → former out of frame stop codon located nearer to the start comes in frame

Nennen Sie einen möglichen Ursprung für Operons.

???

Rolle des Horizontellen Gentransfers: Vorteil komplette Sets an Genen zu übertragen und dem Empfänger einen definierten Phenotyp zu übertragen
evtl. ausgehend von thermophilen Bakterien

???

Gen-Duplikation und -Fusion: Durch Gen-Duplikation könnten mehrere Kopien eines Gens entstanden sein, die sich anschließend unterschiedlich spezialisiert haben. Diese Duplikate könnten sich dann in der Nähe zueinander angeordnet haben, um unter der Kontrolle eines einzigen Promotors reguliert zu werden, was zur Bildung eines Operons führte. Dies könnte durch genetische Rekombination oder andere chromosomale Veränderungen geschehen sein.
Horizontaler Gentransfer: Bakterien können Gene über horizontalen Gentransfer austauschen. Wenn mehrere funktionell verwandte Gene zusammen übertragen werden, könnten sie sich in einem neuen Wirt zu einem Operon zusammenschließen, um eine koordinierte Regulation zu ermöglichen. Diese Zusammenführung könnte durch gemeinsame Regulationselemente und Promotoren begünstigt werden.
Selektionsdruck: Ein starker Selektionsdruck könnte die Bildung von Operons begünstigt haben. Organismen, die in der Lage waren, mehrere Gene gemeinsam und effizient zu regulieren, hatten möglicherweise einen Vorteil in bestimmten Umgebungen, was zu einer natürlichen Selektion für solche genetischen Strukturen führte.
Regulatorische Effizienz: Die Nähe von funktionell verwandten Genen kann die regulatorische Effizienz erhöhen. Wenn Gene, die an demselben Stoffwechselweg beteiligt sind, nah beieinander liegen, können sie leichter und schneller durch gemeinsame Regulatorproteine kontrolliert werden. Dies könnte zur Selektion für die Bildung von Operons geführt haben.
Co-transkriptionale Vorteile: Die gleichzeitige Transkription von Genen, die für zusammenarbeitende Proteine kodieren, könnte den Zusammenbau von Proteinkomplexen erleichtern und sicherstellen, dass alle notwendigen Komponenten in den richtigen Verhältnissen vorhanden sind. Dies könnte einen evolutionären Vorteil bieten und die Bildung von Operons fördern.

Wie wirkt sich eine Vergrößerung des Windows auf den positiven Vorhersagewert eines ORFs aus? / Wie wirkt sich eine Vergrößerung des Frameshift der ORF-Länge auf die Genauigkeit der Vorhersage aus?

???

[vmtl. bezogen auf GeneMark???]

higher sensitivity
lower specificity

???

What are pseudogenes? What are the two main classes distinguished?

nicht-funktionale Gene, aus funktionalen Genen hervorgegangen besitzen degenerative Eigenschaften (missense/nonsense mutations), die Expression verhindern
Classes:
- conventional
- processed pseudogenes

Explain the Ka/Ks ratio. What does the value say about conservation, what conclusions can be made about the selection pressure?

• Ka - Zahl der nicht synonymen Mutationen

• Ks - Zahl der synonymen Mutationen

• Ka/Ks höher mit niedrigerer Konservierung

• Ka/Ks = 1 ⇒ kein Selektionsdruck

• Ka/Ks > 1 ⇒ positiver Selektionsdruck (positive selection)

• Ka/Ks < 1 ⇒ negativer Selektionsdruck (purifying selection)

for pseudogenes Ka/Ks = 1 expected
The majority of human genes undergo “purifying selection,” the evolutionary process disfavors nucleotide mutations that cause detrimental amino acid substitutions in the protein thus keeps the protein as it is
experimental < 1: underestimated Ka/Ks as genes were compared with present day genes and not the ancestral functional gene that gave rise to the processed pseudogene

What are the three strategies for gene prediction? Give an example for each.

Content based:

Beispiel (ORFs, Codon usage, Repeat periodicity, Compositional complexity)

Site based:

Beispiel (splice sites, TFbinding sites, Consensus sequences, Polyadenylation signals, start/stop codons)

Comparative:

Beispiel (Inference based on homology, Protein sequence similarity, Modular structure of proteins usually precludes finding complete gene)