Name and explain two types of Alternative Splicing.
Nenne und erklären Sie zwei Arten des alternativen Spleißens.
(2023)
DONE
cassette exon (exon skipping): an exon may be spliced out of the primary transcript or retained
mutually exclusive exons: one of two exons is retained in mRNAs after splicing, but not both (are “competing”)
competing 5’ splice site (alternative donor site): An alternative 5’ splice junction is used, changing the 3’ boundary of the upstream exon
competing 3’ splice site (alternative acceptor site): An alternative 3’ splice junction is used, changing the 5’ boundary of the downstream exon
retained intron: A sequence may be spliced out as an intron or simply retained. This is distinguished from exon skipping because the retained sequence is not flanked by introns.
multiple promoters
mutiple poly(A) sites
Explain one approach to RNA secondary structure prediction.
Erklären Sie bitte einen Ansatz zur Vorhersage der RNA-Sekundärstruktur.
Two possible approaches:
Energy minimization methods: choose complementaey sequence sets that provide the most energetically stable molecules
take into account patterns of base-pairing that are conserved during evolution
Energy minimization method:
every base is compared for complementarity to every other base
The energy of each predicted structure is estimated by the nearest-neighbor rule:
sum the negative base-stacking energies for each pair of bases in the predicted double-stranded regions
add positive energies of destabilizing (unpaired) regions
The complementary regions are evaluated by a dynamic programming algorithm to predict the most energetically stable molecule
Programs: e.g. MFOLD, ViennaR
Explain the similarity-based approach to gene prediction.
Erklären Sie bitte den ähnlichkeits-basierten Ansatz zur Genvorhersage?
The similarity-based approach uses known genes in one genome to predict (unknown) genes in another genome by e.g. comparison of genomic sequence with homologous genomic sequence from close organisms. Meaning given a known gene (or a protein) and a genome sequence, find a set of substrings of the genomic sequence whose concatenation best fits the gene.
e.g. the known frog gene is aligned to different locations in the human genome. Find the “best” path to reveal the exon structure of human gene. Chaining these local alignments and look for a maximum chain of substrings.
Example programs: TWINSCAN, SGP2
Ferdis Antwort (evtl überarbeiten):
Similarity based approaches for gene prediction (TWINSCAN, in some parts: SGP2, N-SCAN, CONTRAST) uses coperative approaches, meaning homologue genomic sequences, like mouse, human and opossum, are aligns with the goal to find specific patterns in the sequence like conseration patterns or other intrincis information. Often alignment tools like BLAST or BLAT can be used. The similarity based approach focuses on homologue patterns.
Below follows the output of the GeneMark.hmm program. Please explain what the column “strand” means.
Unten folgt der Output des GeneMark.hmm-Programms. Erklären Sie bitte, was die Spalte “Strand” bedeutet.
GeneMark is a gene prediction tool for prokaryotes. When a gene is transcribed, the sense or anti-sense strand is used as a template. Due to the fact that genes can therefore be located on the sense or anit-sense strand, GeneMark includes the information on which strand + or - the gene is predicted. (Ferdi’s Antwort)
Explain the FASTQ format.
Erklären Sie das FASTQ-Format.
The FASTQ format is a common format for data exchange between different tools and an extension to the FASTA format. It can additionally store a numeric quality score of nucleotides besides other informations about the sequence and quality of the read, the quality of the read.
The FASTQ file has normally 4 lines per sequence:
Line 1 begins with a @ character and is followed by a sequence identifier and an optional description (like a FASTA title line)
Line 2 is the raw sequence letters
Line 3 begins with a + character and is optionally followed by the same sequence identifier (and any description)
Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as letters in the sequence
What is the normalization for the sequence length in NGS and what is it used for?
Was ist die Normalisierung für die Sequenzlänge in NGS und wofür wird sie verwendet?
Sequence length normalization in next-generation sequencing (NGS) refers to ensuring that all sequenced reads are of the same length.
Used for:
facilitate fair comparisons of gene expression, e.g.
compare expression of same gene between different samples
compare expression of different genes within a sample
simplify data analysis
improve alignment to a reference genome or transcriptome
library size normalization
Explain what is Ka/Ks ratio and what is needed to calculate it?
Erklären Sie, was das Ka/Ks-Verhältnis ist und was zu seiner Berechnung benötigt wird.
The Ka/Ks ratio is the ratio between the nonsynonymous rate of substitution (Ka) and the synonymous rate of substitution (Ks), to test for natural selection / evolutionary tendencies on genes or proteins.
The Ka/Ks ratio is important to predict if a mutation or rather a change is going to be fixed (evolutionary advantage) or being lost (negative selection).
The Ka/Ks ratio can indicate the following tendencies:
Ka/Ks > 1 : positive selection
Ka/Ks = 1 : neutral selection
Ka/Ks < 1 : negative selection -> purifying selection
for pseudogenes Ka/Ks = 1 expected
experimental < 1: underestimated Ka/Ks as genes were compared with present day genes and not the ancestral functional gene that gave rise to the processed pseudogene
What is a Pan-genome?
Was is Pangenom?
A Pan-genome is the entire set of genes from all strains within a clade / the union of all the genomes of a clade. Its a dispensable genome composed of genes absent from one or more strains (“accessory genes”) and genes that are unique to each strain (“unique genes”).
Ferdis Antwort:
A Pan-genome is the complete amount of genetic contet of a species incooperating all genes and genomic features. Furthermore, including genes which are present in each individual of the species (core genome) and genes present uniquely in an individual (variable genome).
Explain the k-mer approach to finding the repeats in genomes.
Erklären Sie den k-mer Ansatz zum Auffinden von Wiederholungen in Genomen.
TODO
What is repeat masking and why is it needed?
Was ist Wiederholungsmaskierung und warum ist sie erforderlich?
Repeat masking is the process of blocking of excluding specific potential repeats from the further analysis due to various biological aspects. One can be that the repeat might be part of a sequence being fundamental for a biological process or any other interative motif. Repeat masking therefore increases the sensitivity of the found repeats beeing a significant repeat and decreses the false positive rate.
Explain the main steps of the genome assembly process.
Erklären Sie die wichtigsten Schritte des Genom-Assembly-Prozesses.
The main step of genome assembly is to assemble the resulting reads which are generated by method like Clone-by-clone sequencing, whole genome shotgun sequencing or NGS methods. The assembly step is the most difficult part and may include creating continuous stretches of reads (DNA / RNA) (contigs) using the overlap of those reads. The second step is often creating scaffolds by orienting the contigs to each other in a positional relationship using gap information and positional information. Often those methods require large computational capacity and are the most time consuming step. Newer methods like Oxford-Nanopore simplify the assembly step by generating larger read fragments. Generally even more and shorter read fragments are present, the assembly is more difficult.
What are the challenges in identifying motifs in biological sequences?
Was sind die Herausforderungen bei der Identifizierung von Motiven in biologischen Sequenzen?
The major challenge of finding motifs is to interfere sequence regions which have higher diversity compared to other regions and also having a significant biological meaning, for example enabling the binding of regulatory elements or expression regulatory elements like transcription factors. Furthermore, motifs can have different size ranged meaning further complications finding an unknown sequence of unknown size in the genome. Furthermore, RNA can undergo secondary structure which is challenging to predict, but can make the potential motif inaccessible and thereforme be misleading. Even having homology information, it is difficult to distinguish motifs from other, non biological meaningful segments. The main challenges of finding motifs can therefore be explained as difficulty if finding an unknown sequence of unknown length with unknown base composition in a sequence.
Explain the TargetScan algorithm for predicting of mammalian MicroRNA Targets (you can skip the formulas).
Erklären Sie den TargetScan Algorithmus zur Vorhersage von microRNA Zielgenen bei Säugetieren (keine Formels notwendig).
TargetScan input:
miRNA conserved in multiple organisms
ste of target genes (3#-UTR) of these organisms
step 1: seed match: first the miRNA is aligned to the first 3’-UTR with perfect Watson-Crick pairing. Also called “seed-match” or “miRNA seed”
step 2: seed match expansion: the seed match is expanded in both directions until mismatch occurs.
step 3: base pairing refinement: RNAfold (secondary structure of RNA prediction tool) is used to align and match the remaining 3’-miRNA and the remaining 5’-UTR.
step 4: free energy is calculated: the free energy is calculated of the binding and structure (the lower the better)
step 5: Z-score is calculated
step 6: step 1 to step 5 are repeated for each target 3’UTR
What are two assumptions that can be made when predicting the role of amino acids substitution?
Welche zwei Annahmen können bei der Vorhersage der Rolle der Aminosäuresubstitution getroffen werden?
What are N50 and L50 measures?
N50: The shortest contig length that needs to be included for covering 50% of the genome.
L50: The count of smallest number of contigs whose length sum makes up half of genome size.
Wie unterscheidet sich die Gendichte von Bakterien mit der von höheren Eukaryoten?
(2013)
In Bakterien, wie z.B. M.influenzae liegt die Gendichte bei 1 Gen pro 1000 - 1400 Basen und in höheren Eukaryoten, wie z.B. H.sapiens oder Mus musculus, liegt die Gendichte bei 1 Gen pro 100000 Basen. Bakterien haben also eine höhere Gendichte als höhere Eukaryoten.
Gendichte bei Prokaryoten (~90%) >>> Gendichte bei Eukaryoten (~1-2%)
In Bakterien liegt die Gendichte bei 1 Gen pro 1.000 - 1.4000 Basen und in höheren Eukaryoten liegt die Gendichte bei 1 Gen pro 100.000 Basen
Bakterien haben also eine höhere Gendichte als höhere Eukaryoten
Wie wird das Sequenzlogo mit dem EM-Algorithmus dargestellt?
EM Algorithmen, wie z.B. MEME, starten bei einer Site von mehreren Sites von Zielsequenzen und wechseln sich dann ab zwischen der Zuordnung der Site zu einem Motiv und dem Updaten des Motivmodells. Dabei werden nur die besten Treffer pro Sequenz angezeigt, obwohl niedrigere Treffer in der gleichen Sequenz auch einen Effekt haben können.
start with initial guesses for region and size (e.g. region of a binding size is already known from prior experiments)
1) expectation step:
position-wise composition of the site is used to estimate the probability of finding the site at any position of the seqs
these probabilities are used in turn to provide new information as to the expected base distribution for each column
2) maximization step: new counts of bases for each position in the site found in E-step are substituted for the previous set
E- and M-steps repeated until convergence
This is e.g. done by the MEME (Multiple EM for Motif Elucidation)
Was wird mit der Höhe der Abschnitte in einem Sequenzlogo ausgesagt?
Die Höhe der Sequenzlogos gibt die relative Häufigkeit jeder Amino- oder Nukleinsäure an dieser Position in der Sequenz an.
measure of conservation of the base at the position
information content / entropy in bits
can be corrected by base frequencies of the bases
data might include pseudocounts to overcome effects of missing data
the maximum value for DNA bases is 2 bits (log2(4))
Warum ist es wichtig auch Pseudogene zu kennen?
Pseudogene: nicht funktionale Sequenzen von genomischer DNA, die ursprünglich von funktionalen Genen (durch Genduplikation) abgeleitet wurden. Sie weisen degenerative Eigenschaften auf, wie vorzeitige Stopp Codons oder Mutationen des Frameshifts, die deren Expression verhindern. Pseudogene sind dennoch wichtig, da einige eine Rolle bei der Regulierung der Genakativität spielen und somit nicht funktionslos sind.
pseudogenes: Nonfunctional sequences of genomic DNA that are originally derived from functional genes, but exhibit such degenerative features as premature stop codons and frameshift mutations that prevent their expression
might interfer with experiments
PCR and hybridization experiments
transcribed pseudogenes
interference with disease diagnostics and treatment
molecular record of dynamics and evolution of genomes
rate of nucleotide substitutions
rate of DNA loss
improvement of gene prediction and annotation efforts
Was bedeutet "multiplicity" und "co-operativity" in Zusammenhang mit miRNA target Interaktionen?
(2013 / 2017)
multiplicity: one miRNA can target more than one gene
co-operativity: one gene can be controlled by more than one miRNA
Multiplicity: Eine miRNA kann mehr als ein Gen anzielen. Einige miRNAs scheinen sehr promiskuitiv zu sein, mit Hunderten von vorhergesagten Zielen, aber die meisten miRNAs kontrollieren nur wenige Gene.
Co-operativity: Ein Gen kann durch mehr als eine miRNA gesteuert werden. Einige Zielgene scheinen einer sehr kooperativen Steuerung zu unterliegen, aber die meisten Gene haben nicht mehr als vier Zielorte.
Wie verändert sich der positive Vorhersagewert wenn das Target mit dem Informanten stark übereinstimmt?
Genvorhersage für D. melanogaster:
too diverged -> number of mismatches low because most of sequence can not be aligned
too close -> number of mismatches low because sequence is unchanged
for D. melanogaster best acc. with using D. ananassae with -1 substitution per synonymous site
for Human mouse would be a good informant (~0.6 substitutions per synonymous site)
Wie kann es dazu kommen, dass in ein Transkript ein alternatives Exon hinzugefügt wird und das zu einem verkürzten Protein-Produkt führt?
Durch Verwendung einer anderen Stelle für die Translationsinitiation (alternative Initiation)
Hinzufügen eines Stopp-Codons in der alternativen Codierungssequenz (alternative Terminierung)
Eine andere Translationsterminationsstelle aufgrund eines Frameshift (Verkürzung oder Verlängerung)
Ändern des inneren Bereichs aufgrund eines in-Frame Insertion oder Deletion
exon has alternative stop codon
alternative exon leads to frame shift -> former out of frame stop codon located nearer to the start comes in frame
Nennen sie einen möglichen Ursprung für Operons.
-> nicht in Vorlesung
Operons könnten in termophilen Organismen entstanden sein, da die Organisation von Genen in Operons die Assoziation / Verbindung von funktionell verwandten Protein-Produkten ermöglicht und diese sich somit gegenseitigen Schutz vor thermischen Verfall bieten.
Rolle des Horizontellen Gentransfers: Vorteil komplette Sets an Genen zu übertragen und dem Empfänger einen definierten Phenotyp zu übertragen
evtl. ausgehend von thermophilen Bakterien
Nennen Sie den Proteinkomplex der dafür zuständig ist, dass die tierische pre-miRNA in miRNA umgewandelt wird.
Proteinkomplex: RNA-incduced splicing comple (RISC), enthält das Enzym DICER, welches die pre-miRNA in miRNA spaltet
Wie wirkt sich eine Vergrößerung des Frameshift der ORF-Länge auf die Genauigkeit der Vorhersage aus?
Die Genauigkeit der Vorhersage steigt mit der Vergrößerung des Frameshifts der ORF-Länge, da längere ORFs eher den tatsächlichen Genen entsprechen.
vmtl bezogen auf GeneMark? -> higher sensitivity, lower specificity
Welche Eigenschaften hat ein starker Promoter?
Ein starker Promoter ist der Consensus Sequenz sehr ähnlich.
(ein schwacher Promoter unterscheidet sich stärker von der Consensus Sequenz)
DNA sequence that facilitates a high rate of transcription
efficiently binds to the RNA polymerase and promotes robust transcription initiation
strong promoter has a high affinity for the RNA polymerase, allowing efficient binding and initiation of transcription
presence of specific sequence motifs within the promoter region
Was ist ein Sigma Faktor? Wofür wird dieser in der Transkription benötigt? Welcher Sigma Faktor tritt am häufigsten auf?
Sigma Faktor: sind Proteine die Teil des RNA Polymerase Proteinkomplexes sind, welcher an den Promoter bindet.
Sie werden für die Initiation der Transkription benötigt.
Häufigster Sigma Faktor: σ^70 (Housekeeping-Sigma-Faktor von E.coli; steuert die Transkription)
dissociable subunit of the RNA polymerase holoenzyme needed for transcription initiation from promoter elements
enables specific binding of promoter region
There are multiple interchangeable sigma factors, each of which recognized a distinct set of promoters (promoters of house-keeping / heat-shock genes)
sigma^70 (primary sigma factor) is expressed under normal conditions in E.coli
Nennen Sie drei Unterschiede des Whole Genome Shotgun und des Clone-by-Clone Verfahrens.
Clone-by-clone shotgun: BAC clones werden benötigt, clones vorher mappen
Whole genome shotgun: Mapping-Phase wird übersprungen, Assembly dauert länger
Clone-by-Clone:
physical mapping: requires construction of clone-based physical map and individual clones are subcloned
assembly: easier to resolve complex genomic regions as position of contigs is already known (due to the physical mapping)
labor intensity: physical mapping is labor intensitive, but after mapping clones can be divided between different labs for sequencing (relevant as sequencing was slower at the start of the century)
Whole Genome Shotgun:
physical mapping: mapping phase is skipped and subclone library is constructed from entire genome
assembly: order / position of contigs needs to be inferred from overlapping reads and read pairs which can be problematic for tandemly repeated DNA (incorrect overlaps)
labor intensity: less labor intensive, but requires more computational resources
Clone-by-Clone Shotgun Sequenzierung
Ein einzelner Klon, wie das bakterielle künstliche Chromosom (BAC) wird ausgewählt
Große Mengen von BAC-DNA wird gereinigt und durch physikalische Verfahren fragmentiert
Die zufälligen DNA-Fragmente (typischerweise 2-5kb) werden subkloniert
Sequenz-Reads werden aus einem oder beiden Enden von zufällig ausgewählten Subklonen erstellt (z.B. werden mehrere tausend Sequenz-Reads typischerweise aus etwa ~100-150 kb BAC erstellt)
Die zufälligen Reads werden dann auf Basis der Sequenzüberlappungen zusammengesetzt, wodurch eine vorläufige Sequenzanordnung (vorgefertigte Sequenz) entsteht
Eine solche Sequenz ist unvollkommen, da Lücken in der Sequenz und Teile mit schlechter Sequenzqualität vorzufinden sind
Anschließend werden diese Lücken und schlechten Qualitätsstellen mit Erzeugung zusätzlicher Sequenzdaten ausgebessert
Whole-Genome Shotgun Sequenzierung
Die mapping Phase wird übersprungen
Shotgun Sequenzierung wird fortgesetzt unter Verwendung von Subklon-Bibliotheken die aus dem gesamten Genom hergestellt werden
Typischerweise werden zig Millionen von Sequenz-Reads erstellt
Eine Computer basiertes Anwendung wird verwendet um zusammenhängende Sequenzen der verschiedenen Größen zu erzeugen
Entstehende Lücken werden dann durch anschließende Verfahren wieder geschlossen
Welches Verfahren wird eher für prokaryotische Genome und welches für eukaryotische Genome verwendet? Erklären Sie genau warum dies so ist. (Clone-by-Clone oder Whole Genome Shotgun)
Clone-by-clone: prokaryotische Genome (assembly funktioniert hier besser)
Whole-genome shotgun sequencing: eukaryotische Genome
Historically clone-by-clone was used more common for eukaryotic genes as it allows to overcome challenges with highly repetitive and complex regions in eukaryotic genomes
WGS particularly suitable for organisms with smaller genomes and less complex genomic structures
Approaches can be combined in a hybrid shotgun-sequencing approach
Nennen Sie vier alternative Splicing Varianten.
Wodurch kann man herausfinden, ob ein alternatives Splicing statt gefunden hat.
Durch genomweite Analyse von alternativem Splicing:
Daten (alle von einer Spezies):
Genomsequenz Assemblies
Expressed sequence tag (EST) Sequenzen
EST Clustering wird von UNIGENE bereitgestellt
BLAST-Suche mit den Konsensus EST Sequenzen gegen die Genom Assemblies:
identifziere Kandidaten Gen-Regionen (BLAST threshold < E10-5)
identifiziere vermeintliche (kurze) Exons (BLAST threshold < E10-10)
Alignment der übereinstimmenden genomischen Regionen mit dem kompletten Satz an ESTs für ein UNIGENE Cluster mithilfe von dynamischer Programmierung
Erkenne Splicing durch ein Computer basiertes Verfahren, dass das genomische-EST-mRNA multiple Sequenzalignment analysiert
AS can be verified by analysing RNA isoforms
using RT-PCR with primers that flank the alternatively spliced region -> different length of PCR product
using microarrays (high-throughput approach) with exon-exon junction probes
Welche Auswirkungen hat es, wenn das Proteinprodukt durch Alternative Splicing größer wird?
Verändern der Proteinbindungseigenschaften, z.B. Rezeptor/Ligand
Verändern der intrazellulären Lokalisierung, z.B. Membraninsertion
Verändern der extrazellulären Lokalisation, z.B. Sekretion
Verändern der enzymatischen Aktivität oder Signalaktivität
Verändern der Proteinstabilität, z.B. Inklusion von cleavage sites
Insertion von post-translationalen Modifizierungsdomänen
Ändern der Ionenkanaleigenschaften
Roles of AS:
Addition of new protein parts
multiple effects: <- Auswirkungen wenn größers / anders
alter protein binding properties
alter intracellular localization
alter extracellular localization
alter enzymatic or signaling activities
alter protein stability
…
Influence RNA function
AS alters 5’ or 3’ UTR regions -> effects subcellular localization and / or RNA stability
Coordinated Regulation of Biological Events
neuron development (DSCAM)
Channel activity associated with hearing
Muscle contraction
Welche zwei Klassen von Informationen werden in der Genvorhersage verwendet? Nennen Sie auch je zwei Unterklassen dieser Informationen.
Intrinsic
a) Open reading frames (ORFs)
b) Codon usage
c) Anwesenheit von RBS (ribosomal binding sites)
d) Periodizität von repeats (Wiederholungen)
extrinsic
a) Expressed Sequence Tags (ESTs)
b) cDNA-Alignments
c) homology in known Exons
intrinsic information
conserved splice signals
hexamer composition of exons / introns
reading frame consistency of exons
exon / intron length distribution
promoter and polyA signals
isochore differences
extrinsic information
EST
cDNA
protein-genome alignments
Skizzieren Sie den Ablauf von GenScan.
N – intergenic region
P – Promoter
F – 5‘ untranslated region
T – 3’ untranslated region
A – poly-A
E – Exon (sngl = single, init = initial, term = terminal, k = Phase k internal)
Ik – Phase k Intron: 0 – zwischen Codons, 1 – nach der ersten Base eines Codons, 2 – nach der zweiten Base eines Codons
Architecture:
Generalized HMM (GHMM)
models both strands at the same time; from intergenic state model can enter states for + strand genes or - strand genes
states:
N: intergenic region
P: promoter (sensor for TATA)
F: five-prime UTR
than either single-exon gene or model for multiple exon gene
single-exon genes are modeled by a single state
multiple exons:
state for initial exon models region from translational start to donor splice site
3 states for different phases of introns
3 states for exons between introns also for keeping the phase information
terminal exon
T: three-prime UTR
A: poly-A signal (sensor for Cap signal)
reverts to N
Gegeben ist die folgende Formel:
Erklären Sie die einzelnen Schritte und skizzieren Sie diese.
i, j sind ein Basenpaar, hinzugefügt zu einer Struktur für i+1 ... j-1, add +1
i ist ungepaart, hinzugefügt zu einer Struktur für i+1...j
j ist ungepaart, hinzugefügt zu einer Struktur für i...j-1
i, j sind gepaart, aber nicht zu einander: die Struktur von i...j fügt Unterstrukturen zusammen für zwei Untersequenzen, i...k und k+1...j (bifurication)
Wie könnte man obige Formel noch verbessern?
Man könnte die obige Formel noch verbessern, indem man auch Pseudoknots beachtet und mit in die Formel einbaut.
It is more plausible that an RNA adopts a globally minimum energy structure, not the structure with the maximum number of base pairs -> predict overall free energy
Additionally use thermodynamic information
negative stacking energy for matches
positive destabilizing energies for loops (size-dependend)
Nennen Sie alle Klassen von Interspersed Repeats.
Interspersed repeats:
Retroelements:
LINEs (Long Interspersed Nuclear Elements) [autonomous]
SINEs (Short Interspersed Nuclear Elements) [nonautonomous]
LTRs (Long Terminal Repeat Retrotransposons)
DNA Transposons
Tandemly repeated DNA:
Microsatellites
Minisatellites
Cryptically simple repeats
Low complexity repeats
Satellite and telomeric repeats
Segmental Duplications
TLRs (Terminal inverted repeats)
PLEs (Penelope-like elements)
DIRS-like elements
Nennen Sie zwei Eigenschaften von Interspersed Repeats.
Involve RNA intermediates (Retroelements) or DNA intermediates (DNA transposons)
Mobility:
conservative transposition
replicative transposition
retrotransposition
Derived from biologically active “transposable elements” (TEs)
Welche drei anderen repetitive Sequenzklassen gibt es noch?
Welche Unterschiede gibt es zwischen Interspersed Repeats zu den in 1. genannten Formen?
Tandemly repeated DNA (Simple sequence repeats without interuption)
one to a dozen base pairs
may be formed by replication slippage
a dozen to 500 base pairs
Segmented duplications
nearly identical copies ranging in size from 1 to >200 kb
originate from duplicative transpositions
Pseudogenes
derived from functional genes but with deleterious mutation
Was versteht man unter SNPs?
SNP stands for Single Nucleotide Polymorphism, it occurs when a single nucleotide replaces one of the other three nucleotide letters in a genome (or in a DNA sequence).
is an inherited single nucleotide substitution between individuals of a species. Commonly defined as having the least frequent allele occur at a rate greater than 1 per cent in a population.
SNPs found in a coding seq are of great interest as they are more likely to alter function of a protein
most common type of genetic variation in humans. They account for 90% of the variation between individuals
Welche zwei Klassen von SNPs unterscheidet man und was ist der Unterschied zwischen den beiden?
Man unterscheidet zwischen den zwei Klassen: synonyme SNPs und nicht-synonyme SNPS
Der Unterschied liegt darin, dass bei den synonymen SNPs die Änderung der Base das Proteinprodukt nicht ändert, wohingegen sich bei den nicht-synonymen SNPs durch die Änderung der Base auch die codierte Aminosäure verändert.
Synonymous vs Nonsynonymous
synonymous: not causing a change in the amino acid
nonsynonymous: a nonsynonymous or missense variant is a single base change in a coding region that causes an amino acid chanhe in the corresponding protein
Transition vs Transversion
transition: changes a purine to another purine (A <-> G), or a pyrimidine to another pyrimidine (C <-> T)
transversion: change from purine (A/G) to pyrimidine (T/C) or vice versa
Wieso kann es durch SNPs auf kodierenden und nicht-kodierenden Regionen zu Krankheiten führen?
In kodierenden Regionen: Ein SNP mit einer nicht-synonymen Substitution, verändert die Aminosäuresequenz eines Proteins und kann somit auch dessen Funktion ändern (zur Krankheit führen)
In nicht kodierenden Regionen: Ein SNP kann die Genexpression beeinflussen und führt somit zu einer regulatorischen Veränderung (Krankheit)
SNPs may be informative with respect to disease:
Functional variation. A SNP associated with a nonsynonymous substitution in a coding region will change the amino acid sequence of a protein
Regulatory variation. A SNP in a noncoding region can influence gene expression
Association. SNPs can be used in whole-genome association studies. SNP frequency is compared between affected and control populations.
Nennen Sie drei Unterschiede zwischen Pflanzen und Tier miRNA.
Number of miRNA genes present
Plants: 100-200 genes
Animals:100-500 genes
Location within genome:
Plants: predominantly intergenic regions
Animals: intergenic regions, introns
Presence of miRNA clusters:
Plants: uncommon
Animals: common
miRNA biosynthesis:
Plants: Dicer-like
Animals: Drosha, Dicer
Mechanism of repression:
Plants: mRNA-cleavage (methylation?)
Animals: Translational repression
Location of miRNA-binding motifs
Plants: predominantly in the ORF
Animals: predominantly in the 3’-UTR
Number of miRNA-binding sites within target sites:
Plants: Generally one
Animals: Generally multiple
Function of known target genes:
Plants: Regulatory genes - crucial for development, enzymes
Animals: Regulatory genes - crucial for development, structural proteins, enzymes
Erläutern Sie den Arbeitsablauf des targetScan Algorithmus.
Suche nach seed matches innerhalb des ersten Organismus --> perfekte Watson-Crick Komplementarität zwischen miRNA seed und UTR-Sequenz
Erweitere die seed matches in beide Richtungen so weit wie möglich; G-U Paare sind erlaubt, stoppe bei einem Mismatch
Optimiere das Base Pairing von der 3’ Region der miRNA und 35 nt upstream der Zielregion mit RNAfold (künstlicher stemloop)
Berechne die freie Energie G für jede miRNA: target site duplex via RNAeval
Berechne Z-Score für jede UTR
Sortiere UTRs basierend auf ihrem Z-Score und weise ihnen einen Rang zu
Wiederhole Schritte 1-6 für alle anderen Organismen
Sage als Zielgen, jedes Gen i welches Zi ≥ Zc und Ri ≤ Rc mit jeder orthologen Sequenz erfüllt, vorher
TargetScan:
thermodynamics-based modeling of RNA:RNA duplex interactions
comparative sequence analysis
Input:
miRNA that is conserved in multiple organisms
a set of orthologous 3’ UTR sequences from these organisms
Structures, energies, and scoring for predicted RNA-duplexes
search the UTRs in the first organism for segments of perfect Watson-Crick complementarity to bases 2-8 of the miRNA: “miRNA seed” and “seed matches”
extend each seed match with additional base pairs to the miRNA as far as possible in each direction, allowing G:U pairs, but stopping at mismatches
optimize basepairing of the remaining 3’ portion of the miRNA to the 35 bases of the UTR immediately 5’ of each seed match using the RNAfold program
assign a folding free energy G to each such miRNA:target site interaction
assign a Z score to each UTR
sort the UTRs in this organism by Z score and assign a rank R to each
predict as targets those genes for which both Zi >= Zc and Ri <= Rc for an orthologous UTR sequence in each organism, where Zc and Rc are pre-chosen Z score and rank
Was sind covariance models? Was ist deren Ziel?
„Covariance models“ sind probabilistische RNA Strukturprofile, die ähnlich wie Sequenzprofile durch ein multiples Sequenzalignment konstruiert werden. Dabei haben Sie das Ziel, sowohl primäre Konsensus und sekundäre Strukturinformationen durch die Verwendung von stochastisch kontextfreien Grammatiken zu erfassen.
Statistical model that captures the patterns of covariation that can be obtained from a MSA. Covariated bases tend to coevolve as this ensures that the base pair is maintained and RNA structure is conserved. RNA structure prediction can be improved by giving positions with greater covariation more weight.
describes both the secondary structure and the primary sequence consensus of an RNA
Can be applied ro several RNA anlysis problems:
consensus secondary structure prediction
multiple sequence alignment
database similarity searching
Iterative training procedure
Optimal algorithm for RNA secondary structure prediction based on pairwise covariations in multiple alignments
Covariation ensures ability to base pair is maintained and RNA structure is conserved
Welche Daten benötigt man für deren Berechnung? (targetScan Algorithmus oder covariance models?)
Kovarianz-Modelle werden automatisch konstruiert aus:
vorhandenen RNA Sequenz-Alignments
sogar anfänglich unalignierten Beispiel Sequenzen
Welche Nachteile haben covariance models?
Aus Vorlesung:
Needs to be well trained
Not suitable for searches of large RNA and for database searches
Structural complexity of large RNA cannot be modeled
Runtime
Memory requirements
Can be used for scanning candidate RNAs identified by other methods
Aus Altklausuren:
Aufgrund der 3D dynamischen Programmierung sind Sie sehr rechenintensiv (sehr hoher CPU Verbrauch)
Dank dem allgemeinen Ansatz werden keine tRNA-spezifischen Informationen wie Anticodons oder Intron-Position im Output mit angegeben
Incompleteness of orthologous gene annotations
Some targets may not meet the stringent seed matching, Z score, or rank criteria
Some target sites may lie outside the 3’ UTR (plants)
Some targets may not be conserved in the complete set of organisms
=> the actual number of target genes regulated by each miRNA is likely to be substantially higher
Nennen Sie drei Unterschiede zwischen prokaryotischen und eukaryotischen Genomen.
Unterschiede:
Prokaryotische Genome sind im Allgemeinen wesentlich kleiner als eukaryotische Genome
Eukaryotische Genome besitzen einen hohen Anteil an nichtcodierender DNA (etwa 95% im Mensch) wohingegen Prokaryotische Genome nur relativ geringe Anteile nichtcodierender DNA besitzen (ca. 5-20%)
Das eukaryotische Genom besitzt eine Intron-Exon-Struktur der Gene, wobei das prokaryotische Genom kaum bis gar keine Introns besitzt
Das prokaryotische Genom ist in Operons angeordnet (polycistronisch), das eukaryotische Genom hat ein Gen pro Promoter (monocistronisch)
Die Gendichte in eukaryotischen Genomen ist niedriger aufgrund der vielen nicht-codierenden Bereiche, in prokaryotischen Genomen ist die Gendichte wesentlich höher
Size
prokaryotes between 1s and 10s of Mb
eukaryotes between 1s and 1.000s of Mb
Topology:
prokaryotes: mostly circular
eukyryotes: mostly linear
Gene number:
prokaryotes: most <10.000
eukaryotes: often >10.000
Pseudogenes:
prokaryotes: few
eukaryotes: many
Complexity:
prokaryotes: low
eukaryotes: high
Horizontal gene transfer:
prokaryotes: frequent
eukaryotes: rare
Intergenic regions:
prokaryotes: short (<100kb)
eukaryotes: long (often >100kb)
Genome duplication:
prokaryotes: none
eukaryotes: frequent (especially in plants)
Gene duplication:
prokaryotes: rare
eukaryotes: frequent
Repeated sequences:
prokaryotes: minor components
eukaryotes: major components
Wie wirkt sich eine Vergrößerung des Windows auf den positiven Vorhersagewert eines ORFs aus?
(2017)
Alternatives Splicing: Exon hinzufügen und trotzdem kürzeres Produkt?
Zuordnen:
TFFM, Kraken, Prodigal, Augustus+, Annovar
zu
Transkriptionfactor vorhersage, Quality Control, prok. Genvorhersage, euk. Genhorhersage, funktional annotation database snp oder so ähnlich
TFFM <-> Transkriptionfactor vorhersage
Kraken <-> Quality Control
Prodigal <-> prok. Genvorhersage
Augustus+ <-> euk. Genhorhersage
Annovar <-> funktional annotation database snp oder so ähnlich
Nenne zwei Effekte von Alternative Splicing, wenn das Protein verlängert wird.
Beschreibe eine Methode, wie man mit bioinformatischen Mitteln Alternative Splicing analysieren kann. Gehe besonders auf die notwendigen Daten ein.
Alignment of ESTs (expressed sequence tags) against DNA (/pre-mRNA?) sequence
Insertions and deletions in the ESTs relative to the [?pre-] mRNA are identified as potential alternative splices
Alternative splices are detected when two splices are mutually exclusive
Requires ESTs which are cDNA sequences derived from mRNA with reverse transcriptase
Welche zwei Typen von Information für Genvorhersage und je 2 Beispiele
Was ist die Kozak-Sequenz
DNA motif for protein translation initiation site in most eukaryotic mRNA transcripts
(region around start codon)
5’-(gcc)gccRccAUGG-3’
(eukaryotic equivalent to Shine-Dalgarno)
GeneMarkS-T komplett aufschreiben. Insb. darauf eingehen, ob und wie sich die Anzahl an Transkripten auswirkt.
[Wir haben nur GeneMarkS; GeneMarkS-T (Gene prediction in eukaryotic transcripts) nimmt zusätzlich homology based inference (integriert transcriptome data)]
GeneMarkS (GeneMark.hmm E S):
parallel unsupervised training and prediction
based on eukaryotic GeneMark.hmm architecture:
Generalized HMM
models single exon genes and multiple exon genes
models strands at the same time
initial start site
for single exon genes only one single exon gene state
for multiple exon genes:
initial exon
donor site
intron
acceptor site
internal exon (goes back to donor site)
or terminal exon
stop site state
intergenic region state
Procedure:
all parameters of the model with reduced architecture are initialized
reduced architecture:
donor / acceptor only with two canconic dinucleotides
initiation / termination site: canonic start / stop codons
sequences emitted by non-site states: uniform length distributions
non-coding: zero-order Markov model, parameters estimated based on nucleotide frequencies in the genome
coding: different approaches, e.g. [pre?]trained on long ORFs
GeneMark run to get coding and non-coding labels
subset of uniformly labeled fragments are used to reestimate parameters
repeat until convergence
BasePairing Algorithmus mit gegebener Rekursionformel mit Skizze und eigenen Worten erklären. Struktur aufmalen, die nicht vorhergesagt werden kann. Wie kann man die Formel noch verbessern?
Struktur, die nicht vorhergesagt werden kann: Pseudoknots
pseudoknots violate the recursive definition of the optimal score S(i,j)
2 Unterschiede nennen zw. Tier und Pflanze bzgl. Target binding.
Algorithmus zur Vorhersage von targets beschreiben.
Nenne je zwei Vor- und Nachteile für hybridisierungs und sequenzbasierende Verfahren, zb Microarray vs RNA-Seq
Hybridisierungsverfahren (Microarrays):
Vorteile:
Relatively low cost
Well established in clinical use
Nachteile:
Analysis only of pre-defined sequences
Dynamic range limited by scanner
high background noise
cross-hybridization possible
Sequenzbasierende Verfahren (RNA-seq)
identifizierung alternativer Splicevarianten / neue Transkripte
hohe Sensitivität
relatively high cost
high computational effort
prone to contamination
Beschreibe kurz das Vorgehen von RNA-Seq
Identifies the full set of transcripts, including large and small RNAs, novel transcripts from unannotated genes, rare transcripts, splicing isoforms and gene-fusion transcripts
Reveals the complex landscape and dynamics of the transcriptome from yeast to human at an unprecedented level of sensitivity and accuracy
Base-pair-level resolution and a much higher dynamic range of expression levels
Overview of the experimental steps in an RNA sequencing (RNA-seq) protocol
RNA extraction → target enrichment → cDNA → library prep → sequencing → Transcriptome/genome mapping → data analysis
Experimental design: number of replicates, depth of sequencing
Parameters: alignment rate, desired power, significance level, log-fold change
RNA-seq workflow:
Quality control
Alignment of reads to reference genome
Transcriptome assembly
Differential expression
Ordnen Sie folgende Programme den richtigen Begriffen zu:
Programme: ORPHEUS, SIFT, MiR, …, …
Begriffe: Genvorhersage, Repeats, SNPs, Genvorhersage von Prokaryoten, miRNA
ORPHEUS: Gene prediction in bacterial genomes
SIFT: Sort intolerant from tolerant substitutions
Welches Verfahren wird eher für prokayrotische Genome und welches für eukaryotische Genome verwendet? Erklären Sie genau warum dies so ist.
What are pseudogenes? What are the two main classes distinguished?
Was sind Pseudogene? Welche zwei Hauptklassen werden unterschieden?
(Demo questions)
nicht funktionale Gene aber aus funktionalen Genen hervorgegangen
besitzen degenerative Eigenschaften (missense / nonsense mutations), die Expression verhindern
2 Hauptklassen: conventional and processed pseudogenes
Explain the Ka/Ks ratio. What does the value say about conservation, what conclusions can be made about the selection pressure?
Erklären Sie den Ka/Ks ratio. Was sagt der Wert über die Konservierung aus, und welche Schlüsse kann man über den vorherrschenden Selektionsdruck ziehen?
(Demo question)
Ka: Zahl der nicht synonymen Mutationen
Ks: Zahl der synonymen Mutationen
Ka/Ks höher mit niedrigerer Konservierung
Ka/Ks = 1 => kein Selektionsdruck
Ks/Ks > 1 => positiver Selektionsdruck (positive selection)
Ka/Ks < 1 => negativer Selektionsdruck (purifying selection)
What are the three strategies for gene prediction? Give an example for each.
Was sind die drei Strategien bei der Genvorhersage? Geben Sie je ein Beispiel.
Content based
Beispiel: ORFs, Codon usage, Repeat periodicity, Compositional complexity
Site based
Beispiel: splice sites, TF binding sites, Consensus sequences, Polyadenylation signals, start / stop codons
Comparative
Beispiel: Inference based on homology, Protein sequence similarity, Modular structure of proteins usually precludes finding complete gene
Nennen Sie die Vorgehensweise / zwei Effekte von Alternative Splicing.
Ablauf Splicing:
5 critical bases: 5’ splice site / donor splice site (GU), branch point (A), 3’ splice site / acceptor splice site (AG)
cleavage on 5’ splice site of pre-mRNA
reaction between 5’ splice site and branch site leads to formation of lariat-like intermediate
cleavage at 3’ splice site
ligation of exons
Types of AS:
constitutive AS: more than one product is always made from transcribed gene
regulated AS: different forms are generated under different conditions
Last changed7 months ago