What’s the definition of computational biology vs. bioinformatics?
Computational biology:
Refers to the use of data analysis through mathematical modeling to understand biological systems.
Bioinformatics:
Trying to develop methods and software tools for understanding biological data.
Computational Biology:
Bezieht sich auf die Nutzung von Datenanalysen durch mathematische Modellierung, um biologische Systeme zu verstehen.
Bioinformatik:
Versucht, Methoden und Softwarewerkzeuge zu entwickeln, um biologische Daten zu verstehen.
What’s the average size of proteins in eucaryotic cells? What’s the difference between protein length and gene length?
~538 aminoacids
~30000 genes
With organismal complexity the length of genes improves but not the average protein length.
(Differs from procaryotes!)
~538 Aminosäuren
~30000 Gene
Mit zunehmender Organismuskomplexität nimmt die Länge der Gene zu, nicht aber die durchschnittliche Proteinlänge.
(Unterschied zu Prokaryoten!)
What’s the use of heuristic AI in the context if bioinformatics?
Heuristic AI uses "rules of thumb" or shortcuts, called heuristics, to find approximate solutions to complex problems efficiently when an exact solution is impractical or takes to much time to compute. (Bsp. Alphafold2)
Heuristische KI verwendet „Faustregeln“ oder Abkürzungen, sogenannte Heuristiken, um ungefähr Lösungen für komplexe Probleme effizient zu finden, wenn eine exakte Lösung unpraktisch ist oder zu viel Zeit für die Berechnung benötigen würde. (Beispiel: Alphafold2)
What’s the three layers that bioimformatics works with?
Human, life, computers
How can you approximatly calculate the average protein mass?
1 AS ~ 110 Dalton
1 Dalton = 1/12 Carbon^12 mass
Molecular mass units: kDa
1 eucaryotic protein= 552AS
552AS*110D/AS=60,7 kDa
Whats the Fasta file format and how is it used?
1 Letter = 1 AS
Fasta files are used for protein alignment.
The format's simplicity allows for easy processing by many biological sequencing programs.
1 Buchstabe = 1 AS
Fasta-Dateien werden für die Proteinalignments verwendet.
Die Einfachheit des Formats ermöglicht eine einfache Verarbeitung durch viele biologische Sequenzierungsprogramme.
What’s the difference between SwissProt entries and Tremble entries? Which ones are more reliable?
Swiss-Prot entries are reviewed, while Tremble offers non -reviewed entries.
Swiss-Prot-Einträge werden überprüft, während Tremble nicht überprüfte Einträge anbietet.
What database do you use to align a protein to the genome of a species? Which assembly should you use?
BLAT: Alignment of sequences against the whole genome.
The latest assembly in BLAT may have not all necessary annotations. Always use the best reviewed data.
BLAT: Ausrichtung von Sequenzen gegen das gesamte Genom.
Die neueste Version im BLAT enthält möglicherweise nicht die notwendigen Validationen.
Verwende immer die am besten überprüften Daten.
In BLAT, what is:
-% identity
-strand
-SPAN
-n
% identity: similar nucleotides
Strand: which direction is the alignment +/-
SPAN: difference between introns and exons
n: occurs, when a part of the sequence is not matched in the alignment—> error
% Identität: ähnliche Nukleotide
Strang: in welche Richtung die Ausrichtung erfolgt +/−
SPAN: Unterschied zwischen Introns und Exons
n: tritt auf, wenn ein Teil der Sequenz in dem Alignment nicht übereinstimmt → Fehler
How to access the whole proteome?
PDB, Uniprot—> species proteomes sequences can be download as fasta file format
—> need of an accession number or an entry ID of the protein
PDB, Uniprot—> Spezies-Proteom-Sequenzen können im Fasta-Dateiformat heruntergeladen werden
—> benötigt wird eine Zugangsnummer oder eine Eintrags-ID des Proteins
Why does sometimes an error occur in BLAT alignment —> n?
micro exons: BLAT does not consider micro exons <30 nucleotides
Mikroexons: BLAT berücksichtigt keine Mikroexons <30 Nukleotide
What’s the g-value-paradox?
Lack of correlation between number of protein coding genes in eucaryotes and their relative biological complexity.
—>threshold at 1500 basepairs, where complexity peaks and noncoding genes surge
Keine Korrelation zwischen der Anzahl protein-codierender Gene in Eukaryoten und ihrer relativen biologischen Komplexität.
—> Schwelle bei 1500 Basenpaaren, wo die Komplexität ihren Höhepunkt erreicht und die nicht-codierenden Gene stark zunehmen
How is a computer, DNA and a proteinsequence storing information?
PC: bit 2^n
DNA: ATCG 4^n
Proteins: AS 20^n
How is the theshold of structural homology mapped?
Rost curve:
X axis: alignment length
Y axis: % sequence identity
Twighlight zone 20-30%
Do similar 3D structures of proteins implie homology?
No, convergent evolution leads to analogy.
Define homology, analogy, paralogy, orthology.
Homology: similarities root in a common ancestor
Analogy: similar properties because of convergent evolution
Paralogy: genome duplication, different functiom same organism
Orthology: speciation, same function, different organism
Homologie: Ähnlichkeiten, die auf einen gemeinsamen Vorfahren zurückgehen
Analogie: ähnliche Eigenschaften durch konvergente Evolution
Paralogie: Genomduplikation, unterschiedliche Funktion im selben Organismus
Orthologie: Artbildung, gleiche Funktion, verschiedener Organismus
What´s the difference between BLAT and BLAST?
BLAST: does local alignment of 1 sequence against all proteins known, tool in the NCBI
BLAT: alignment of 1 sequence against the whole proteome of an organism, tool in the UCSC
BLAST: führt ein Alignment einer Sequenz gegen alle bekannten Proteine durch, ein Werkzeug im NCBI
BLAT: Ausrichtung einer Sequenz gegen das gesamte Proteom eines Organismus, ein Werkzeug an der UCSC
Last changed7 days ago