Andrade
Was sind Protein-Domänen?
= strukturelle Einheit in einem Protein (160), teilen sich
Faltung
Funktion
Evolution
—> meistens Multidomänen (300 aa)
Warum sind Protein-Domänen für uns wichtig?
experimentelle Strukturaufklärung mit XRD, NMR, … haben Größenlimits
besser nach Domänen suchen um etwas über die Funktionen herauszufinden
Warum brauchen wir Proteinstrukturvorhersagen und wie können wir sie bekommen?
Sequenz —> Struktur —> Funktion
in UniProt mittlerweile nur noch 0,7% experimentell gelöst, da zeitaufwendig
z.B. Homologiemodellierung, AlphaFold
Welche Arten von Repeats gibt es?
single aa repeats QQQQQQQQQQQQQ
tandem repeats SP…..SP…..SP
Was ist die Besonderheit von Tandem Repeats?
falten zusammen aufgrund ähnlicher Struktur
(evtl Homologe bzw. Paraloge durch Genduplikation)
Wie kann ich tandem repeats detektieren, wenn sie nicht offensichtlich sind?
Multiple sequence alignment mit Jalview
Dotplots: Vergleich der Sequenz mit sich selbst
Was sind CBR´s?
= compositionally biased regions = kompositionsverzerrte Regionen
1 oder 2 aa wdh sich öfter in einer Sequenz
= PolyQ, PolyP
Was ist der Vorteil von CBR´s?
variabel, flexibel —> kristallieren nicht so leicht aus
Bei welcher Erkrankung sind die CBR´s betroffen?
Chorea Huntington (N-terminal) expandiertes PolyQ
—> Proteinaggregation
Was sind die Funktionen von CBR´s?
Schumbera
Was sind IDR´s und IDP´s?
IDR: intrinsically disorderd regions
= Regionen innerhalb des Proteins ohne 3D-Struktur unter nativen Bedingungen
IDP: intrinsically disorderd proteins
= Proteine ohne 3D-Struktur unter nativen Bedingungen
Schließen sich Struktur und Disorder gegenseitig aus?
Nein, die Funktion kann sich auch ändern
ungeordnet —> geordnet z.B. für molekulare Erkennung
geordnet —> ungeordnet z.B. um in eine Membran einzudringen
Was sind Hauptfunktionen der IDR´s?
Flexibilität (im Raum)
Zugänglichkeit (zu modifizierbaren AS)
Entropie (Bewegungsfreiheit)
Wie kann man IDR´s klassifizieren?
Entropische Ketten (Bewegungsfreiheit —> Flexibilität)
Modifikationsstellen z.B. für PTM´s (frei zugänglich, modif.AS-Reste)
Chaperone (unterstützen Faltungsprozesse)
molekulare Effektoren (Modulieren von Partnermolekülen bei Bindung)
molekulare Assemblier (bauen Komplexe auf z.B. Ribosomenkomplexe durch Bindung)
molekulare Scavenger (speichern und neutralisieren kleine Moleküle wie Tannine)
Welche 3 unterschiedlichen Klassen der IDR´s gibt es bzgl der Länge der AS?
SLiMs (short linear motifs)
3-10 aa
PTM´s
MoRF´s (molecular recognition features)
10-70 aa
ungeordnet —> geordnet (falten sich wenn sie ihren Bindungspartner treffen)
IDD (intrinsically disordered domains)
> 70
binden RNA/DNA/Proteine
Was versteht man unter LLPS?
= Liquid-Liquid-Phase Separation
Trennung von Proteinen/RNA unter Bildung von MLO´s (= Membrane less organelles) = flüssige Tröpfchen ohne Membran
Wie kann man die Mechanismen der LLPS einteilen?
geordnete Proteine: starke Proteininteraktionen zwischen gefalteten Proteine
ungeordnete Proteine: schwache Wechselwirkungen zwischen IDR´s oder RNA´s
Welche schwachen Wechselwirkungen gibt es? Welche betrifft die Aromaten?
Wbb
elektrostatische und hydrophobe Wechselwirkungen
Pi-Pi (zwischen Aromaten)
Pi-Kation (zwischen Aromat und Kation)
Welche schwache Wechselwirkung ist die stärkste?
Pi-Pi
Wo tritt die Pi-Pi bzw. die Pi-Kation-Bindung auf?
IDR´s
RNA
ssDNA
Warum treten die Pi-Pi bzw. die Pi-Kation-Bindung nicht bei dsDNA auf?
nicht zugänglich
keine flexiblen, exponierten Basen, da Basen innen und übereinander gestapelt (Basen-Stacking)
Wie „steuert“ der Organismus das Verhalten von LLPS?
pH
Salzkonzentration
Temperatur
PTM´s (Phosphorylierungen)
=> Kontextabhängigkeit
Welche Methoden gibt es zur Messung der LLPS?
Turbidimetrie
Fluoreszenzmikroskopie
FRAP
Warum ist LLPS wichtig?
Reguliert Transkription
—> z.B. durch LLPS werden Proteine, die für die Trankription benötigt werden an einem Ort gesammelt
Was sind die Gefahren von LLPS?
Aggregatbildung —> neurodegenrative Erkrankungen
Krebsbildung (Mutationen —> Kondensate verändert —> Transkription beeinflusst —>Genregulation)
Was sind positiv geladene AS?
Arginin, Lysin
Was sind negativ geladene AS?
Glutaminsäure
Was sind aromatische AS?
Phenylalanin, Tryptophan, Tyrosin
Was sind phosphorylierbare AS?
Serin, Threonin und Tyrosin
Was ist eine hydrophobe AS?
Alanin
Welche AS gibt es häufig in IDR´s
Serin (phosphorylierbar)
Alanin (hydrophob)
Prolin
Lysin, Arginin (pos)
Glutaminsäure (neg)
Muro
Was ist der Unterschied zwischen Bioinformatik und comp. biology?
Bioinformatik: Entwicklung von Methoden u. Software-Tools um biologische (insb. komplexe) Daten zu verstehen
comp. biology: Nutzung von Datenanalysen (math. Modellen, Simulationen) um biolog. Systeme zu verstehen
In welcher Einheit werden Proteine gemessen und wie kam diese zustande?
Da
1 Da = 1/12 Teil des C12 = m (Neutron oder Proton) = 1,66 x 10^27 kg
Wie schwer ist eine aa?
1 aa = 110 Da
Was ist das Protein folding problem?
korrekte Vorhersage der Proteinstruktur aus der Sequenz
Prozess der Proteinfaltung verstehen
Was ist die durchschnittliche Proteinlänge des Menschen u. wie können wir die durchschnittliche Masse bestimmen?
552 aa x 110 Da/aa = 60,5 kDa
Wie sind die Gen- und Proteinlängen verteilt?
lognormal
Wie viele AS bzw. Nukleotide in einer Sequenz brauche ich um BLAT zu benutzen?
20 aa oder 25 Nukleotide
Welche Knowledgebases gibt es in UniProt und was ist der Unterschied?
SwissProt = manuell generierte Einträge, “menschenvalidiert” (qualitativ hochwertiger)
TrEMBL = computerbasierte Einträge
Was versteht man unter Konvergenz?
= unabhängige Evolution z.B. Protein mit der gleichen oder ähnlichen Struktur ohne Verwandtschaftsbeziehungen
Was versteht man unter Alignment? Wozu dient sie?
Identifikation von Ähnlichkeiten zwischen 2 Sequenzen
—> Wissensextraktion
Was ist die Rost-Kurve?
zeigt, wie ähnlich die Proteinsequenzen sein müssen, um die Proteinstruktur voraussagen zu können
Twighlight zone: 20-30 %
Muro:
Was bedeuten die Abkürzungen * : . und (“blank”)
* identisch
: konserviert (ähnlich)
. semi-konserviert (weniger ähnlich)
(“blank”) unkonserviert (nicht ähnlich)
Was ist Hamming und Levenshtein-Distance?
= Metriken (Maß für die Unterschiedlichkeit zwischen 2 Alignments)
Hamming: Sequenzen müssen die gleiche Länge haben, Nur Substitutionen (ein Zeichen durch ein anderes ersetzen).
Levenshtein: unterschiedliche Längen möglich, Substitutionen, Insertionen, Deletionen
Sind die Distances ausreichend?
nein, manche treten wahrscheinlicher auf als andere
—> Bewertungssystem nötig = Substitutionsmatrix
Nenne Beispiele für eine Substitutionsmatrix? Welche nutzt BLAST?
PAM-Matrix (Dayhoff)
BLOSUM 62 —> BLAST
Was heißt PAM 30, was PAM 250?
PAM 30 = 75% verwandt (nah)
PAM 250 = 20% verwandt (weit entfernt)
Wie kann man Algorithmen klassifizieren? + Beispiele
Global Alignment: Needleman und Wunsch
Local Alignment: Smith and Waterman
Was machen also die Substitutionsmatrizen?
= Bewertungssystem für die Unterschiede zwischen den Sequenzen
Welche Methoden gibt es die Alignments durchzuführen?
Dot plots
Dynamic programming
Word methods: BLAT, BLAST
Was versteht man unter Phylogenie
= Rekonstruktion evolutionärer Verwandtschaftsbeziehungen
(typischerweise als Baum dargestellt)
Welche Baumarten gibt es und welcher ist Standard?
Phenetic: basierend auf Ähnlichkeiten (manchmal irreführend wegen Konvergenz)
Cladistic: basierend auf Abstammungen = STANDARD
Muro Altklausur
Wie viele verschiedene Sequenzen kann ein Dipeptid enthalten (2 zufällige AS)? Ein Dipeptid ist ein Molekül, das aus 2 AS besteht.
20^2 = 400
Welches Web-Tool wird verwendet um allgemein Informationen bzw. Annotationen von einem bestimmten Protein abzurufen?
UniProt
Schreiben Sie welches Web-Tool verwendet wird
Gegeben sei eine Proteinsequenz
a) Finden Sie den genomischen Locus der Proteinsequenz innerhalb eines Genoms
b) Finden Sie ähnliche Proteinsequenzen wie die angegebene (sogar von vielen Arten)
a) BLAT
b) BLAST
Muro Altklausur 20
Fassen Sie zusammen, was Sie über den rechnerischen Teil eines Sequenzalignments wissen.
Distanzen (Hemming und Levenshtein): Substitutionen, Insertionen, Deletionen
Bewertungssystem durch Substitutionsmatrizen: PAM, Blossum62 inkl. gap penalty
Algorithmen (Global und Local Alignment)
Methoden: Dynamic Programming (rechenintensiv), daher oft Nutzung von Heuristic wie BLAST
Beschreiben Sie den Unterschied zwischen Homologie und Orthologie
Homologie = gemeinsamer Vorfahre (2 Gene oder Proteinen haben einen gemeinsamen evolutionären Ursprung) = Überbegriff = (oft ähnliche Funktionen)
Orthologie = Artenbildung aus einem gemeinsamen Vorfahren
Paralogie = Genverdopplung innerhalb derselben Art
Muro Altklausur 21
Nennen Sie eine Datenbank, die auf Proteinanmerkungen spezialisiert ist.
Warum ist die algorithmische Technik “Dynamische Programmierung” für das Sequenzalignment nützlich. Bitte erklären Sie es.
Zerlegung des Problems in mehrere Teilprobleme, wobei zunächst die Teilprobleme nacheinander optimal gelöst werden = Effizienzsteigerung und Genauigkeit
Gegeben ist die Sequenz eines Proteins (Aminosäuren) oder die Sequenz eines proteinkodierenden Gens (DNA). Nennen Sie Tools oder Webservers, bei denen Sie die Sequenz als Abfrage (Query) verwenden können. Erläutern Sie den Zweck der Tools und die Unterschiede zwischen ihnen.
BLAT: Sequenz (DNA/Protein) gegen das Genom [UCSC] (nahe Verwandtschaft wird vorausgesetzt)
= Lokalisieren einer bekannten Sequenz im Genom (Mapping)
BLAST: Abfrage von DNA gegen DNA (blastn) oder Protein gegen Protein (blastp) [NCBI]
= Überprüfung von Homologien und Verwandtschaftsgraden
Nennen Sie zwei (oder drei) experimentelle Techniken zur Bestimmung der 3D-Struktur von biologischen Makromoleküle.
X-Ray defraction XRD, Röntgenbeugung, Kristallografie
NMR-Spektroskopie (nuclear magnetic resonance)
Kryo-Elektronenmikroskopie
Muro Altklausur 22
Was ist Dynamische Programmierung? Welche Vorteile hat es für das Alignment von Sequenzen?
Zerlegung des Problems in mehrere Teilprobleme, wobei zunächst die Teilprobleme nacheinander optimal gelöst werden
= Effizienzsteigerung und Genauigkeit
Was ist eine Heuristik?
= Technik, die eine Lösung findet, die zwar nicht garantiert optimal ist, aber gut genug, um eine Reihe von Zielen zu erfüllen (= AI)
= gute, aber nicht perfekte Lösungen, zeitsparend
(Heuristiken helfen z.B., wahrscheinliche Proteinstrukturen zu schätzen, ohne jede mögliche Konformation auszuprobieren)
Erklären Sie einen Grund, warum es mehrere PDB-Einträge für dasselbe Protein geben könnte.
durch unterschiedliche Techniken bestimmt (z.B. XRD, NMR), liefern leicht unterschiedliche Ergebnisse
verschiedene Proteoformen
Erklären Sie einen Grund, warum posttranslationale Modifikationen häufig in ungeordneten Regionen von Proteinen gefunden werden.
flexibel, besser zugänglich und reich an modifizierbaren AS-Resten
Andrade Altklausur
Sequenz: ATATATATATATATATAT
Was für eine Art Repeat ist das?
tandem repeat = Tandemwiederholung
Warum kommen PTM´s häufiger in ungeordneten Regionen von Proteinen vor?
ungeordnete Region von Proteinen = IDR (Intriniscally Disordered Region) = flexibler Abschnitt ohne stabile 3D-Struktur
—> flexibel, besser zugänglich und reich an modifizierbaren AS-Resten = sinnvolle Eigenschaften für regulierende Modifikationen
Beispiele für modifizierbare AS-Resten:
Serin —> Phosphorylierung
Lysin (+ geladen)→ Acetylierung, Ubiquitinierung, Methylierung
Arginin (+ geladen) → Methylierung
Glutaminsäure (neg. geladen)
Prolin → Hydroxylierung
Andrade Altklausur 20
Beschreiben Sie bei der Homologiemodellierung der Struktur eines Proteins aus einem homologen Protein bekannter Strukur wie sich die Sequenzähnlichkeit zwischen den beiden Proteinen auf die Genauigkeit des Modells auswirkt.
hohe Sequenzidentität = hohe Modellgenauigkeit,
<30% Identität = unsicher, viele Fehler
Andrade Altklausur 21
Erklären Sie die Homologiemodellierung der Proteinstruktur.
homologe Sequenzen haben meist ähnliche Struktur und Funktion
Query-Sequenz —> Vergleich mit Template-Sequenz (mit der eines bekannten, verwandten Proteins)
= Vorhersage der Proteinstruktur des Query-Proteins
Zuletzt geändertvor 5 Tagen