Nennen Sie vier verschiedene Algorithmen zur
Berechnung von Sequenzalignment.
Bei der Score-Berechnung von Alignments muss man vier
verschiedene Fälle unterscheiden. Welche sind das?
Match (I)
Gap (=)
Folge-Gap
Mismatch (.)
Ähnlichkeit (+)
Was ist ein globales Alignment?
Alignmnet zweier Sequenzen, wobei nur die Teilsequenzen zugeordnet werden, die einen maximalen Score erreichen
Mismatches und Gaps am Anfang und Ende werden “abgeschnitten”
Bereiche mit geringer Ähnlichkeit werden nicht verwendet
kann identisch mit globalem Alignment sein
Wie berechnet sich ein Needleman-Wunsch-Algoritihmus?
Globales Alignment
Pluspunkte errechnen sich von der Anzahl der Vergleichwerte, während bei Smith-Waterman die Pluspunkte durch die Matches entstehen
NMW: Folge-Gaps
NMW: Gaps + Folge Gaps
Substitutionsmatrizen
Im Gegensatz zu DNA/RNA sind bei Proteinen nicht alle
Mutationen gleich wahrscheinlich.
Daher wird zur Bewertung von Proteinsequenz-Alignments
nicht nur nach match / mismatch unterschieden, sondern (meist empirisch ermittelte) Substitutionsraten einbezogen.
Eingang findet: Anzahl der Austausche, Anzahl des
Vorkommens und relative Mutierbarkeit.
Was sind die bekanntesten Substitutionsmatrizen?
PAM (Point Accepted Mutations oder Percent Accepted Mutations)
BLOSUM (BLOcks SUbstitution Matrix oder BLOcks SUMmen)
Was weiß man über PAM?
Einheit zur Messung der evolutionären Distanz
(Divergenz) zwischen zwei Aminosäuresequenzen
Zwei Sequenzen A und B unterscheiden sich um eine PAM-Einheit,wenn B aus A durch eine Serie von akzeptierten Punktmutationen entstanden ist und pro 100 Residuen (Aminosäuren) im Schnitt eine Punktmutation auftrat.“
Einmal eingeführte Mutationen können in späteren Schritten wieder aufgehoben werden, so dass zwei Sequenzen, die um 100 PAM-Einheiten divergieren, nicht zu 100% verschieden sein müssen. Selbst bei 250 PAM-Einheiten Divergenz kann erwartet werden, dass die Proteine zu 20% übereinstimmen.
Was muss man bei PAM beachten?
Eine PAM1-Matrix wird aus Proteinsequenzen ermittelt,
die sich um 1 PAM-Einheit unterscheiden.
Analog kann eine PAM n-Matrix (für niedrige Werte von
n) aus Sequenzen mit n PAM-Einheiten Unterschied
ermittelt werden. Für größere n wird die PAM n-Matrix
(z.B. PAM250) rechnerisch aus Matrizen mit niedrigeren
n -Werten abgeleitet (1990 George et al.)
PAM n-Matrizen sind symmetrisch, d.h. der Austausch
von Aminosäure A gegen B erhält den gleichen Score
wie der von B gegen A.
Dies ist sinnvoll, weil die Mutationsrichtung oft nicht
bekannt ist.
Wie wurde die BLOSUM Matrix entwickelt?
Die PAM-Matrizen wurden in den 70er Jahren basierend auf einer relativ kleinen Datenmenge errechnet. Zugrunde liegt eine Analyse von 100 Proteinen in Gruppen mit mehr als 85% Sequenzidentität
Sie haben sich für viele Alignments als nicht genau genug erwiesen.
Henikoff und Henikoff haben 1992 anhand von Sequenzblöcken aus der BLOCKS Datenbank die BLOSUM Matrix errechnet. Diese Blöcke stammen aus Multiple Sequence Alignments und enthalten keine Gaps.
Die Blöcke können viele identische oder sehr ähnliche Sequenzen enthalten, was zu hohen Werten für konservierte Aminosäuren und zu hohen Strafwerten für die Austausche der Aminosäuren führt.
Daher wurden aus den Blöcken Sequenzen entfernt, so dass die verbleibenden Sequenzen maximal n% Ähnlichkeit aufweisen.
Die BLOSUM62-Matrix wurde aus Blöcken mit max. 62% Sequenz- Homologie berechnet, für die BLOSUM80-Matrix sind es 80%, etc.
Was sind die Gapkosten be BLOSUM?
Gapkosten sollten so gewählt sein, dass das Öffnen einer neuen Lücke recht „teuer“ wird und damit die Alignments nicht zerrissen werden, gleichzeitig das Verlängern der Lücke nicht zu teuer wird
Die Wahl der Kostenfunktion hängt auch mit der Wahl der
Ähnlichkeitsmatrix zusammen
Für die beliebten BLOSUM62- und BLOSUM50-Matrizen
haben sich folgende Werte bewährt:
BLOSUM50: Gap = -12, Folgegap = -1
BLOSUM62: Gap = -11, Folgegap = -1
Welche Matrix für welches Alignment?
Die Zahlen in Matrixnamen wie BLOSUM62 oder
PAM100 sind ein Maß für die Ähnlichkeit der zugrunde
liegenden (und damit auch der zu vergleichenden)
Sequenzdaten.
Dabei gilt bei BLOSUM: Je kleiner die Zahl, desto
unähnlicher die Sequenzen. Bei PAM ist es umgekehrt.
Last changed6 months ago