Erklären Sie warum wir einen cleveren Algorithmus (z.B. Dynamic Programming) brauchen, um ein optimales Sequenzalignment zu berechnen.
➢ Methode sehr rechenaufwändig! -> in der Praxis nicht durchführbar
Alignment von n Sequenzen der Länge l:
Rechenzeit: O(2n⋅ln)
Speicher-Bedarf: O(ln)
Angesichts der folgenden dynamischen Programmiermatrix und unter der Annahme, dass Matches und Missmatches jeweils einen Score von 1 und Gaps einen Score von -1 haben berechnen Sie den Wert an der Stelle des Fragezeichens:
Was ist die Bedeutung der Pfeile in der Programmiermatrix?
➢ ermöglicht die Bestimmung des sinnvollsten Alignments über Trace Back
Muss der Score von homologen Sequenzen immer hoch sein?
➢ Ja, da der Score aussagt wie hoch die Wahrscheinlichkeit ist, mit der die Aminosäuren gegeneinander ausgetauscht werden. (Mutation) Dieser ist besonders hoch, wenn die Aminosäuren gleichbleiben (= homologe Sequenzen)
➢ wenn mehr als 30% der AS miteinander übereinstimmen, dann zählen sie als homolog
Was versteht man unter einem evolutionären Abstand von 1 PAM?
➢ 1 Punktmutation pro 100 Aminosäuren/Residuen (99% Übereinstimmung
1 PAM – Einheitfür den evolutionären Abstand von Proteinsequenzen
Bestimmen sie den Score des folgenden Alignments unter Verwendung der gegebenen PAM250 Matrix und den Gap-Kosten von 4. Welches Alignment ist günstiger?
Definieren sie den Begriff homologes Protein und paraloges Protein
➢ Homologes Protein: durch divergente Evolution aus einem gemeinsamen Vorläufer entstandene Proteine mit meist großen Übereinstimmungen in ihrer Primär- und Tertiärstruktur und deren Sequenzidentität (nicht immer)
➢ Paraloges Protein: homologe Sequenzen z.B. durch Genduplikation (sehr hohe Identität, u.U. unterschiedliche Funktion/Eigenschaften, parallel entwickelt, Bsp. Myoglobin/Hämoglobin)
➔ nacheinander auftretende Proteine desselben Individuums, die im Aufbau so viele Übereinstimmungen aufweisen, dass sie homologisiert (Homologie, Sequenzhomologie) werden können
-> Produkte einer Genfamilie
➢ Orthologes Protein: homologe Sequenzen unterschiedlicher Arten mit gemeinsamen Vorfahren, meist die gleiche Funktion
Was gibt eigentlich der E-Wert an?
E = Erwartungswert f. die Zahl unterschiedlicher zufälliger Alignments mit einem Score größer als S K, λ Karlin-Altschul Parameter
Warum braucht man Pseudocounts in der Profilmatrix? Nennen sie Beispiele
Werden für nicht definierte Werte eingesetzt, da sie die Matrix nicht wesentlich beeinflussen und damit Lücken in der Matrix umgangen werden.
Geben sie alle möglichen 4mere aus der folgenden Sequenz an
4 Base Fragmente)
Welche Grundannahmen wurden bei der Aufstellung der PAM-Matrix getroffen?
➢ In der Evolution verändern sich die Proteine durch eine Folge von unabhängigen Punktmutationen
➢ Durch Selektion werden bestimmte Punktmutationen in der Population akzeptiert und werden Teil des Genpools
Wie wurde die BLOSUM-Matrix erstellt? Nennen Sie mindestens zwei Vorteile der BLOSUM-Matrix im Vergleich zur PAM-Matrix.
➢ BLOSUM aus multiplen Alignments entfernter verwandter(lokaler) Sequenzen (Blöcke von Proteinsequenzen, ohne Insertionen/Deletionen)
➢ Vorteile:
- größere Datenmenge
- multiple Alignments robuster
- keine Extrapolation auf weiter entfernte evolutionäre Sequenzen erforderlich
Skizzieren sie kurz das BLAST-Algorithmus in Worten
➢ BLAST generiert eine vorläufige Liste von Wörtern (aus W Aminosäuren, typisch Tripeptide) aus Testsequenz
➢ BLAST erstellt eine Liste von ähnlichen Wörtern oberhalb einer Bewertungsschwelle T, Suche nach Hits in der Datenbank Algorithmus sucht nach zwei separaten, sich nicht überlappenden Wörtern innerhalb einer definierten Distanz A
➢ Suche nach High-Scoring Segmentpaaren, Ausdehnung/Verlängerung um Residuenpaare in beide Richtungen einer Sequenz bis zusätzliche Bewertung kleiner ist als Cutoff-Score S
Was bedeutet - zum Beispiel bei der Suche einer Sequenz in einer Datenbank mit Proteinfamilien - ein im Ergebnis angegebene Positive Predictive Value von 95% in der Charakterisierung der Familie? Wie ist der Positive Predictive Value definiert?
➢ PPV = TP / (TP+FP)
➢ Sagt aus wieviel % der Treffer auch tatsächlich zur Proteinfamilie gehören. -> hier: 95%
Zuletzt geändertvor 2 Jahren