Was ist die entscheidende Weiterentwicklung von den Algorithmen von Needleman-Wunsch und Smith-Waterman zu den PAM- und BLOSUM-Matrizen?
PAM- und BLOSUM-Matrizen berücksichtigen auch die Substitutionsraten der Aminosäuren.
Sie haben zwei Sequenzen von Aminosäuren:
Seq1: ACCGTWASS und Seq2: ASCHSWVST
Welche Anzahl der Austausche, Anzahl des Vorkommens und
relative Mutierbarkeit besitzen die Aminosäuren?
Was ist eine PAM10-Matrize?
Die PAM10-Matrize entsteht durch 10maliges multiplizieren der 1PAM-Matix, logarithmieren und Multiplikation mit 10.
Warum gibt es bei einer PAM100-Matrize keine 100%igen
Austausch der Aminosäuren?
Weil es bei dem Austausch einer Aminosäure auch wieder zu einer Rückmutation kommen kann.
Was stellt das VENN-Diagramm der Aminosäuren dar?
Das VENN- Diagramm zeigt die Gemeinsamkeiten der Aminosäuren auf:
Polarität, Größe, Acidität, Hydrophobizität und Aromatizität.
Wie kann man den rechenaufwand bei Aligmnets schnell verkleinern?
Dies sind meist so genannte „heuristische“ Verfahren, d.h. der
Geschwindigkeitsgewinn wird dadurch erkauft, dass nicht unbedingt das optimale Ergebnis erzielt wird (in der Regel aber zumindest ein Ergebnis nahe am Optimum).
Aus welchen Schritten besteht der FASTA Algorithmus?
1. Suche nach kurzen identischen Sequenzabschnitten
2. Bewertung der Treffer mit Substitutionsmatrix; Löschen von Bereichen mit niedrigen Scores
3. Verbindung benachbarter Treffer (Einführen von Gaps /Verknüpfungsstrafpunkt)
4. Berechnung des optimalen Alignments im ausgewählten Bereich der Matrix
Bei Schritt 1 muss man die Mindestlänge der übereinstimmenden
Teilsequenzen festlegen. Auf diesem Prinzip funktionieren auch andere Algorithmen. Je nach Algorithmus und Implementierung heißt der entsprechende Parameter meist „ktup“ oder „word size“.
Was muss man bei ktup/ word size bechten?
Je kleiner ktup bzw. word size ist, desto mehr Treffer
werden im ersten Schritt gefunden.
Je kleiner der Wert ist, desto sensitiver ist die Suche,
aber desto höher ist auch der Rechenaufwand.
Für Nukleotide wird meist der Wert 6 und für Proteine
der Wert 2 gewählt, da bei vier verschiedenen
Nukleotiden die Wahrscheinlichkeit für
aufeinanderfolgende Übereinstimmungen in beiden
Sequenzen größer ist als bei 20 verschiedenen
Aminosäuren.
Was ist das e-Value?
Als Maß dafür, wie signifikant ein Alignment ist, wird die
Wahrscheinlichkeit für einen vergleichbaren Treffer in einer
Datenbank aus Zufallssequenzen berechnet.
Je kleiner der e-Value ist, um so glaubwürdiger ist das
errechnete Alignment.
Ein e-Value von 0,05 bedeutet, dass das Alignment zu 95%
signifikant ist.
Bei Datenbanksuchen: Die Anzahl von Treffern in einer
solchen Zufallsdatenbank (mit gleicher Größe wie die
Datenbank, in der die Suche durchgeführt wurde) mit
gleichem oder besseren Score.
Insb. sehr kurze Sequenzen erreichen oft hohe e-Values.
Zum Beispiel ist die Wahrscheinlichkeit dafür, die
Nukleotidsequenz „ATG“ in einer beliebigen DNA-
Sequenz zu finden, nahezu 1.
Daher muss dann je nach Implementierung und Eingabe
der Schwellenwert, oberhalb dessen ein Alignment nicht
angezeigt wird, hochgesetzt werden, wenn man kurze
Sequenzen vergleichen will.
Was sind die besonderen Formen von FASTA Formaten?
FASTA: Protein-Protein-Datenbank bzw. DNA-DNA-
Datenbank Vergleich.
FASTX: Suchsequenz DNA - Protein-Datenbank Vergleich
FASTY: Suchsequenz DNA - Protein-Datenbank Vergleich
(komplexer und langsamer als FASTX).
TFASTX: Suchsequenz Protein – DNA-Datenbank Vergleich.
FASTF: Suchsequenz Protein (Edman-Abbau) – Protein-
FASTS: Suchsequenz Protein (MALDI-Analysen) – Protein-
SSEARCH: Protein-Protein-Datenbank bzw. DNA-DNA-
Datenbank Vergleich. (Smith-Waterman-Algorithmus / 10-50 mal langsamer als FASTA).
Was ist BLAST?
Meistgenutzter Algorithmus für Suche in Sequenzdaten
Grundprinzip ähnelt FASTA: Suche nach „diagonalen Treffern“ als erster Schritt (BLAST erlaubt dabei auch Mismatches)
Durchführung:
– Sequenzen werden in kurze Abschnitte („Wörter“) zerlegt
– Word size für Nucleotide = 11 und für Proteine = 3.
– Wörter (und „ähnliche Wörter“ im Gegensatz zu FASTA) werden bewertet (Scores können vorberechnet werden, da bei kurzen Wörtern überschaubare Kombinationsmöglichkeiten bestehen. Nur für Proteine nicht für Nucleotide).
Wie wird ein BLAST durchgeführt?
– und dann nach übereinstimmenden Wörtern in der Datenbank
gesucht (genauer: nach Treffern mit Score von mind. T =
Schwellenwert)
– Suche nach nahe zusammenliegenden Trefferpaaren mit der
Fensterlänge A auf der gleichen Diagonalen („High Scoring Pairs“)
– Treffer werden schrittweise nach links oder rechts erweitert, bis
sich der Score nicht mehr erhöhen lässt.
Wann wird welche Subsitutionsmatrix genutzt?
Das Ergebnis der heuristischen Suchalgorithmen ist stark von der verwendeten Matrix abhängig. Meist wir Blosum62 verwendet.
Blosum80 oder PAM40 für stark konservierte Proteindomänen: hohe Identität über kurze Bereiche.
Blosum45 oder PAM250 für geringere Identität über einen größeren Bereich.
Filtering: Gewisse Bereiche (mit niedriger Komplexität) werden bei der Blastsuche maskiert (z.B. mit einem X gekennzeichnet / bei Nucleinsäuren mit einem N).
Welche Abschnitte enthält eine BLAST Ergebnisseite?
Grafics summary:
Übersicht über in der Sequenz gefundene Motive
Grafische Darstellung der Treffer (Länge u. Position sowie farblichmarkierte Qualität des Alignments)
Descriptions:
Text-Liste der Treffer
Alignments:
Die eigentlichen Alignments
Welche BLAST Varianten gibt es?
Zuletzt geändertvor 6 Monaten