Wie wird ein BLAST durchegführt?
1. Erstellen der BLAST-Tabelle sortiert nach E-Werten
2. Berechnung eines multiplen Alignment
3. Consensus Pattern
4. Suche nach hochkonservierten Bereichen.
5. Wiederholung mit der Consensussequenz.
Für was ist ein Alignment nützlich?
– Vergleich homologer Proteine aus mehreren Species
– Vergleich mehrerer Proteine mit ähnlicher Funktion
– Auffinden von konservierten Residuen oder „Ausreißern“
innerhalb einer Familie ähnlicher Proteine
– Identifikation von Mutationen, die für Funktionsunterschiede
relevant sind
– Startpunkt für phylogenetische Analysen
– Verbesserung von Alignments zweier Sequenzen durch
Hinzufügen weiterer, ähnlicher Sequenzen
Wie kann man ein Alignemnt aus mehr als zwei Sequenzen erstellen?
kann man den Smith-Waterman- Algorithmus um weitere Dimensionen erweitern:
führt schnell zu großen datensätzen, daher werden heuristische Verfahren verwendet
Was ist der Clustal Algorithmus?
Der Clustal Algorithmus nutzt für die Berechnung eines
vieldimensionalen Alignments viele zweidimensionale
Alignments:
Was sind Nachteile des Clustal Algorithmus?
• Datensätze enthalten häufig einige identische oder ähnliche
Sequenzen (Redundanz)
• Dies kann zu verschiedenen Problemen führen:
– Unübersichtliche Suchergebnisse
– Unnötige Vergleiche bei Suchen in den Datensätzen
– Verfälschte Ergebnisse bei statistischen Analysen
• Daher führt man häufig ähnliche Sequenzen zu einem Cluster
zusammen, so dass keine zwei Sequenzen zu mehr als x%
identisch sind (x% = Redundanzlevel)
Was ist Ziel des Clustering?
Ziel: Datensatz, in dem keine zwei Sequenzen
zu mehr als x% identisch sind
• Wird erreicht durch Zusammenfassen in Clustern, dabei gilt:
– Sequenzen in einem Cluster sind mit der repräsentativen
Sequenz des Clusters zu mind. x% identisch
– Nimmt man jeweils die repräsentative Sequenz aus jedem
Cluster, sind keine zwei Sequenzen des so gebildeten
Datensatzes zu mehr als x% identisch
Wie wird ein CD-HIT durchgeführt?
(Cluster Database at High Identity with Tolerance)
Wo finde ich 3D-Strukturen?
• Proteine:
– Protein Data Bank (PDB): momentan beste Quelle
– Homologie-Modelle: weniger verlässlich
– Modbase ist ist eine 3D-Proteindatenbank, die die Strukturen aus reinen
Computersimulationen erhält.
– „ab initio“ oder „DFT“ Modelle: schwierig („Proteinfaltungsproblem“)
• Nukleinsäuren:
– PDB: wenige reine DNA-/RNA-Einträge, einige Komplexe mit Proteinen
– Modelle: einfacher als bei Proteinen, insb. bei DNA
• Kohlenhydrate:
– PDB: kaum reine Kohlenhydrate, aber Glykoproteine und Protein- Kohlenhydrat-Komplexe
– „Small Molecule“ Datenbanken (z.B. PubChem)
– Kohlenhydratdatenbank
– Modelle: relativ gut, da vergleichsweise klein und flexibel (nicht die eine
„richtige“ Struktur, sondern viele mögliche Strukturen)
• „Small Molecules“
– wie bei Kohlenhydraten
Was wird genutzt um 3D-Strukturen zu visualisieren?
Zuletzt geändertvor 6 Monaten