V11 3D Strukturdaten

Buffl

Bioinformatik

by Sina E.

Wie wird ein BLAST durchegführt?

1. Erstellen der BLAST-Tabelle sortiert nach E-Werten

2. Berechnung eines multiplen Alignment

3. Consensus Pattern

4. Suche nach hochkonservierten Bereichen.

5. Wiederholung mit der Consensussequenz.

Für was ist ein Alignment nützlich?

– Vergleich homologer Proteine aus mehreren Species

– Vergleich mehrerer Proteine mit ähnlicher Funktion

– Auffinden von konservierten Residuen oder „Ausreißern“

innerhalb einer Familie ähnlicher Proteine

– Identifikation von Mutationen, die für Funktionsunterschiede

relevant sind

– Startpunkt für phylogenetische Analysen

– Verbesserung von Alignments zweier Sequenzen durch

Hinzufügen weiterer, ähnlicher Sequenzen

Wie kann man ein Alignemnt aus mehr als zwei Sequenzen erstellen?

kann man den Smith-Waterman- Algorithmus um weitere Dimensionen erweitern:

führt schnell zu großen datensätzen, daher werden heuristische Verfahren verwendet

Was ist der Clustal Algorithmus?

Der Clustal Algorithmus nutzt für die Berechnung eines

vieldimensionalen Alignments viele zweidimensionale

Alignments:

Was sind Nachteile des Clustal Algorithmus?

• Datensätze enthalten häufig einige identische oder ähnliche

Sequenzen (Redundanz)

• Dies kann zu verschiedenen Problemen führen:

– Unübersichtliche Suchergebnisse

– Unnötige Vergleiche bei Suchen in den Datensätzen

– Verfälschte Ergebnisse bei statistischen Analysen

• Daher führt man häufig ähnliche Sequenzen zu einem Cluster

zusammen, so dass keine zwei Sequenzen zu mehr als x%

identisch sind (x% = Redundanzlevel)

Was ist Ziel des Clustering?

Ziel: Datensatz, in dem keine zwei Sequenzen

zu mehr als x% identisch sind

• Wird erreicht durch Zusammenfassen in Clustern, dabei gilt:

– Sequenzen in einem Cluster sind mit der repräsentativen

Sequenz des Clusters zu mind. x% identisch

– Nimmt man jeweils die repräsentative Sequenz aus jedem

Cluster, sind keine zwei Sequenzen des so gebildeten

Datensatzes zu mehr als x% identisch

Wie wird ein CD-HIT durchgeführt?

(Cluster Database at High Identity with Tolerance)

Wo finde ich 3D-Strukturen?

• Proteine:

– Protein Data Bank (PDB): momentan beste Quelle

– Homologie-Modelle: weniger verlässlich

– Modbase ist ist eine 3D-Proteindatenbank, die die Strukturen aus reinen

Computersimulationen erhält.

– „ab initio“ oder „DFT“ Modelle: schwierig („Proteinfaltungsproblem“)

• Nukleinsäuren:

– PDB: wenige reine DNA-/RNA-Einträge, einige Komplexe mit Proteinen

– Modelle: einfacher als bei Proteinen, insb. bei DNA

• Kohlenhydrate:

– PDB: kaum reine Kohlenhydrate, aber Glykoproteine und Protein- Kohlenhydrat-Komplexe

– „Small Molecule“ Datenbanken (z.B. PubChem)

– Kohlenhydratdatenbank

– Modelle: relativ gut, da vergleichsweise klein und flexibel (nicht die eine

„richtige“ Struktur, sondern viele mögliche Strukturen)

• „Small Molecules“

– wie bei Kohlenhydraten

Was wird genutzt um 3D-Strukturen zu visualisieren?

Join Course

Preview

Author

Sina E.

Information

Last changed
2 years ago

Report course