What is AlphaFold? What is it used for? What is the input for this tool?
AF is the neural-network based tool/model for the prediction of protein 3D structures. It predicts structures ab initio and so requires only protein sequence as an input.
Provide an example of how the contact between the amino acid residues can be defined.
Two residues are defined to be in contact if
1) Located close in 3D space: the distance between their Cbeta atoms is less than 0.8 nm
2) distance between the residues at the primary structure is more than 7 residues
Name three different types of helix used in DSSP.
Alpha helix
3-helix
5-helix
What are the disadvantages of using X-ray for protein structure determination? Was sind die Nachteile der Verwendung von Röntgenstrahlen zur Bestimmung der Proteinstruktur?
1. Not all proteins can be crystallized
2. Crystallized proteins might not represent the native conformation
Name two differences between SCOP and CATH.
1. CATH classification is more automated, while SCOP requires a lot of human-curated steps.
2. In CATH domains that share the same topology are joined at the level of T(Topology), while in SCOP this level is represented by folds.
Benenne Hierarchien von SCOP.
Was besagt Levinthal’s Paradox?
Avg length of prot: 100, every AA is either Helix, Loop or Extended —> 3^100 permutations (10^48)
Searching randomly for right coformation would exceed the age of our universe —> Prots fold trough specific process
Was besagt Anfinson's Paradigma?
Komplette Information für die 3D Struktur eines Enzyms ist in der Primärstruktur der Aminosäuresequenz hinterlegt
Was ist die Annahme auf der die Correlated Mutation Analysis (CMA) beruht?
Für was wird CMA eingesetzt? Nenne ein Beispiel.
During evolution, orthologs of a given protein accumulate sequence variability
Yet this variability is restricted by the need to conserve the proper protein fold and function
Analysis of covariation at two or more sequence positions can provide information on their structural interactions
Compare multiple members of a protein family and detect residues that remain constant or mutate in tandem
Rational Basis: Functional constraints limit the amino acid substitution rates
higher conservation of functional sites Once a residue is changed -> compensatory mutation of a complementary residue across the interface Coevolution!
Anwendung von CMA: Korrelation von 2 Resten bestimmen
Bsp: Kontaktmatrix Vorhersage anhand des Korrelationskoeffizienten
Was ist der Linker-Index? Für was wird er eingesetzt?
TODO
Nenne drei unterschiedliche Helixformen und wie sie DSSP definiert.
“G“ = 3_10 -Helix (3-Helix), mit Wasserstoffbrücken zwischen den Resten i, i+3
“H“ = α-Helix (4-Helix), mit Wasserstoffbrücken zwischen den Resten i, i+4
“I“ = π-Helix (5-Helix), mit Wasserstoffbrücken zwischen den Resten i, i+5
Nenne eine Berechnungsmethode für Wasserstoffbrückenbindungen.
Angle-distance hydrogen bond assignment
Empirical hydrogen bond calculation
Coulomb hydrogen bond calculation: Berechnung der Coulomb-Energie in der Bindung (wird in DSSP verwendet), Das Cutoff-Level für die schwächste annehmbare Bindung ist so gewählt, dass die resultierende Energie gebunden wird durch: E < 0.5 kcal/mo
Erstelle eine schematische Skizze von einem “Kasettenexon”.
7 Schritte von homology modeling nennen
Template recognition and initial alignment
Alignment correction
Backbone generation
Loop modelling
Side-chain modeling
Model optimization
Model validation
Beschreibe Coiled Coils kurz
Coiled Coils sind eine Proteinfaltungsmotive; CC’s Involved in a variety of cellular processes, including protein-protein interactions, protein assembly, and DNA binding.
Bündel von α-Helices (min. 2), die in eine Superhelix (Helix, die aus Helices aufgebaut wird!) gewunden sind.
Diese Helices können entweder in die gleiche (parallele) oder in die entgegengesetzte (antiparallele) Richtung laufen.
Charakteristisch für Coiled-Coils ist das sogenannte Heptadenmuster, bei dem hydrophobe Aminosäurereste an 1. und 4. (A (BC) D (EFG) A …) Position stehen. Durch die hydrophobe Wechselwirkung dieser Aminosäuren wird die Coiled-Coil Struktur stabilisiert.
Das kürzeste Coiled Coil, das noch eine stabile Coiled-Coil Struktur besitzt liegt zwischen vier Heptaden
Coils predictor hat window size von 28
Nenne die korrekte Methode für CASP (= Critical Assessment of Protein Structure Prediction)
Homology Modeling
keine Methode, sondern ein Wettbewerb mit mehreren Kategorien
Protein-Protein-Interaktion
Nenne die korrekte Methode für SWISS-MODEL
Harmlose und Krankheitsrelevante Mutationen
Nenne die korrekte Methode für GlobProt
Disorder Proteins
Strukturvorhersage
Sekundärstrukturassignment
Nenne die korrekte Methode für SIFT
Sekundärstrukturvorhersage
Signalpeptid Vorhersage
Nenne die korrekte Methode für GOR
Ab initio structure prediction
Nenne die korrekte Methode für Y2H
Nenne die korrekte Methode für DSSP
Nenne die korrekte Methode für Molecular Mechanics/Dynamics/force fields
Nenne die korrekte Methode für Signal-IP
Nenne die korrekte Methode für XRay
Nenne eine Datenbank die Proteinstrukturen enthält und ein Tool mit dem man diese Visualisieren kann
PDB
PyMOL
Gegeben Struktur aus PDB mit TOPs Diagramm (Antiparalleles Faltblatt - Helix - Antiparalleles Faltblatt)
In welche Klasse gehört es in CATH/SCOP
Kontaktmatrix dazu malen (Elemente beschriften)
Wozu wird RMSD eingesetzt? Nenne ein Beispiel.
RMSD (Root Mean Square Deviation) ist die Messung der durchschnittlichen Distanz zwischen den Atomen von übereinander liegenden (super-imposed) Proteinen oder Resten.
Es wird in der Regel zwischen Cα Atomen (manchmal auch C, N, O, Cβ) mit der folgenden Definition berechnet:
RMSD wird verwendet um strukuelle Ähnlichkeiten zu ermitteln. Je niedriger die RMSD zwischen zwei Strukturen, desto ähnlicher
Describe the DALI algorithm
NEEDS CONFIRMATION FROM SLIDES
DALI (Database of structural Alignments) is a bioinformatics algorithm that is used to compare protein structures and identify structural similarities between them. The algorithm is based on the concept of structural alignment, which involves superimposing two or more protein structures in order to identify equivalent regions of the proteins.
The DALI algorithm uses a combination of geometric hashing and dynamic programming to compare protein structures. The algorithm starts by dividing the protein structures into smaller structural units, such as individual alpha-helices or beta-strands. These units are then used as the building blocks for the structural alignment.
The DALI algorithm then performs a geometric hashing procedure to identify similar units between the two proteins. The algorithm then uses dynamic programming to generate a series of transformations that can be applied to one protein to align it with the other protein. The final alignment is evaluated using a scoring function that takes into account the number of equivalent units and the similarity of their relative orientations.
The DALI algorithm has been widely used to analyze large protein structures databases and has been shown to be effective at identifying structural similarities between proteins with different functions and evolutionary origins. The algorithm is also fast and efficient, making it suitable for use in large-scale structural biology studies.
Describe the SSAP algorithm
SSAP (Sequential Structure Alignment Program) is a bioinformatics algorithm that is used to compare protein structures and identify structural similarities between them. The algorithm is based on the concept of structural alignment, which involves superimposing two or more protein structures in order to identify equivalent regions of the proteins.
The SSAP algorithm uses a dynamic programming approach to generate a series of transformations that can be applied to one protein to align it with the other protein. The algorithm starts by dividing the protein structures into smaller structural units, such as individual alpha-helices or beta-strands. These units are then used as the building blocks for the structural alignment.
The SSAP algorithm then calculates a distance matrix between the structural units of the two proteins, which is used to guide the alignment process. The algorithm then uses dynamic programming to generate a series of transformations that can be applied to one protein to align it with the other protein. The final alignment is evaluated using a scoring function that takes into account the number of equivalent units and the similarity of their relative orientations.
The SSAP algorithm has been widely used to analyze large protein structures databases and has been shown to be effective at identifying structural similarities between proteins with different functions and evolutionary origins. The algorithm is also fast and efficient, making it suitable for use in large-scale structural biology studies.
Nenne weitere Ansätze (außer DALI und SSAP) für den Strukturvergleich und beschreibe einen davon etwas genauer.
Per Auge
Vektormatrizen
Was ist der Vorteil von Phobius gegenüber seinem Vorgänger TMHMM im Bezug auf Transmembranproteinvorhersage?
Phobius kann sowohl Transmembrane Helices als auch Signalpeptide vorhersagen (TMHMM nur Transmembrane Helices)
Genauigkeit der Vorhersage kann dadurch verbessert werden -> weniger FPs von TMs, da die Orientierung des Proteins durch die SP Vorhersage angegeben wird
Modellarchitekur ist eine Kombination aus TMHMM und SignalP-HMM
Phobius predicts AA specific
Beschrifte
Was versteht man unter Alacoils?
AlaCoils ist ein bioinformatisches Werkzeug, das verwendet wird, um alpha-Helices in Proteinstrukturen zu identifizieren und zu klassifizieren. Alpha-Helices sind eine Art von Struktureinheit, die in vielen Proteinstrukturen vorkommen und für die Funktion von Proteinen wichtig sein können.
AlaCoils verwendet einen statistischen Ansatz, um alpha-Helices zu identifizieren, indem es die wahrscheinliche Anzahl von Prolin-Resten in der Struktur prognostiziert. Diese Prognose wird aufgrund der bekannten Tatsache gemacht, dass Proline oft an Stellen in alpha-Helices vorkommen, an denen eine Knickstelle oder ein Turn vorliegt.
Das Ergebnis von AlaCoils ist eine Liste von alpha-Helices in der Proteinstruktur, einschließlich Informationen über die Länge und die relative Orientierung der Helices. Diese Informationen können verwendet werden, um die Funktion von Proteinen besser zu verstehen und um den Aufbau von Proteinen zu vergleichen und zu klassifizieren.
AlaCoils ist ein wichtiges Werkzeug in der bioinformatischen Analyse von Proteinen und hat dazu beigetragen, ein besseres Verständnis der Struktur-Funktionsbeziehungen von Proteinen zu ermöglichen.
Paper:
Coiled coiles von ALA an jeder 7. Stelle
Was ist die Klassifikationeinheit bei SCOP und was bei SCOP2?
SCOP (Structural Classification of Proteins) ist eine Klassifikation von Proteinen, die auf ihrer dreidimensionalen Struktur basiert. Die Klassifikationseinheit in SCOP ist das Protein-Domänenkonzept, bei dem ein Protein in einzelne, selbstständige Struktureinheiten unterteilt wird, die als Domänen bezeichnet werden. Jede Domäne wird einer bestimmten Klasse, Familie und Unterfamilie zugeordnet, die auf der Ähnlichkeit ihrer Struktur basieren.
SCOP2 ist eine aktualisierte Version von SCOP, die neuere Proteinstrukturdaten und eine verbesserte Klassifikationstechnologie verwendet. Die Klassifikationseinheit in SCOP2 bleibt das Domänenkonzept, aber es gibt Verbesserungen bei der Identifizierung von Domänen und der Klassifikation von Proteinen in Bezug auf ihre Struktur und Funktion.
SCOP2 enthält auch neue Klassen, Familien und Unterfamilien, um eine feinere Klassifikation zu ermöglichen und um ein besseres Verständnis der Struktur-Funktionsbeziehungen von Proteinen zu ermöglichen. Wie SCOP ist SCOP2 ein wichtiges Ressourcenwerkzeug für Forscher in den Bereichen Strukturbiologie und Proteinforschung.
Nenne 2 Eigenschaften low comlexy domains.
Low complexity domains (LCDs) sind Abschnitte in Proteinsequenzen, die eine übermäßige Anzahl von gleichen oder ähnlichen Aminosäuren enthalten. Folgend sind zwei Eigenschaften von LCDs:
Repetitivität: LCDs sind charakterisiert durch wiederholte Sequenzmotive, die oft aus wenigen Typen von Aminosäuren bestehen. Diese Repetitivität kann zu einer hohen Kohäsionsenergie führen, die dazu führt, dass die LCDs in den Proteinen nicht stabil sind und eher ungeordnete Strukturen bilden.
Funktionelle Unbestimmtheit: Da LCDs häufig weniger stabil und ungeordneter als andere Teile des Proteins sind, können sie schwieriger zu analysieren sein und haben oft keine klare funktionelle Rolle. In einigen Fällen können sie jedoch wichtige regulatorische Funktionen haben, wie z.B. bei der Interaktion mit anderen Proteinen oder bei der Regulierung der Proteinaktivität.
Es ist wichtig zu beachten, dass LCDs nicht in allen Proteinen vorkommen und dass sie manchmal nur einen kleinen Teil eines Proteins ausmachen. Dennoch sind sie ein wichtiger Fokus für die strukturelle und funktionelle Analyse von Proteinen, da sie oft wichtige Informationen über die Funktionsweise von Proteinen liefern können.
Definiere "implicit solvent model” und “explicit solvent model”
"Implicit solvent model" und "explicit solvent model" sind beides Ansätze zur Simulation der Wechselwirkungen zwischen Proteinstrukturen und ihrer Umgebung in Lösung.
Implicit solvent model: Ein implizites Lösungsmittelmodell ist ein Computersimulationsansatz, bei dem das Lösungsmittel nicht explizit berechnet wird, sondern seine Auswirkungen auf das Protein durch eine begrenzte Anzahl an Parametern, wie z.B. Stöchiometrie und thermodynamische Konstanten, modelliert werden. Diese Art von Modell ist schneller und einfacher zu berechnen als ein explizites Lösungsmittelmodell, aber es kann nicht die tatsächlichen räumlichen Konfigurationen des Lösungsmittels und seiner Wechselwirkungen mit dem Protein wiedergeben.
Explicit solvent model: Ein explizites Lösungsmittelmodell ist ein Computersimulationsansatz, bei dem das Lösungsmittel explizit berechnet wird, indem jedes Teilchen in der Lösung, einschließlich Wasser- und Salzteilchen, als individuelle Teilchen modelliert werden. Dies ermöglicht eine realistischere Darstellung der Wechselwirkungen zwischen dem Protein und seiner Umgebung, einschließlich der räumlichen Konfigurationen und der thermodynamischen Eigenschaften des Lösungsmittels. Allerdings ist diese Art von Modell aufgrund der hohen Rechenleistung, die für die Berechnung einer großen Anzahl von Teilchen erforderlich ist, sehr viel langsamer und komplexer als ein implizites Lösungsmittelmodell.
Beide Typen von Modellen haben ihre Stärken und Schwächen und werden je nach Anwendungsfall gewählt. Ein implizites Lösungsmittelmodell ist in der Regel schneller und geeigneter für grobe Vorhersagen über das Verhalten von Proteinen in Lösung, während ein explizites Lösungsmittelmodell eine realistischere Darstellung der Wechselwirkungen zwischen dem Protein und seiner Umgebung bietet und für detailliertere Vorhersagen und Analysen verwendet wird.
Wie kann man aus einem MSA eine Kontaktmatrix ableiten?
Maggus:
Über correlated Mutations: wenn AA 1 mutiert muss AA 2 auch mutieren um Struktur / Funktion beizubehalten
Demo Exam Ex 2:
distance between res more than 7 in prim struct
located close in 3d space: dist of C_betas is less than 0.8nm
Was ist die Evolutionary Trace Methode?
Identifiziert aktive Zentren
Sucht nach konservierten Resten in den Abzweigungen
Mappt funktionell wichtige Reste auf die Oberfläche
Beschreibe eine Methode, die nur aus der Sequenz eine Domäne findet (mit biologischer Begründung)
STRUDL (STRuctural Domain Limits):
Verwendet keine Sekundärstrukturen und verarbeitet eine beliebige Anzahl an Domänen
Wechselwirkungen zwischen den Teilmengen der Reste werden durch Kontaktflächen zwischen den Atomen bewertet, denn diese sind innerhalb von Domänen umfangreicher als zwischen den Domänen
STRUDL Algorithmus:
1. Verwende die Kerningham Ling Heuristic, um ein minimales Kontaktbereich Dichteprofil zu erzeugen
2. Entscheidung, ob das Protein in zwei Domänen geschnitten wird oder nicht, basierend auf zusätzlichen Kriterien
3. Wiederhole Schritte 1 und 2 für jede der Teilstrukturen und Bildung eines binären Baumes der Substrukturen mit den Proteindomänen als Blättern
4. Verbinden von kleinen Segmenten der Kette (< 14 Reste) mit ihren umgebenden Segmenten
Welche Schwierigkeit gibt es bei der Vorhersage von Domänen?
Es ist schwierig experimentell Proteinstrukturen in Domänen zu teilen. Denn es kann vorkommen, dass das Protein in mehr Domänen eingeteilt wird als eigentlich vorhanden sind oder andersherum in weniger Domänen eingeteilt wird als vorhanden sind.
Comment on: “The limited number of observed domain topologies may be due to the evolution of protein domains from a limited ‘vocabulary’ of such supersecondary structure elements.” (Söding & Lupas, 2003)
Die kombinatorische Komplexität von der Entwicklung einer ganzen Domäne in einem Stück ist unvorstellbar:
Es gibt 20^100 mögliche Sequenzen für eine Domäne mit 100 Resten, nur ein vernachlässigbarer Teil davon ist in der Lage sich zu falten oder zeigt sogar eine biologische Aktivität
Im Vergleich dazu, ist eine Sequenzoptimierung von etwa 20 Aminosäuren erforderlich, um eine Supersekundärstruktureinheit zu erstellen, die auch innerhalb der Reichweite von biologischen Systemen ist
der Unterschied in der kombinatorischen Komplexität liegt in der gleichen Größenordnung wie zwischen der Masse eines Elektrons und des gesamten Universums
Es ist kein biologischer Mechanismus bekannt, der Polypeptidketten von ausreichender Länge erzeugen könnte, um eine Domäne zu bilden. Es scheint wahrscheinlicher zu sein, dass der Entwicklungsprozess mit kurzen statt langen Peptidketten gestartet hat
Auch wenn die de novo Entwicklung ganzer Domänen möglich wäre, wäre es sehr ineffizient in Bezug auf die Anordnung von Modulen, welche die Verwertung von individuell optimierten Eigenschaften auf einem höheren Niveau an Komplexität erlaubt.
Eine erhöhte Anzahl an Fragmenten von nicht-homologen Proteinen, die ähnlich in der Sequenz, Struktur und sogar Funktion sind, wurden gefunden und weisen auf einen gemeinsamen Ursprung hin
Die Anzahl der in der Natur vorkommenden Faltungen ist begrenzt. Nenne Zwei Mechanismen die beschreiben, warum es häufig zu ähnlichen Strukturen kommt.
Divergente Evolution:
Die Faltungen entwickeln sich aus einer relativ kleinen Gruppe von Proteinen gemeinsamer Vorfahren
einmal entdeckte stabile Funktionen werden dupliziert und durch Organismen für viele andere Funktionen wiederverwendet
Modifikationen vorhandener Faltungen wahrscheinlicher als eine spontane Erzeugung einer neuen Faltung • Ähnliche Strukturen haben nicht immer ähnliche Funktionen
Diese Funktionsvielfalt weist auf die Möglichkeit hin, dass viele Proteinfaltungen nie gesehen werden, weil die Organismen diese einfach nicht benötigt oder entwickelt haben
Konvergente Evolution:
Bestimmte Faltungen sind biophysikalisch bevorzugt und werden unabhängig voneinander mehrfach entwickelt
PDB Datenbank: bestimmte Faltungen sind deutlich überrepräsentiert
Keine Sequenzähnlichkeiten
Proteinfaltungsmodelle legen nahe, dass eine kleine Teilmenge der Faltungen biophysikalisch allen anderen gegenüber bevorzugt werden
Schreibe in Pseudocode eine “sliding-window”-Methode für eine Sekundärstrukturvorhersage. Der Input ist dabei eine Proteinsequenz. (WS12/13 Übungsblatt 3: Aufgabe 2d Formel aus b, klar hat ja jeder noch parat oder etwa nicht? du noob!).
while 1=1
predict future
return 42
Was ist ‚safe homology modelling zone‘? (->z.B. mit HSSP Kurve)
Die „safe homology modelling zone“ gibt an, bei wie viel prozentualer Sequenzidentität und Anzahl an alignierten Aminosäureresten die Vorhersage anhand einer Homologie-Modellierung sicher gestellt ist. (Je niedriger die Sequenzidentität oder die Anzahl an alignierten Aminosäureresten ist, desto höher ist die Wahrscheinlichkeit falsche Vorhersagen zu machen!)
Was ist der allg. Ansatz von Threading? Nenne zwei Methoden die auf Threading basieren.
Threading = Fädeln einer Sequenz auf eine bekannte Struktur.
Allgemeiner Ansatz:
1. Reduzieren der 3D Struktur auf eine 1D Struktur von Umgebungen → Charakterisierung der Umgebung jedes Restes
2. Erstellen eines 3D-Profils. Konstruiere ein Profil anhand des 3D-1D Scores
3. Die Kompatibilitätssuche
Aligniere jede Sequenz (aus einer Datenbank für Proteinsequenzen) mit dem 3D Profil
Datenbank sortiert nach dem Kompatibilitäts-Score mit dem 3D Strukturprofil
Die Sequenzen mit dem höchsten Score nehmen möglicherweise eine ähnliche Faltung an als das Ausgangsprotein “P”
Nenne je einen Nachteil von Threading und Homology Modelling dem anderen gegenüber nennen. Welche Targets braucht jede Methode? (Sequenzänlichkeit-Anforderungen)
Beschreibe SignalP
NN: C score: cleavage
NN: S score: signal seq
combination NN Y score: Singal peptide vorhersage. bestimmt cleavage site (wo fängt an, wo hört auf)
Signalpeptide liegen am N-terminus (30-50 residue long), clear architectrure
Beschreibe TargetP
Predicts subcellular localization. Distinguishes localization between chloroplast, mitochondir, other, sceretion / ER / golgi.
Beschrifte die unterschieldichen Exon-types
Was ist das Prinzip von Chou-Fasman
Uses table of conformational parameters (propensities) determined primarily from measurements of secondary structure by CD spectroscopy • Table consists of one “likelihood” for each structure for each amino acid • Based on known 3D structures o Frequency of residues in alpha-helices o Frequency of residues in beta-sheets o Frequency of residues in beta-turns o “rules” governing alpha-helices, beta-sheets o Soluble, globular proteins
Was ist der Unterschied zwischen GOR und Chou-Fasman
Wie häufig kommt der k-mer vor
GOR:
• Build on Chou-Fasman Pij values • One matrix for each “feature” o Alpha-helix o Beta-sheet o Turn o Coil • Evaluate each residue PLUS adjacent 8 N-terminal and 8 carboxyl-terminal residues • Highest scoring “feature” is found at each location • Sliding window of 17 • Underpredicts beta-strand regions • GOR III method accuracy ~64% Q3
Zuletzt geändertvor 2 Jahren