Cihan/Wolter
Welche Schritte gehören zu einer Genexpressionsanalyse?
Sequenzierung, Quantifzierung
QK
Normalisierung
Merkmalsauswahl
Mapping (gegen ein Referenzgenom oder Referenztranskriptom
Counts (Zählmatrix)
Explorative Analyse
PCA
Dimensionsreduktion
Filtern der Batch-Effekte
Differenzielle Explorationsanalytik
Warum machen wir eine Singel Cell Analyse?
z.B. HPV-Forschung, alle Zellen rausschmeißen, die keine viralen Gene haben
Was ist Seurat?
Toolkit für die QK, Analyse und Untersuchung der Einzell-Zell-RNA-Sequenzierung
Wozu macht man eine QK in der Einzellzell-RNA-Sequenzierung?
Entfernung von Zellen aus extremen Kategorien z.B. mit hohem Anteil an mitochondrialen Genen (idR Festlegen von Schwellenwerten)
—> können Analyse verfälschen
Wozu macht man eine Normalisierung?
Daten werden vergleichbar gemacht = Minimieren technischer Verzerrungen
Was ist eine Merkmalsauswahl und wozu macht man sie?
= ID variabler Gene
—> für die Hervorhebung unterschiedlicher zellulärer Expressionen entscheidend
Was versteht man unter einer PCA?
Destillieren komplexer Daten in Hauptkomponenten
—> Varianz in den Daten kann am besten dargestellt werden
Was ist nach einer PCA wichtig?
Dimensionsreduktion (z.B. durch Merkmalsbestimmung = Hervorhebung untersch. zellulärer Expressionen)
Batch-Effekte rausfiltern
Was sind Batch-Effekte?
Artefakte technischer (z.B. untersch. Bediener) oder biologischer Natur (z.B. Geschlecht)
Was haben wir bei der explorativen Analyse mit Seurat noch gemacht?
PCA (Dimensionsreduktion durch Merkmalsauswahl)
Elbow-Plot
Clustering
UMAP
Batch-Effekt-Korrektur
Differenzielle Expressionsanalyse (DE)
Wozu macht man ein Elbow-Plot?
Bestimmung der optimalen Anzahl an Komponenten
Wozu braucht man das Clustering und die UMAP?
ID inhärenter Gruppierungen
UMAP (Uniform Manifold Approximation and Projection) = 2 D-Visualisierung
Was macht man in einer differentiellen Explorationsanalyse (DE)?
= welche Gene unter unterschiedlichen Bedingungen wie viel exprimiert werden
Differenz zwischen gesunden und kranken Zellen
ID von Unterschieden in den Signalwegen/Biomarker
Therapiewege
Was sind DEG´s?
Differenziell exprimierte Gene
= Gene, die signifikant unterschiedlich exprimiert werden
Tenzer/Distler
Was ist das Proteom bzw. Proteomics?
Proteom = die Gesamtheit aller Proteine eines Organismus/Gewebes/Zelle
Proteomics = Untersuchung der Strukturen und Funktionen des Proteoms
Wie können wir Proteine mit Massenspektrometrie analysieren?
“Bottom Up”: Proteine —> Peptide (proteolytische Spaltung) kurz
< 3 kDa —-> Messung mit LCMS
“Middle Down”: mittellange Peptide (3-10 kDa)
“Top Down”: intakte Proteine inkl. Fragmente (>10 kDa)
Was sind die Herausforderungen der Analyse des Proteoms
Dynamik über die Zeit (Trennung) <-> Genom statisch
kein Äquivalent zur PCR
alternatives Spleißen (400 000 Proteoformen bei 20 000 Genen)
> 400 PTM´s
subzelluläre Spezifikationen (Organellen)
Was sind die Vorbereitungsschritte bei einer “Bottom Up”-Analyse?
Zelllyse und Proteinextraktion (SDS)
Denaturierung - Reduktion - Alkylierung
proteolytische Spaltung durch Trypsin (Verdauung)
Peptidreinigung
Wie erhalten wir Peptid-Sequenz-Informationen aus einem Massenspektrometer?
MS/MS = Tandem-Massenspektrometrie
MS1 —> Fragmentierung der Peptid‑Ionen in Kollisionszelle —> MS2 (Tochterionen) —> Interpretation der Fragment‑Ionen‑Muster (Datenbankabgleich oder de‑novo‑Sequenzierung)
= Bestimmung der Primärstruktur
Massendifferenzen zwischen Fragmentionen = Massen der AS-Reste
Tenzer/Distler Altklausur
Diskutieren Sie die Rolle der quantitativen Proteomik für das Verständnis dynamischer Prozesse. Welche Aspekte können ausschließlich mit Hilfe der Proteomik und nicht mit Omics-Technologien untersucht werden?
Proteomik = Untersuchung der Struktur und Funktionen des Proteoms
Proteom = Gesamtheit aller Proteine eines Organismus/Gewebes/Zelle
dynamisch und nicht statisch wie das Genom, z.B. Larve und Schmetterlinge haben das gleiche Genom, aber ganz unterschiedliche Proteine
PTM´s (circa 400 versch.) z.B. Phosphorylierungen/Glykosylierungen verändern Struktur/Funktion
400 000 Proteoformen durch Spleißen (aus 20 000 Genen)
subzelluläre Lokationen
Proteininteraktionen
—> nicht ableitbar aus dem Genom oder Transkriptom
Tenzer/Distler Altklausur 20
Sie haben Zellen aus der Zellkultur und möchten diese einer massenspektrometrischen Proteomanalyse unterziehen. Wie gehen Sie vor? Beschreiben Sie die einzelnen Schritte der Probenvorbereitung und der massenspektrometrischen Analyse.
Zelllyse und Proteinextraktion
proteolytische Spaltung mit Trypsin
z.B. LCMS =Auftrennung der Proteine mittels Flüssigkeitschromatografie und anschließende Massenspektrometrie durch Bestimmung des Masse-zu-Ladungsverhältnisses z.B. mit Hilfe ESI = electrospray ionisation
oder Maldi-TOF = Matrix-Assistierte-Laser-Desorptions-Ionisierung mit time of flight-Analyse
Tenzer/Distler Altklausur 21
Sie haben eine neue Software für die quantitative Proteomanalytik entwickelt und möchten evaluieren, ob diese korrekt funktioniert und valide Resultate liefert. Wie gehen Sie hierbei vor und welche Kriterien verwenden Sie?
Benchmarking mit bekannten Datensätzen
Vergleich mit bereits etablierten Tools
Prüfung der Leistungskriterien: Richtigkeit, Präzision, dynamischer Bereich, FDR.
Biologische Validierung
Tenzer/Distler Altklausur 22
Beschreiben Sie die wichtigsten Schritte einer Bottom-up-Proteomikanalyse – vom biologischen Material zu den Daten – und benennen Sie die analytischen Herausforderungen, die bei der Analyse komplexer Proteomikproben (im Vergleich zu Genom und Transkriptom) auftreten.
Vorbereitungen:
Messung:
Auftrennung der Peptide z.B. durch Flüssigkeitschromatografie
Ionisierung durch MALDI oder ESI
Messung durch TOF oder Massenspektrometrie (Masse-zu-Ladungsverhältnis)
analytische Herausforderungen:
PTM´s (>400)
400 000 versch. Proteoformen bei 20 000 Genen
Dynamik über die Zeit
Anyaegbunam
Welche beiden Modelle unterscheidet man zur Untersuchung der Proteinkinetik in der Genexpression?
Deterministisches Modell
Stochastisches Modell
Wie beeinflusst die Transkription die Protein-Expression?
Veränderung über die Zeit = Produktion-Degradation
Was versteht man unter einem “steady state” (stationärer Zustand)?
Produktion und Degradation sind gleich: Änderungsrate = 0
Wovon ist der steady state des Proteins abhängig?
Produktion und Degradation des Proteins und der mRNA
Wovon ist der steady state der mRNA abhängig?
Produktion und Degradation der mRNA
Was ist eine Quelle von noises im stochastischen Prozess?
geringe Menge an Transkriptionsfaktoren
Nenne 2 Typen von noises + Vorkommen
intrinsisch (Bak)
extrinsisch (Eukaryoten)
Vagiona
Warum sind Proteinteraktionen wichtig?
Studieren biologischer Prozesse und molekularer Funktionen
Verstehen von Krankheitsmechanismen
Therapieentwicklung
Evolutions- und Funktionsannotationen
Wie kann man Proteininteraktionen einteilen? Nenne Beispiele.
a. Zusammensetzung
Homo-Oligomer (Bindungspartner gleich z.B. HsP27)
<-> Hetero-Oligomer (Bindungspartner unterschiedlich z.B. Hb)
b. Affinität - Können sie alleine existieren?
obligat (starke Bindung zueinander, z.B. Histon-Octamer)
<-> nicht obligat (können alleine existieren, z.B. RNAase-AK)
c. Lebensdauer - Wie lange ist die Interaktion?
transient (vorübergehend, z.B.Ubiquitin)
<-> permanent (dauerhaft, irreversibel, z.B. ATP-Synthase)
Aus was bestehen Netzwerke? Welche Typen von Graphen gibt es?
Netzwerke bestehen aus Knoten bzw. Scheitelpunkte, die verbunden werden durch Kanten, Bögen bzw. Linien
ungerichtet (Protein-Interaktions-Netzwerke)
gerichtet (metabolische, regulatorische Netzwerke)
gewichtet (Gen-Koexpressionen, Kanten haben Werte)
Was versteht man unter
High Degree Centrality
High Closeness Centrality
High Betweenness Centrality
High Degree Centrality = Grad-Zentralität = Hub-Knotenpunkt, mit den meisten Kanten, am stärksten direkt vernetzt
High Closeness Centrality = Nähe-Zentralität = liegt im Durchschnitt am nächsten zu allen Knoten im Netzwerk
High Betweenness Centrality = Zwischenheit-Zentralität, = Durchgangsknoten, Brückenfunktion, durch den die meisten durch müssen
Was sind PPI´s?
Protein-Protein-Interaktionen
Wie die Proteine kommunizieren, zusammenarbeiten und letzlich Funktionen z.B. Zellfunktionen bestimmen
—> Untersuchung z.B. bioinformatisch mit Graphentheorie
Was ist der therapeutische Nutzen von PPI´s?
Luck - Altklausur
Gibt es aus biophysikalischer Sicht einen natürlichen Grenzwert der bestimmt ob 2 Proteine miteinander interagieren oder nicht? Nenne mindestens ein Argument.
Nein es gibt keinen natürlichen Grenzwert
Interaktionsstärke (nicht kovalente Bindungen wie VdW, Ionen, Wbb) werden durch die Dissoziationskonstante KD bestimmt.
KD niedrig (nm) = starke Interaktion
KD hoch (µm) = schwache Interaktion
kein Cutoff, der bestimmt, ob es eine Interaktion gibt oder nicht, sondern Kontinuum
Assay-abhängig
Nachweisgrenze der Methode und biologische Rahmenbedingungen spielen ebenfalls eine Rolle
Nenne 3 Typen von Proteininteraktionsdaten.
direkte Interaktionen (KD, Proteinfragmente)
binäre Interaktionen (kein KD, volles Protein)
Co-Komplex-Assoziationen (kein KD, volles Protein)
Erkläre kurz, woher der study bias kommt wenn es um literature curated Proteininteraktionsdaten geht.
study bias = Untersuchungsverzerrung (voreingenommen gegenüber gut untersuchten Genen)
—> Daten sind zugunsten der Gene verzerrt, da Gene und Proteine nicht gleichmäßig gut erforscht werden
In einem Proteininteraktionsnetz, das als Graph dargestellt ist, was sagt der Grad über ein Protein aus?
Degree = Grad = Anzahl an Kanten (“edges”) eines Scheitelpunkts (“vertex”)
bei hohem Grad = Hubknoten, ein Protein, das besonders stark vernetzt ist
Luck
Wie nennt man die Netzwerke, die bei der Gradverteilung einem bestimmten Gesetz folgen? Welche Besonderheit sehen wir? Welches Gesetz ist gemeint?
= skalenfreie Netzwerke
Besonderheit: auf log-log-Skala linear (eine Linie)
—> Potenzgesetz
Was ist Cytoscape?
Software zur
Untersuchung einer Reihe von Genen mit Daten zu Proteininteraktionen
Visualisierung und Analyse von Proteinnetzwerken
Vagiona/Luck
Was versteht man unter Topologie?
Gradverteilung
Luck Altklausur 21
Wählen Sie bitte zwei Protein-Proteininteraktionsdatenbanken Ihrer Wahl und benennen Sie 4 Gemeinsamkeiten oder Unterschiede (4 gesamt, jede Kombination an Anzahlen an Gemeinsamkeiten und Unterschieden sind erlaubt) zwischen den beiden. Bitte vergessen Sie nicht auch die Namen der beiden gewählten Datenbanken aufzuschreiben.
STRING
IntAct
prädiktiv, rechnerisch und experimentell
experimentell
Zuverlässigkeitsbewertung (confidence score)
sammelt Infos zu PPI´s
web-basiert, frei zugänglich für Forscher
Zuletzt geändertvor 5 Tagen