Why to use single cell technologies?
welche Zellen vorhanden sind und ihre Häufigkeit (quantitative Unterschiede)
wie sich die Zellpopulation in Gesundheit und Krankheit unterscheiden (qualitative Unterschiede)
Interaktion (crosstalk) zwischen Zelltypen
UMI Abkürzung, Definition
unique molecular indentifiers
für Korrektur von PCR bias, die bei Versuchen mit geringen Inputmaterial, somit vor allem bei single cell sequencing vorkommt
barcode mit Länge 3
UMI mit Länge 12
Wie viele Proben können sie jeweils kodieren?
barcode 4^3= 64
UMI 4^12 = 16.777.216
read count matrix (ignore UMIs)
count matrix
count matrix with absolute frequency greater 1
count matrix (with UMIs)
count matrix with absolute frequency greater 1 (alle UMIs die mehrfach vorkommen)
Nenne die unterschiedlichen error types, die UMIs beeinflussen können.
Wie unterscheiden sie sich?
sequencing errors (erhöhen UMI count)
PCR amplification errors
Was sind drop-outs?
Gründe?
Wie kann die resultierende Matrix beschrieben werden?
Drop-outs werden als Ereignisse definiert, bei denen ein Transkript (für RNA) in einer Zelle exprimiert wird, aber nicht in ihrem mRNA-Profil nachgewiesen wird
im Allgmeinen ist das biologische Signal vorhanden, aber wurde nicht von der Technologie gemessen
resultierende Matrix ist spärlich
UMAP nutzt PCA anstatt hochdimensionale Informationen. Warum?
reduziert computational burden
reduziert noise der Daten
Normalize
Center and scale the UMI counts
Normalisation:
wir brauchen Gesamtzahl an UMIs der Spalte (pro Zelle)
Centering and scaling:
wir brauchen Mittelwert und Standardabweichung
Erläutern Sie anhand eines Beispiels aus der obigen Matrix die Notwendigkeit, einen Pseudo-Count zu den Daten hinzuzufügen. Erläutern Sie außerdem, warum es sinnvoll ist, die Zahl 1 für diesen Zweck zu verwenden.
viele Genexpressionswerte sind gleich 0
Pseudo-count hilft, normalisierte Expressionswerte gleich -∞ zu vermeiden
Pseudo-count gleich 1 bewahrt Werte, die gleich 0 sind
Erstellen Sie auf der Grundlage der normalisierten UMI-Zahlen eine Hypothese über die Identität jeder Zelle (z.B. Zelltyp)
Suppose you would like to find groups of cells by graph-based clustering (e.g, employing the Ivain algorithm). 'To this end, you first need a graph in which each cell represents a node. Use the led UMI counts and the Euelidean distanee to build a 1 -nearest neighbor graph of the cells (This directed graph linking each cell to its closest neighbor), Based on the genes CD3D and CD8A, lain why it makes sense to scale the data in advance.
Clustering wichtig um potentielle unterschiedliche Zellpopulationen zu definieren. Es wurde die Modularität (Q) definiert.
Was misst die Modularität?
Wann ist Q groß, wann niedrig?
Modularität misst die Qualität der Partitionierung in einem Graphen auf der Grundlage der Netzwerkstruktur.
hohe Konnektivität innerhalb von communities und geringe Konnektivität zwischen communities wird bevorzugt
-> Q hat einen hohen Wert
Das Louvain-Clustering wurde für das graphbasierte Clustering eingeführt.
Zu welcher Art von Clustering-Methode gehört Louvain? Erläutern Sie die beiden Phasen des Algorithmus in Ihren eigenen Worten.
Louvain clustering ist eine agglomerative Clustermethode (anfangs jede Zelle = ein Cluster)
Louvain clustering basiert auf zwei Phasen, die sich iterativ wiederholen
Phase 1: modularity optimization
Optimierung auf der Grundlage der Modularität Q des aktuellen Graphen
für jeden Knoten i seine Nachbarn j untersuchen, den Gewinn an Modularität berechnen, wenn i die Gemeinschaft von j einnimmt
Zuweisung der Gemeinschaft an i, die den Gewinn an Modularität maximiert
Phase 2: communities aggregation
neuen Graphen beginnen
für alle communities: neuen Knoten, der alle vorherigen Knoten der gleichen Gemeinschaft repräsentiert
für alle Kombinationen von communities x, y: Berechnung des neuen Kantengewichts zwischen x und y durch Summierung der Kantengewichte im vorherigen Graphen zwischen x und y
Last changed2 years ago