Variant Calling a. Erläutern Sie, was mit den Abkürzungen SNP und SNV bezeichnet wird und worin
SNPS und SNVs sich voneinander unterscheiden
SNVs = Single nucleotide variants und SNPs = single nucleotide polymorphisms
Bei den SNVs handelt es sich um Änderungen eines Nukleotids während der Lebenszeit eines Individuums, beispielsweise tp53, welches in menschlichen Tumoren oft mutiert ist. SNVs sind deshalb nur auf einzelne Individuen bezogen. SNPs sind dagegen Nukleotidänderungen über eine ganze Population hinweg. Jedes Individuum erhält diesen SNP über Vererbung.
In einer Tumorprobe wurden (somatische) SNVs identifiziert. Es wird für jeden SNV die „Variant allele fraction“ (VAF = Anzahl der Reads an der SNV Position) berechnet. Die VAF-Werte aller SNVs des untersuchten Genoms zeigen eine Verteilung mit dem globalen Maximum bei 0,25. Welche biologischen Ursachen können einer derartigen Verteilung zugrunde liegen? Nennen sie zwei mögliche Ursachen und erklären sie wie sie jeweils zu einer derartigen VAF-Verteilung führen. Sequenzierfehler und Alignment-Artefakte sollen für die Betrachtung vernachlässigt werden
Ein VAF von 0,25 bedeutet, dass 25 % der Reads an der betrachteten Stelle eine andere Base als die Referenzbase hatten. Betrachtet man eine Tumorprobe, würden 100 % bedeuten, dass jede der Proben an der betrachteten Stelle gegenüber der Referenz mutiert ist. Bei 25 % muss man also davon ausgehen, dass von der Tumorprobe die Hälfte nicht-mutierte Tumorzellen sind, da so schon mal 50 % die Referenzprobe aufweisen würden. Von den verbleibenden 50% ist weiterhin sind die einen 25% Tumorzellen mit der Referenz und die andere Hälfte sind Tumorzellen mit der Variante, womit man auf 25% kommt
Vielleicht sind auch die unterschiedlichen anderen Möglichen Fheler bei dem Pileup gemeint Fehlt noch
Richitg oder falsch?
Für die Bestimmung von Expressionswerten ist es egal ob single-read-sequenzierung oder paired-end-Sequenzierung durchgeführt wird
richitg
Bei der Transkriptom Analyse durch RNA-Seq können Replikate durch höhere Sequenziertiefe ersetzt werden, weil viele Reads an einer Position vielen Wiederholungen gleichkommen
Falsch
Bei der Prozessierung von RNA-Seq Daten wird man Duplikate nicht unbedingt
entfernen
richtig
Richtig oder falsch?
Ein Gen ist differentiell exprimiert, wenn der Unterschied der Expressionwerte (s.. change) in zwei Proben größer als ein Schwellenwert ist
falsch
Durch logarithmische Transformation wird eine multiplikative Verknüpfung in eine additive überführt
Richtig
Durch die Verwendung normalisierter Maße (RPKM, FPKM, TPM) werden Batch Effekte korrigiert
Read counts zeigen eine größere Streuung als nach der Poisson-Verteilung zu erwarten wäre
Damit man Batch-Effekte besser kontrollieren kann und korrigieren kann, sollten Proben, die zu gleichen Gruppen gehören (z.B. Tumor, Kontrolle) soweit wie möglich zusammen prozessiert werden
Erläutern sie das Prinzip der Bisulfit-Sequenzierung. Wie wird der Methylierungsgrad der DNA bestimmt?
Die Bisulfit-Sequenzierung läuft nach einem Schema ab, bei dem zuerst die genomische DNA durch Ultraschall oder Restriktionsenzyme abgebaut wird, und Adapter über verschiedene Protokolle an die Fragmente bindet. Im Anschluss findet die Bisulfit Conversion von unmethyliertem Cytosin statt. Dabei macht man sich die Reaktion von Cytosin mit Sulphonat-Ionen zu Nutze, die über eine hydrolytische Deaminierung und die Desulfonierung zu Uracil reagieren. Bei der Amplifikation wird dann statt des Uracil ein Thymin eingebaut. Die nach der Amplifikation verbliebenen Cytosine sind dementsprechend methyliert gewesen. Die Unterscheidung von Thymin und Uracil wird dabei über die Betrachtung des Doppelstrangs bzw. der reversen Stranges vollzogen. Der Methylierungsgrad setzt sich dabei aus dem Methylation Score des positivem und des negativen Strangs zusammen. Er bildet sich dabei nach:
𝑀𝑒𝑡h_𝑠𝑐𝑜𝑟𝑒𝑐𝑜𝑚𝑏𝑖𝑛𝑒𝑑 = 𝑐𝑜𝑣_𝑝𝑙𝑢𝑠 × 𝑚𝑒𝑡h_𝑠𝑐𝑜𝑟𝑒𝑝𝑙𝑢𝑠 + 𝑐𝑜𝑣_𝑚𝑖𝑛𝑢𝑠 × 𝑚𝑒𝑡h_𝑠𝑐𝑜𝑟𝑒𝑚𝑖𝑛𝑢𝑠 𝑐𝑜𝑣
Erläutern sie wie eine durch Bisulfit invertierte Base von einem SNP unterschieden wird
Das Variant Calling dieser Daten erlaubt es SNV/SNP Informationen und gleichzeitig Informationen bezüglich der Methylierungen aus einem Datensatz zu erhalten. Eine Korrelation zwischen methyliertem und unmethyliertem Zustand an partiell methylierten Position mit heterozygoten SNPs gibt Aufschluss über die Allel-spezifischen Methylierungen.
Wie heißen die Algorithmen für optimales lokales und globales paarweises Sequenzalginment? Und Unterschiede davon
lokales —> Smith Waterman
globales —> Needleman Wusch
globales —> Needleman Wusch:
Matches über gesamte Länge maximiert
entspricht häufig nicht der biologischen Realität
negative Werte in der Matrix
finde Teilsequenz mit maximaler Ähnlichkeit —> Alignment kann überall starten & enden
negative Werte werden durch 0 ersetzt
Wofür steht BLAST
Basic Local Alignment Search Tool
Was bedeuet der E-Wert eines von BLAST ausgegebenen Alignments?
gibt die erwartete Anzahl der Hits an, deren Score mind. so groß ist wie der Beobachtete.
—> Wie viele Treffer mit diesem oder höhrerem Score erwartet man aufgrund von zufälligen Sequenzähnlichkeiten?
Nennen Sie 2 Vorteile des SingleR Algortihmus zur Zelltypen Annotation gegenüber manuellen Methoden
Single R :
classification based on correlation of gene expression
does not rely on previous clutering
considers a wide range of genes
Manuelle:
biased approach
numbers of examnied markers limited
Why use single cell technologies?
examination of sequence info of single cells
higher resolution of cellular differences —> study cellular heterogeneity
understandig function of a cell in the context of its microenvironment
discovery of rare cell populations
in context of health and disease
cross knock -> Interaktion von Zellen -> Expression von zB Ligand & Nachbar von Rezeptor
In single cell seq some technologies use UMIs.
What does UMI stand for? What are they used for?
Unique molecular identifier —> random base sequences
Use: tag each transcript -> so that duplicates of the transcipt can be identified after PCR
Sample barcode of length 3 is given. How many different samples could be encoded? Length of UMI barcode is 12. How many UMIs can be encoeded per sample?
einmal 4 ^ 3
und beim Zweiten 4 ^ 12
UMIs can be affected by two different error types. Which are those and how do they differ?
sequencing error : UMI is falsely encoded during sequencing —> new UMI —> sequencing errors inflate UMI count
Fehler passiert an verschiedenen Stellen —> mehr verschiedene Moleküle
PCR amplification error: UMI is changed during PCR amplification —> new UMI
Fehler passiert in einem Durchlaud und wird in folgenden Durchläufen amplifiziert —> weniger verschiedene Moleküle
What are drop-outs? What can be potential reasons for drop-outs and how can the resulting matrix be described?
event —> transcript is expressed in a cell but is not detected in its mRNA profile
amount of drop out rate is highly technology dependent
resulting matrix is SPARSE (count matrix besitzt viel mehr Nullen als sie eig haben sollte)
It has become standard that UMAP uses principle components calculated by PCA instead of the high dimensional information. Why?
after filtering out non-informative genes (ca. 15k genes are still present) —> 15 dimension
reduction of dimensionality by PCA to:
reduce computational burden
reduce noise of the data
visualize data
Behalten nur der Hauptkomponenten, die die meiste Varianz erklären
Transformation der Data in PCA
Nutzen der transformierten Daten für UMAP
PCA —> lineare Methoden
Clustering is an important step to define potential different cell populations, in this regard modularity (Q) has been defined. What does modularity measure? When does Q have a higher value when a lower one? (explain in own words)
Modularity = Maß für die Aufteilung durch ein Clustering (misst die Stärke der Teilung eines Netzweks in Module (wie Gruppen, Kluster, etc)
Hohe Modularität —> gut : Je höher, desto besser sind die Kluster abgetrennt —> dichte Konnektivität eines Klusters und geringe Konnektivität zu anderen.
Niederige Modularität —> schlecht —> undichte Konnektivität eines Klusters und gute Konnektivität zu anderen.
The Louvain clustering has been introduced for graph based clustering. To which type of clustering method does Louvain belong? Explain the two phases of the algorithm in your own words.
bottom up approach/agglomerative clustering —> at initiation each node is by itself and represents a single community
Phase 1 : Modularity optimization:
compute modularity of node i with all neighboring nodes j
place i in community where gain of modularity (modularity in newneighborhood compared to current) is maximised
—> erst für alle Zellen
Phase 2 : community aggregation:
All nodes that belong to the same community are reduced to a single node
links between nodes of the same community lead to weightes self-loops
weights of the links between the new nodes are given by the sum of the links between nodes in the corresponding communities
Was sind Unterschiede zwischen technischen und biologischen Replikaten. Bitte geben Sie jeweils ein Beispiel an und erläutern unter welchen experimentellen Umständen Sie jeweils welche und wie viele Replikate nutzen würden.
biological:
sequence several samples from the same cell line
biological variation typically mich higher than technical noise
several (6) samples from the same cell line —> control for measurement accuracy and variations in environment and cells’ response
—> allows for conclusions about the specific cell line
technical:
sequence same sample twice
prepare several libraries from the same sample —> control for measurement accuracy
—> allows for conclusios about JUST THIS sample/ preparation & measuremtn accurac
—> usually not needed for RNAseq
Welche Möglichkeiten zur Fragmentierung der RNA bei der Vorbereitung der Bibliothek gibt es? Geben Sie bitte ein Beispiel für jede der Möglichkeiten an.
physical : sonication
enzymatic : RNAse
chemical : divalent metal cation & heat
Welche Typen von RNAs sind bei einer RNA-Sequenzierung meistens von Interesse?
Wie muss die RNA vorbereitet werden, um genug Informationen über diese Arten von RNAs zu erhalten?
mainly looking for mRNA:
searching for Poly-A enrichment
rRNA depletion (e.g. ribozero)
side selection for small RNAs
sample prep overview:
fragmentation
ligation
amplification
GC bias
contamination
line 1 : @ character is followed by information about the sequecing run
line 2 : raw sequence letters
line 3 : a separator which is simply a + sign
line 4 : encodes the quality values for the sequence in line 2
Welche Fehler treten bei Short-Read(Illumina)-Sequenzierern am häufigsten auf?
Welche Fehler sind es bei anderen Sequenziermethoden und woran liegt dies?
primary errors: base substitutions due to alignment errors
Illumina : subsitution
Ion torrent : insertions
Nanopore : deletions
PacBio RS : insertions
Wie funktionieren „Splicing-aware aligners“? Bitte geben Sie ein Beispiel. Was könnten Nachteile einiger der Aligners sein?
allows for detection for introns (first detect exons —> by exclusion introns are known)
Spliced aligners - STAR (Spliced Transcripts Alignment to a reference):
based on BWT, looks for longest exact match for each read MMP1 (maximal mappable prefix) --> repeat for unmapped part of read (MMP2) --> works for short & long reads, fast mapping, error tolerant, memory intensive
Was ist der Unterschied zwischen „read counts“ und Expressionsleveln in RNA- Sequenzierungen? Bitte geben Sie zwei Unterschiede an und beschreiben Sie wodurch die Unterschiede entstehen.
read count : count the number of reads that map to each gene
read counts must be normalized due to differnt sequencing depths and length of the gene before comparing for gene expression
expression levels ARE NORMALZED READ COUNT VALUES
Welche Verteilung kann genutzt werden um die Verteilung der „reads“ einer einzelnen Bibliothek abzuschätzen? Was bedeutet „Überdispersion/overdispersion“?
negative binomial distribution
overdispersion: observed dispersion is bigger than expected dispersion —> in that case we have differential expresson
Bei einer RNA-Sequenzierung mit insgesamt 1246584 Reads zählen wir 428 Read
Counts für Transkript A und 23 Read Counts für Transkript B. Für die Bibliothek hatten
wir eine Konzentration der amplifizierten DNA von 3 nM gemessen. Die Länge von
Transkript A beträgt 2140 Basen. Bitte berechnen Sie RPKM für das Transkript A. Was
ist ein Nachteil der Normalisierung über RPKM?
Beschreiben Sie kurz das Vorgehen, um differenzielle Genexpression zu analysieren, beginnend mit den FASTQ-Dateien.
retract expression data
model by negative binomial distribution
size factor estimation
dispersion estimation
generalized linear model fit
statistical test
multiple testing correction
Was sind mögliche Vor- und Nachteile von Einzel-Molekül-Sequenzierungen?
advantages:
ability to resequence the same molecule multiple times for improved accuracy
ability to sequence molecules that cannot be readily amplified because of extremes because of extremes of GC content, secondary structure
Disadvantages:
high error rate
low throughput
high cost
Zusatzaufgabe zur Eigenrecherche: Beschreiben Sie, was durch einen „MA-Graph“ dargestellt wird. Wozu wird dieser Graph verwendet? Wie unterscheidet er sich von einem „Volcano-Graphen“?
What does Phred score measure?
base call accuracy
signal intensity
singnal to noise ratio
base position and composition of read
P : error prob of a given base call P err = 10 ^(-Q/10)
Phred score : Q = -10 * log10(P)
Wie wird Distanzmatrix für ClutalQ Algorithmus?
How to avoid batch effects?
design your experiment
randomize sample handling as much as possible
during quality control check for batch effects (PCA, cluster anaylsis)
normalization
AK21/22
Nach Analyse zsw. 2 Zelllinen die behandelt und control sund gibts nen Unterschied in der Anzahl der reads.
Was bedeutet das? Wie würde man das vergleichen? Welche Info braucht man noch neben der Anzahl der reads?
Evtl. unterschiedliche Genexpression aufgrund der Behandlung -> aber Unterschiede erstmal normal und müssen nix bedeuten
Vergleich der Daten: log2 fold change, D-value
Zusätzliche Infos benötigt: libary composition, Dispersion Estimation for variability within group
Gen ist differenziell exprimiert. Mit welcher Methode kann man herausfinden ob es mit einem bestimmten biologischen Prozess assoziiert ist?
Gene set enrichment analysis (GESA)
Überexprimierte Gene un randked gene list (L) zusammenfassen
Spezifisches Gene set (S) zum Vergleich suchen (Datenbanken)
Enrichment Score (ES) berechnen -> kummulative Summe wenn Gen in L in S gefunden wurde, ansonsten Reduzierung
AK 20/21
Was sind drop-outs? Was ist deren Grund und was ist die Auswirkung auf die Matrix?
mRNA Transkript wird exprimiert in der Zelle, aber mRNA wird nicht detektiert im mRNA Profil
—> Fehlerrate sehr von der Technologie abhängig
—> Matrix wird SPARSE —> viele Nullen
Louvain Algorithmus: was misst Q? Wann ist Q größer, wann kleiner?
Q misst den Zuwachs and Modularity wenn der Punkt i dem selben Cluster zugeordnet wird wie Punkt j
Q groß: viele Verbindungen viele Verbindungen zsw i und und dem Cluster von j bestehen
Q kleiner: wenige Verbindungen zws i und dem CLuster von j
Zuletzt geändertvor 2 Jahren