ChIP
ChIP = Chromatin Immunoprecipitation
zum Untersuchen der Interaktionen zwischen Proteinen und DNA in lebenden Zellen
Diese Methode ermöglicht es, spezifische DNA-Sequenzen zu identifizieren, die an bestimmte Proteine (Transkriptionsfaktoren) gebunden sind oder durch spezifische chemische Modifikationen (Acetylierung, Methylierung) markiert sind.
Die ChIP-Technologie hat eine Vielzahl von Anwendungen, einschließlich der Untersuchung von Genregulation und Chromatin-Struktur, der Identifizierung von Protein-Interaktionspartnern und der Untersuchung von Veränderungen im Genom in Reaktion auf bestimmte Bedingungen oder Behandlungen.
ChIP Sequenzing Schritte
Die ChIP-Sequenzierung beginnt mit der Quervernetzung der Proteine an die DNA in lebenden Zellen, gefolgt von der Isolierung der Protein-DNA-Komplexe durch Immunpräzipitation mit spezifischen Antikörpern. Die isolierten DNA-Fragmente werden dann sequenziert und die resultierenden DNA-Sequenzen können mithilfe von Referenzgenomen oder anderen bioinformatischen Tools analysiert werden, um die genomweite Verteilung der Protein-DNA-Interaktionen zu bestimmen.
DNA Methylierung
DNA methylation occurs mainly on cytosines in CpG dinucleotides in the human genome
Genomes are mostly highly methylated at a global scale except at gene promoters of CpG islands
Impact on gene regulation: DNAme is a repressive mark that inhibits the binding of transcription factors and expression of genes
in cancer:
hypomethylation: aberrant expression of oncogenes
hypermethylation: aberrant repression of tumor suppressors
DNA Methylation - how to measure
DNA methylation is revealed by using bisulfite conversion:
unmethylated cytosines are converted : C→U→T
methylated cytosines are protected : mC → mC
unmethylated CpG are identified by the presence of a mismatch TpG
2 approaches:
array based: nur Bruchteil der CpGs, günstig und schnell
whole genome bisulfite sequencing: information about all 28 mio CpGs and also about mutations
Chromatin-Conformation-Capture Methoden
auch als 3C-Methoden bezeichnet
zur Untersuchung der dreidimensionalen Struktur des Chromatins in Zellen verwendet.
Diese Methoden ermöglichen es, die räumlichen Interaktionen zwischen verschiedenen Bereichen der DNA im Chromatin zu kartieren, indem sie die räumliche Nähe von DNA-Sequenzen mithilfe von Quervernetzungs- und DNA-Fragmentierungsverfahren messen.
Es gibt mehrere Varianten der Chromatin-Conformation-Capture-Methoden, einschließlich der 4C-, 5C-, Hi-C-, und Capture-C-Methoden, die unterschiedliche Strategien verwenden, um die räumliche Organisation des Chromatins zu kartieren.
Hi-C = durch crosslinking interagierende Bereiche finden
Diese Techniken ermöglichen die Identifizierung von räumlichen Interaktionen zwischen Genen, Enhancern, Promotoren, regulatorischen Elementen und anderen DNA-Bereichen und können somit ein tiefes Verständnis der Genregulation und der chromosomalen Architektur von Zellen ermöglichen.
3C und Hi-C Schritte
3C
Quervernetzung der Genome in intakten Zellen durch Formaldehyd, um die räumliche Struktur des Chromatins zu bewahren
-> Verknüpfungen zwischen genomischen Loci sind “gefroren”
enzymatische Verdauung des accessible Chromatin in kleine Fragmente
Ligation (Verknüpfung) von DNA-Fragmenten, die in räumlicher Nähe zueinander sind
-> Reverse Crossliniking -> chimerische DNA Fragemente mit DNA von 2 Loci entstehen
durch PCR oder DNA-Sequenzierung amplifiziert und analysiert
Hi-C
Schritte bis zur Verdauung gleich
Vor Ligation werden geschnittene DNA Enden mit Biotin markiert
Danach Ligation von DNA Fragmenten in räumlicher Nähe
Zerschneiden der DNA mit Proteinkinase k in viele Bruchstücke -> nur die Bruchstücke interessant wo Biotin ist, da hier der Cleavage war
Prinzipien der Transkriptionellen Regulation
Die transkriptionelle Regulation bezieht sich auf den Prozess, bei dem die Expression von Genen durch die Steuerung der Transkription von DNA in RNA reguliert wird. Die Prinzipien der transkriptionellen Regulation umfassen:
DNA-Bindung: Transkriptionsfaktoren sind Proteine, die an spezifische DNA-Sequenzen binden und die Transkription aktivieren oder hemmen können.
Protein-Protein-Interaktionen: Transkriptionsfaktoren können mit anderen Proteinen interagieren, um Transkription zu aktivieren oder zu hemmen.
Chromatin-Struktur: Die Chromatin-Struktur beeinflusst die Zugänglichkeit von DNA für Transkriptionsfaktoren und somit die Transkriptionsaktivität.
Epigenetische Modifikationen: Epigenetische Modifikationen wie DNA-Methylierung oder Histon-Modifikationen können die Transkriptionsaktivität beeinflussen, indem sie die Chromatin-Struktur verändern.
Regulatorische RNA: Regulatorische RNA wie miRNA oder lncRNA können die Transkriptionsaktivität beeinflussen, indem sie auf verschiedene Weise auf die Translation und Stabilität von mRNA wirken.
Signale aus der Zelle: Signale aus der Zelle können die Transkriptionsaktivität beeinflussen, indem sie die Aktivität von Transkriptionsfaktoren oder anderen Regulatoren modulieren.
3D-DNA Looping
Transkriptionsfaktoren
Transcription factors contain a DNA binding domain (DBD) and a transcriptional activator (TA)
Homologous TFs share similar DBDs
majority of protein-DNA interactions for TF occur through an alpha-helix fitting into the major groove (=DNA binding domain) -> they form hydrogen bonds with specific bases and are stabilized by van der Waals interactions
1500 - 1800 TFs im Mensch, 3 Klassen machen mehr als 80 % der TFs aus
DNAse sequencing
um die genomweite Verteilung von offenen chromatinisierten Regionen im Genom zu bestimmen. Diese offenen Regionen entsprechen Stellen im Chromatin, an denen die DNA zugänglicher ist und somit leichter von Enzymen wie der DNAse I verdaut werden kann.
Die DNAse-Sequenzierung ermöglicht es, genomweite Karten von offenen chromatinisierten Regionen zu erstellen, die wichtige regulatorische Elemente wie Enhancer, Promotoren und regulatorische Regionen von Genen umfassen.
Diese Karten sind nützlich, um zu verstehen, wie die dreidimensionale Organisation des Chromatins die Genexpression und die Genregulation beeinflusst
DNAse Sequencing Durchführung
Quervernetzung von Chromatin in lebenden Zellen und Isolierung von intaktem Chromatin
Chromatin wird mit steigender Konzentration von DNAse I behandeln -> Verdau der DNA an zugänglichen Stellen
Verdauten DNA-Fragmente isolieren und sequenziert
-> genomweite Verteilung von offenen chromatinisierten Regionen kann bestimmt werden
ATAC-Sequencing
Assay for Transposase-Accessible Chromatin with high-throughput sequencing (ATAC-Seq)
Alternative zu DNAse-Sequenzierung, die weniger Ausgangsmaterial benötigt und technisch weniger aufwendig ist
ATAC-Seq verwendet eine Transposase (integriert sich zufällig ins Genom)
Ermöglicht es, die räumliche Organisation des Chromatins in verschiedenen Zelltypen und Entwicklungsstadien zu untersuchen.
spezifische regulatorische Elemente wie Enhancer und Promotoren können identifizeirt werden
ATAC-Sequecning Schritte
Transposase integriert sich zufällig ins Genom
-> DNA-Fragmente in offenen chromatinisierten Regionen markiert
Transposase schneidet die DNA und fügt gleichzeitig Adaptersequenzen ein
fragmetierte DNA-Stücke werden isoliert und durch Sequenzierung analysiert
Regionen bei denen es viele fragmentierte DNA Stücke gibt sind offen zugängliche Regionen
Footprinting
DNA wird zuerst mit Protein inkubiert (es bindet an eine spezifische Sequenz)
dann wird DNA mit einer DNase oder einem chemischen Reagenz behandelt, das spezifisch an nicht geschützte Stellen bindet und die DNA an diesen Stellen abbaut
Die DNA wird dann extrahiert und in bestimmte Längen aufgetrennt
geschützte DNA-Bereiche durch Vergleich der Längen der DNA-Fragmente identifizieren
Die geschützten Regionen können dann sequenziert werden, um die spezifische Bindungsstelle des Proteins zu identifizieren.
So können dann Transkriptionsfaktor Bindestellen erkannt werden in Kombination mit DNAse sequencing / ATAC Sequencing
SELEX
"Systematic Evolution of Ligands by EXponential enrichment"
Identifizierung von Nukleinsäure- oder Protein-Liganden, die an eine bestimmte Zielstruktur binden (Transkriptionsfaktoren)
In vitro anreichern gebundener Sequenzen
Ablauf
In einem typischen SELEX-Experiment wird eine zufällige Bibliothek von Nukleinsäuren verwendet.
Die Bibliothek wird dann mit dem TF inkubiert.
Die nicht gebundenen Liganden werden entfernt, und die gebundenen Liganden werden durch Elution oder Änderung der Inkubationsbedingungen isoliert.
Die isolierten Liganden werden amplifiziert (PCR) und für den nächsten Selektionsschritt verwendet.
Durch iterative Runden der Selektion und Amplifikation werden Liganden mit höherer Affinität und Spezifität für die Zielstruktur isoliert.
Kann auch zur Identifikation von Antikörpern, die an spezifische Proteine binden genutz werden. SELEX ist auch eine nützliche Methode zur Identifizierung von RNA-Molekülen, die eine katalytische Aktivität aufweisen, wie z.B. Ribozyme.
Two ways of characterizing TF binding affinities
Represent binding sites as consensus sequence (with IUPAC and Transfec convention)
-> Here much information is lost (wenn mehr als 50% der Basen gleich sind, wird angenommen, dass alle so sind)
Count frequencies of nucleotides at each position, obtain a count matrix and represent the matrix as a logo
-> you can also normalize to obtain a position frequency matrix (PFM)
Sampling effects bei der PFM
0 in the PFM should be replaced since otherwise the probability of a sequence to bind a TF would become 0 if only 1 base is 0 (Probability is calculated by multiplying each probability from the PFM)
Sampling effects are attenuated by adding pseudo-counts (usually 1) at each position, distributed among the nucleotides
equal amount (0.25)
fraction proportional to nucleotide prior frequency (A,T = 0,2; C,G = 0,3)
Informationsgehalt einer PFM
Wenn alle Nukleotide gleich häufig vorkommen (pi = 0,25) und an jeder Stelle die selbe Base ist (f(i,j)´= 1), ist der Informationsgehalt:
IC = 1 * log2(1/0,25) = 2 bits
Matrix logos Conventions
Conventions:
height of a column represents the information content
relative sizes proportional to frequencies
From frequencies (PFM) to weights (PWM)
position frequency matrices do not contain information about the background distribution
PFM (Position Frequency Matrix) und PWM (Position Weight Matrix) sind zwei Formate zur Darstellung von DNA-Bindungsstellen für Transkriptionsfaktoren.
Die PFM ist eine Tabelle, die für jede Position in der Bindungsstelle die Häufigkeit der beobachteten Basen enthält.
Um eine PWM zu erhalten, werden die relativen Häufigkeiten der Basen in der PFM berechnet und logarithmiert. Anschließend wird für jede Position in der Bindungsstelle ein Wert für jeden möglichen Nukleotid in Form einer Wahrscheinlichkeitsverteilung angegeben, die auf den relativen Häufigkeiten basiert. Diese Verteilungen werden in der PWM als Gewichte dargestellt.
Die PWM ist eine kompaktere Darstellung als die PFM und enthält Informationen über die konservierten und variablen Positionen in der Bindungsstelle.
Sie wird oft verwendet, um die Bindungsstärke eines Transkriptionsfaktors an verschiedene DNA-sequenzen vorherzusagen. Diese Vorhersagen basieren auf der Übereinstimmung zwischen den Nukleotidsequenzen und den Gewichten in der PWM, wobei höhere Übereinstimmungen auf eine stärkere Bindung hinweisen.
Predicting whether a Sequence is a binding site
pj = Hintergrundhäufigkeit
j
p(S/M): multiplizieren aller Wahrscheinlichkeiten aus der PSM
p(S/B): Die wahrscheinlichkeit der Base (A,T = 0,2; C,G = 0,3) hoch die Anzahl wie oft die Base vorkommt
if parameters remain identical everywhere in the genome
if the probability of a nucleotide at each position is independant of its neighbors (Markov model of order 0)
Ist die LLR positiv ist es wahrscheinlich dass es ein TF BS ist
Erkennung von TF Bindestellen mit Markov Modellen
Verwendung von Position Weight Matrix (PWMs), um zu bestimmen, wie gut eine DNA-Sequenz zu einem bestimmten Transkriptionsfaktor passt.
Eine PWM ist eine Darstellung der Konsensussequenz eines Transkriptionsfaktors als eine Sammlung von Positionsgewichten, die zeigen, wie wahrscheinlich es ist, dass jede mögliche Base an jeder Position in der Bindungsstelle des Transkriptionsfaktors vorkommt.
Diese Positionswahrscheinlichkeiten werden in eine Markov-Kette umgewandelt, bei der jede Base einen bestimmten Buchstaben auf einer bestimmten Position in der Bindungsstelle darstellt.
Durch die Verwendung von Markov-Modellen können Wahrscheinlichkeiten berechnet werden, dass eine gegebene DNA-Sequenz eine Bindungsstelle für einen bestimmten Transkriptionsfaktor enthält.
Die Berechnung erfolgt durch die Kombination der Positionswahrscheinlichkeiten mit der Annahme, dass die Basen an jeder Position unabhängig voneinander sind und dass die Bindungsstelle als eine Markov-Kette modelliert werden kann.
Sobald eine Wahrscheinlichkeit berechnet wurde, kann entschieden werden, ob eine gegebene DNA-Sequenz eine Bindungsstelle für den Transkriptionsfaktor enthält oder nicht.
Es kann dann mit ChIP-Seq Daten verglichen werden, ob die bestimmte Bindestelle tatsächlich eine Bindestelle ist.
Evaluation of TFBS prediction performances
sensitivity: how many of the true binding sites did I find?
sensitivity = TP/P = TP / (TP+FN) → True Positive Rate (TPR)
specificity: how many of the non-binding sites did I identify correctly as negative?
specificity = TN/N = TN / (TN + FP)
1-specificity = FP/N = FP / (TN+FP) → False Positive Rate (FPR)
The tradeoff specificity/sensitivity for a continuous range of parameters can be summarized as a Receiver Operating Curve (ROC)
The performance of a model is determined by the Area under the curve (AUC)
if the number of negatives is much larger than positives (as for ChIP data), then FPR =FP/N << 1 and is insensitive to variations in FP → we replace it with another measure
positive predictive value (PPV)
(a.k.a. precision): how many true events among those predicted?
precision = PPV = TP / (TP+FP)
Limitations of TFBS predictions
quality of the matrix (PWMs constructed from few sites are not discriminative, low information content !)
difficulty to predict low affinity binding events
correct choice of the background model
in-vivo context is not taken into account
How can we improve TFBS predictions?
functional sites are believed to be under selective pressure → detect "footprints" of evolution in the genome ("phylogenetic footprinting”)
TF binding is influenced by the chromatin state (accessibility, histone modifications, ...)
Phylogenetic Footprinting
basiert auf der Annahme, dass evolutionär konservierte DNA-Sequenzen, die in verwandten Arten vorkommen, wichtige regulatorische Elemente enthalten, die für die Steuerung von Genexpression verantwortlich sind.
Die Methode vergleicht DNA-Sequenzen von verschiedenen Arten, um konservierte Regionen zu identifizieren. Diese konservierten Regionen werden als Hinweise auf mögliche regulatorische Elemente in der DNA-Sequenz betrachtet. Durch die Identifizierung von solchen Elementen kann man wichtige Informationen über die Regulation von Genexpression und die Funktion von Genen erhalten.
Phylogenetic Footprinting ist besonders nützlich, wenn die regulierenden Elemente in einer Sequenz nicht bekannt sind.
Wie funktioniert phylogenetic footprinting?
Starting point: alignment of 2 orthologous regions (e.g. promoter of orthologous genes)
Compute the conservation inside a sliding window (number of conserved positions divided by length)
TFBS search using PWM (fixed threshold)
Only TFBS inside highly conserved regions are retained !
Choice of organisms to be compared is crucial !
Given 2 sites in 2 species
what is the likelihood that they evolved according to the neutral mutation rate?
what is the likelihood that they evolved according to the constrained model of TFBS evolution?
However: only a minority of binding events are shared by all species; most are species/clade-specific
Predicting binding sites including “in-vivo features”
Particular in-vivo chromatin states seem to be correlated with gene activation
Bound sites have:
high levels of lysine acetylation
high levels of Pol-II binding
low levels of H3K27me3 (repressive mark related to polycomb repression)
Histone modifications appear to occur in specific combinations related to functional impact → combinatorial chromatin states
How can we define/annotate these chromatin states? → Hidden Markov model
Pattern matching vs. Motif discovery
Motif discovery using word counting
Idea: motifs corresponding to binding sites are generally repeated → capture this statistical signal
Der Prozess der Motif-Entdeckung mit Wortzählung kann wie folgt beschrieben werden:
Datensatz zusammenstellen: Eine Gruppe von DNA-Sequenzen, die möglicherweise ein gemeinsames Motiv enthalten, wird zusammengestellt.
Wortzählung: Es werden alle kurzen DNA-Wörter in den Sequenzen (promoters of co-expressed genes, in ChIP bound regions,...) gezählt, wobei Wörter, die zu selten vorkommen, verworfen werden.
Die Anzahl an erwarteten Vokommnissen im background model werden abgeschätzt.
Ein theoretisches background model wird erstellt.
based on the actual, observed frequency of this word in the whole genome
estimate the frequency using a statistical model (Bernoulli / Markov)
Konservierungsbewertung: Die konservierten Wörter, die in allen oder den meisten Sequenzen gefunden wurden, werden als Kandidatenmotiv betrachtet und auf ihre statistische Signifikanz hin bewertet (P-value / E-value)
Statistical evaluation using the binomial distribution
P-value: what is the risk you take by rejecting the null hypothesis for one particular event (i.e. consider it to be significant)
but you are testing 2080 possible hexanucleotides ("multiple testing")
if you are taking 2080 times a risk of p=1e-4, on average, in 2080*1e-4=0.208 of these cases, you will be wrong → E-value
Motif-Analyse: Die Kandidatenmotivsequenzen werden auf Gemeinsamkeiten und Unterschiede untersucht, um ihre Funktion zu verstehen.
Motif discovery using Likelihood Maximization
Idea: maximize the likelihood that a set of sequences share common motifs rather than not
→ search the motif that maximizes this likelihood
→ Expectation-Maximization
we have a dataset (X) of sequences possibly sharing common motifs but there is also missing data (Z):
we don't know the position of the motif in the sequences and we have unknown parameters (θ = position weight matrix)
Expectation Step:
suppose we know the matrix θ and determine the binding site positions Z in the sequences P(Z|θ)
Maximization Step:
suppose we know the positions Z of the binding sites in the sequences and determine the matrix θ
-> each step takes as input the estimations of the previous step
-> the maximization step by definition results in an increase to L
-> converge to a local maximum of L
Motif discovery using Likelihood Maximization - Verbesserungen
starting point of the algorithm will influence the type of maxima
Solution: test all subsequences of length W for the matrix initialization
selects the set of initial sequences that improve Pr(X|θ) most after one iteration
Anwendungen von RNA Sequencing
Discovery
find new transcripts
find transcript boundaries
find splice junctions
Comparison
Given samples from different conditions (e.g. experimental, disease state), find effects on
gene expression strengths
isoform abundance ratios, splice patterns, transcript boundaries
RNA Sequencing Preparation
Preparation by either rRNA depletion (e.g. riboZero) or poly-A enrichment
rRNA und tRNA weit häufiger als mRNA -> mRNA anreichern durch polyA enrichment oder durch Sondenfangen der anderen RNAs
RNA umschreiben in cRNA
Different ways to fragment
Low-input vs high-input
Small RNA protocol may require size selection
Comparison of data generated by different protocols is extremely difficult
RNA Sequencing Processing Steps
QC filtering (remove bad reads)
Things to address prior to processing
Base quality distributions (per position, average per read)
GC distribution (should follow coding genome)
Overrepresented sequences (adapter trimming)
General statistics:
# reads
Percentage mapped
Percentage mapping to different chromosomes
Percentage exonic
Percentage ribosomal
Estimated library size
For highly expressed reads, duplicate reads are expected
The question of whether to remove duplicates depends on the circumstances
Mapping: aligning reads to a reference genome or a predicted transcriptome
Use spliced read aligner (TopHat, GSNAP, STAR, ...) -> für Reads die über die Exon Bounderies hinaus gehen
The performance of spliced read aligners (e.g. Tophat, Tophat2, STAR) is superior to those of general aligners
Mapping against genome is preferable
Transcriptome model (Refseq, ENSEMBL, GENCODE) can improve accuracy of alignments
Quantification: count reads per (exonic) position
Different counting modes: htseq-count, Union, Intersection strict, Intersection non- empty
Quantification can be on
Gene level (easy to work with, but can mask differentially spliced transcripts)
Exon level (can at least detect differential exon usage)
Transcript level (would be optimal but needs transcript reconstruction (unstable))
RNA-seq: how to quantify expression?
Normalization:
To compare samples: normalize by total number of mapped reads
To compare genes: normalize by gene length
Usually we want both, so both normalizations are required
Measurable: ratio of mRNA concentration relative to total mRNA amount (relative molar concentration (rmcg)) -> Absolute Werte sind nicht messbar
g
Average of rmcg should be constant and invariant within each sample
two ways to define reads:
RPKM: Reads per kilobase (Normalize for gene length) per million mapped reads (Normalize for total number of reads)
FPKM: Fragments per kilobase per million mapped reads (for paired-end data)
RPKM or FPKM are not invariant
Relationship between total number of reads and total number of transcripts depends on size distribution of transcripts
In a sample with on average longer transcripts, the same number of reads represents fewer transcripts
“Depending on the total amount of RNA in a cell, one transcript copy per cell corresponds to between 0.5 and 5 FPKM in PolyA+ whole-cell samples according to current estimates (with the upper end of that range corresponding to small cells with little RNA and vice versa).”
TPM: transcripts per million
but with a sample-specific scaling factor; T estimate for #transcripts derived from #mapped reads per gene normalized by length of gene
Last changeda year ago