Buffl

Regulatorische Genomik

JK
by Julia K.

Motif discovery using word counting

  • Idea: motifs corresponding to binding sites are generally repeated → capture this statistical signal

  • Der Prozess der Motif-Entdeckung mit Wortzählung kann wie folgt beschrieben werden:

    1. Datensatz zusammenstellen: Eine Gruppe von DNA-Sequenzen, die möglicherweise ein gemeinsames Motiv enthalten, wird zusammengestellt.

    2. Wortzählung: Es werden alle kurzen DNA-Wörter in den Sequenzen (promoters of co-expressed genes, in ChIP bound regions,...) gezählt, wobei Wörter, die zu selten vorkommen, verworfen werden.

    3. Die Anzahl an erwarteten Vokommnissen im background model werden abgeschätzt.

    4. Ein theoretisches background model wird erstellt.

      • based on the actual, observed frequency of this word in the whole genome

      • estimate the frequency using a statistical model (Bernoulli / Markov)

    5. Konservierungsbewertung: Die konservierten Wörter, die in allen oder den meisten Sequenzen gefunden wurden, werden als Kandidatenmotiv betrachtet und auf ihre statistische Signifikanz hin bewertet (P-value / E-value)

      • Statistical evaluation using the binomial distribution

      • P-value: what is the risk you take by rejecting the null hypothesis for one particular event (i.e. consider it to be significant)

      • but you are testing 2080 possible hexanucleotides ("multiple testing")

      • if you are taking 2080 times a risk of p=1e-4, on average, in 2080*1e-4=0.208 of these cases, you will be wrong 
 E-value

    6. Motif-Analyse: Die Kandidatenmotivsequenzen werden auf Gemeinsamkeiten und Unterschiede untersucht, um ihre Funktion zu verstehen.


Author

Julia K.

Information

Last changed