+ChIP-seqのPeak検出のソフトウェアは、いろいろあり、私達は、MACSを使用しています。各ソフトウェアについての情報は、いろんな方がまとめられていて分かりやすかったです。参考になりそうなサイトを載せておきます。
ChIP-seq解析ツールの比較がされています。こちら
各ソフトウェアのアルゴリズムについて簡単にまとめられています。こちら
私も、MACSについて以下にまとめましたので参考になればうれしいです。(論文を訳しただけ感満載ですが・・・orz)
+++
+MACSのアルゴリズム
ChIP-seqタグは、ChIPフラグメントのエンドシーケンスのみの配列の為、forward方向のピークとreverse方向からなるピークの2つのピークが得られる。ChIP-seqデータは、シーケンス、マッピング、クロマチン構造、ゲノムコピー数変異など様々なバイアスを含んでいる。でも、これらのバイアスは、コントロールとするサンプルのシーケンスが十分にされていれば、モデル化することができ、MACSは、これらの問題に対処している。
【Modeling the shift size of ChIP-seq tags】
MACSは、ChIP DNAライブラリのフラグメントのlength(bandwidth)とdepth(mfold)を指定すると、2bandwidthのwindow sizeでピークを検出していく。その結果、検出されたランダムなhigh qualityの1000peaksのモデルを使い、forward方向のピークとreverse方向のピークの頂上間の距離(d)をモデル化する。d/2を3’側にシフトすることでタンパク質-DNAの結合サイトを同定する。
【Peak detection】
ChIP-seq tagには、同じ配列が複数含まれている。それは、ChIP-DNA amplificationやsequencing library preparationや、最後のpeak callのノイズによるバイアスの可能性がある。その為、MACSは、同じ配列のtagは、depthによって保証される以上の過度なものは取り除いている。(二項分布で、p-value<10-5)
MACSは、ゲノム上のpeak検出をポワソン分布を用いてモデル化している。Peakを検出する為に、MACSは、2/dをスライドさせ、2dのwindow sizeを使って、ゲノム上に有意に密なPeakを検出する。オーバーラップしたPeakはマージする。
ポワソン分布のλの計算は、各ピークを中心に1kb、5kb、10kb windowのλの中で最も大きな値を使用する。このλlocalの値を使用して各peakのポワソン分布のp-valueを計算する。検出されたPeakは、p-valueの閾値よりも小さいものが採用され、Chip-seqのtag数とλlocalの比率が、fold_enrichmentとして報告される。
FDRは、Peak callと同じ方法で、コントロールとChIP-seqデータとを入れ替えて計算する。
+ChIP-seqのワークフローを作成するのに参考にした論文
Genome-wide identification of binding sites defines distinct functions for Caenorhabditis elegans PHA-4/FOXA in development and environmental response.
Zhong M, Niu W, Lu ZJ, Sarov M, Murray JI, Janette J, Raha D, Sheaffer KL, Lam HY, Preston E, Slightham C, Hillier LW, Brock T, Agarwal A, Auerbach R, Hyman AA, Gerstein M, Mango SE, Kim SK, Waterston RH, Reinke V, Snyder M.
PLoS Genet. 2010 Feb 19;6(2):e1000848.
C.elegansの胚咽頭形成時と飢餓応答時において、転写因子(PHA-4/FOXA)のbinding siteの検出、target genesの検出、target genesのGO分類などを行っている。ChIP-seqの解析として標準的なものであると思い参考にしました。
SRAのデータへのリンクが論文からでは分かりにくかったので、以下にまとめておきます。
anti-Pol IIは、RNAポリメラーゼⅡの結合部位を同定する抗体。
Strain | Stage | Antibody | SRAxxxxxx | SRSxxxxxx | SRXxxxxxx | SRRxxxxxx |
---|---|---|---|---|---|---|
AMA-1 | L4 | anti-GFP | SRA008408 | SRS002709 SRS002712 |
SRX005625 SRX005628 |
SRR017594 SRR017597 |
AMA-1 | L4 | anti-Pol II | SRA008408 | SRS002710 SRS002713 |
SRX005626 SRX005629 |
SRR017595 SRR017598 |
AMA-1 | L4 | input | SRA008408 | SRS002711 SRS002714 |
SRX005627 SRX005630 |
SRR017596 SRR017599 |
PHA-4 | embryo | anti-GFP | SRA008173 | SRS002178 | SRX002673 | SRR013606 SRR013607 |
PHA-4 | embryo | anti-Pol Ⅱ | SRA008405 | SRS002695 SRS002696 |
SRX005648 SRX005649 |
SRR017617 SRR017618 |
PHA-4 | embryo | input | SRA008173 | SRS002179 | SRX002674 | SRR013608 SRR013609 |
PHA-4 | starved L1 | anti-GFP | SRA008173 | SRS002180 | SRX002675 | SRR013610 SRR013611 SRR013612 |
PHA-4 | starved L1 | anti-Pol Ⅱ | SRA008405 | SRS002697 SRS002698 |
SRX005650 SRX005651 |
SRR017619 SRR017620 SRR017621 |
PHA-4 | starved L1 | input | SRA008173 | SRS002181 | SRX002676 | SRR013613 SRR013614 SRR013615 SRR013616 |