ChiP-seq

+ChIP-seqのPeak検出のソフトウェアは、いろいろあり、私達は、MACSを使用しています。各ソフトウェアについての情報は、いろんな方がまとめられていて分かりやすかったです。参考になりそうなサイトを載せておきます。

ChIP-seq解析ツールの比較がされています。こちら

各ソフトウェアのアルゴリズムについて簡単にまとめられています。こちら
私も、MACSについて以下にまとめましたので参考になればうれしいです。(論文を訳しただけ感満載ですが・・・orz)

+++
+MACSのアルゴリズム

ChIP-seqタグは、ChIPフラグメントのエンドシーケンスのみの配列の為、forward方向のピークとreverse方向からなるピークの2つのピークが得られる。ChIP-seqデータは、シーケンス、マッピング、クロマチン構造、ゲノムコピー数変異など様々なバイアスを含んでいる。でも、これらのバイアスは、コントロールとするサンプルのシーケンスが十分にされていれば、モデル化することができ、MACSは、これらの問題に対処している。

【Modeling the shift size of ChIP-seq tags】
MACSは、ChIP DNAライブラリのフラグメントのlength(bandwidth)とdepth(mfold)を指定すると、2bandwidthのwindow sizeでピークを検出していく。その結果、検出されたランダムなhigh qualityの1000peaksのモデルを使い、forward方向のピークとreverse方向のピークの頂上間の距離(d)をモデル化する。d/2を3’側にシフトすることでタンパク質-DNAの結合サイトを同定する。

【Peak detection】
ChIP-seq tagには、同じ配列が複数含まれている。それは、ChIP-DNA amplificationやsequencing library preparationや、最後のpeak callのノイズによるバイアスの可能性がある。その為、MACSは、同じ配列のtagは、depthによって保証される以上の過度なものは取り除いている。(二項分布で、p-value<10-5)

MACSは、ゲノム上のpeak検出をポワソン分布を用いてモデル化している。Peakを検出する為に、MACSは、2/dをスライドさせ、2dのwindow sizeを使って、ゲノム上に有意に密なPeakを検出する。オーバーラップしたPeakはマージする。

ポワソン分布のλの計算は、各ピークを中心に1kb、5kb、10kb windowのλの中で最も大きな値を使用する。このλlocalの値を使用して各peakのポワソン分布のp-valueを計算する。検出されたPeakは、p-valueの閾値よりも小さいものが採用され、Chip-seqのtag数とλlocalの比率が、fold_enrichmentとして報告される。

FDRは、Peak callと同じ方法で、コントロールとChIP-seqデータとを入れ替えて計算する。

+ChIP-seqのワークフローを作成するのに参考にした論文

Genome-wide identification of binding sites defines distinct functions for Caenorhabditis elegans PHA-4/FOXA in development and environmental response.
Zhong M, Niu W, Lu ZJ, Sarov M, Murray JI, Janette J, Raha D, Sheaffer KL, Lam HY, Preston E, Slightham C, Hillier LW, Brock T, Agarwal A, Auerbach R, Hyman AA, Gerstein M, Mango SE, Kim SK, Waterston RH, Reinke V, Snyder M.
PLoS Genet. 2010 Feb 19;6(2):e1000848.

C.elegansの胚咽頭形成時と飢餓応答時において、転写因子(PHA-4/FOXA)のbinding siteの検出、target genesの検出、target genesのGO分類などを行っている。ChIP-seqの解析として標準的なものであると思い参考にしました。

SRAのデータへのリンクが論文からでは分かりにくかったので、以下にまとめておきます。
anti-Pol IIは、RNAポリメラーゼⅡの結合部位を同定する抗体。

Strain Stage Antibody SRAxxxxxx SRSxxxxxx SRXxxxxxx SRRxxxxxx
AMA-1 L4 anti-GFP SRA008408 SRS002709
SRS002712
SRX005625
SRX005628
SRR017594
SRR017597
AMA-1 L4 anti-Pol II SRA008408 SRS002710
SRS002713
SRX005626
SRX005629
SRR017595
SRR017598
AMA-1 L4 input SRA008408 SRS002711
SRS002714
SRX005627
SRX005630
SRR017596
SRR017599
PHA-4 embryo anti-GFP SRA008173 SRS002178 SRX002673 SRR013606
SRR013607
PHA-4 embryo anti-Pol Ⅱ SRA008405 SRS002695
SRS002696
SRX005648
SRX005649
SRR017617
SRR017618
PHA-4 embryo input SRA008173 SRS002179 SRX002674 SRR013608
SRR013609
PHA-4 starved L1 anti-GFP SRA008173 SRS002180 SRX002675 SRR013610
SRR013611
SRR013612
PHA-4 starved L1 anti-Pol Ⅱ SRA008405 SRS002697
SRS002698
SRX005650
SRX005651
SRR017619
SRR017620
SRR017621
PHA-4 starved L1 input SRA008173 SRS002181 SRX002676 SRR013613
SRR013614
SRR013615
SRR013616