オンライン資料を開いてください: http://bit.ly/dra1008
DDBJの新型シーケンサへの対応 ―データアーカイブ DDBJ Sequence Read Archive (DRA) と解析パイプライン
事前配布資料: http://www.pdbj.org/workshop/201008/Nakamura_Yasukazu.pdf
自己紹介
- 44歳。木更津市/三島市在住。
- こんな人です。
京大→遺伝研→かずさ→遺伝研DDBJと移動しながら「ゲノム」と「情報」を扱ってきています。
DNA Data Bank of Japan (DDBJ)
International Nucleotide Sequence Database Collaboration (INSDC) のメンバー
- GenBank: http://www.ncbi.nlm.nih.gov/genbank/ (NCBI: http://www.ncbi.nlm.nih.gov/)
- EMBL-BANK / ENA: http://www.ebi.ac.uk/ena/ (EBI: http://www.ebi.ac.uk)
- DDBJ: http://www.ddbj.nig.ac.jp/
新型シーケンサ
Next or New Generation Sequencer (NGS)
- 原理@youtube
- http://www.youtube.com/watch?v=kYAGFrbGl6E (Roshe 454)
- http://www.youtube.com/watch?v=77r5p8IBwJk (illumina)
- http://www.youtube.com/watch?v=nlvyF8bFDwM (ABI SOLiD)
- マイクロビーズや固体担体を用い、DNA増幅(PCR)反応を超高密度化
- 配列の解読は、固定した担体上で同時並行で行い、反応に伴う微細な発光をデジタルカメラで取得、時系列に同じスポットの発光を並べることで一度に数百万以上の配列決定を同時進行
- NGSが可能にしたプロジェクトの例
- 1000ゲノム: http://www.1000genomes.org/
- 1001ゲノム: http://1001genomes.org/
DRA: 日本のNGSデータアーカイブです
- Sequence Read Archive (SRA): http://www.ncbi.nlm.nih.gov/sra
- SRA in ENA: http://www.ebi.ac.uk/ena/about/page.php?page=sra_submissions
- DRA (DDBJ SRA): http://trace.ddbj.nig.ac.jp/dra
DRAへの登録
- 日本語による説明: http://trace.ddbj.nig.ac.jp/dra/submission.shtml
- メタデータ(XML)とランデータ(配列関係データ)をセットで登録する形態
- 登録のためのインタフェイスD-wayから入ります
- メタデータはXMLで記述します。支援システムを用意しています
- メタデータ作成システム(Flash版): https://trace.ddbj.nig.ac.jp/tools/contents/metaDefine
- メタデータ確認システム: https://trace.ddbj.nig.ac.jp/tools/contents/metaChecker
- ランデータは一次データと配列データとで構成されます
- 登録するランデータはNGSの機種によって異なります
- 国際協力により、日米欧のデータはミラーされ、交換されています(ディスクがパンクするまでの間は…)
DRAへの登録支援
DDBJ Sequnece Read Annotation Pipeline (DRA pipeline)の使い方
DRA pipeline は国立遺伝学研究所のDDBJが開発・提供している、新型シーケンサの出力データの解析を支援するサービスです。特徴としては
- ボタン操作とテキスト入力のみで解析を進めることが可能
- 論文用の基本統計量や図を自動生成
- 国立遺伝学研究所のPCクラスタを利用して高速化(?)
などが挙げられます。
- ゲノム配列にリード群を貼付ける「Mapping」
- リード群からゲノム配列を再構築する「Assembly」
を行なうことができます。
【DRA pipeline の紹介ビデオ】
今日からはじめるDDBJ Read Annotation Pipeline (Reference Genome Mapping)
【DRA pipeline を体験してみよう】
- 統合データベースプロジェクトページ の「アーカイブ」にあるDDBJリードアーカイブをクリック
- 「解析パイプラインでデータを解析」もしくは上部にある「Pipeline」タブをクリック
- User ID: guest Passwordは空白でログインできます
- まず、解析する配列ファイルを指定します。DRA (DDBJ Read Archive)に登録済みの場合はリストから選択、登録していない場合はファイルをアップロードします
- DRAを指定した場合、データのメタデータ(サンプル名や実験条件など)が表形式で表示されます。データのダウンロードや閲覧が可能です
- 解析に使用する配列データは一番下のテーブルから選択します
- 解析に使用するツールを選択します。ツール名はツールのオリジナルサイトにリンクされています。「Help」にあるアイコンをクリックするとそれぞれのツールのヘルプが表示されます
- 既にゲノムが解読されている配列にマッピングする場合には「Reference Genome Mapping」を、新規にアセンブリする場合には「de novo Assembly」を選びます
- 使用するツールにチェックを入れて「NEXT」
- 解析に使用するリード長を決定します
- 「Quality Score」のボタンをクリックすると、配列セットのQualityスコアが表示されます
- サンプルと(必要があれば)解析するリード長を指定して「confirm」をクリックします
- 複数のサンプルがある場合には、それぞれのサンプルについて配列長を指定できます
- 解析するすべてのサンプルを「confirm」したら、「NEXT」
- マッピングする場合、リファレンスとなるゲノムを指定します(de novo Assemblyの場合にはこの過程はスキップされます)
- Majorな生物についてはあらかじめ登録されている中から選択します
- リストにない場合には、ゲノム配列のIDを指定して配列をダウンロードします
- 解析プログラムのパラメータを指定します
- 解析終了のお知らせを受け取るメールアドレスを入力します(必須)。今回はゲストアカウントなので解析は実行できませんが、実際には「BACK」の右側に「RUN」ボタンがあります
- 左側にある「MENU」の「STATUS」から、解析の実行状況について確認できます
- 実行結果から、リファレンス配列(Chromosome)とMapping結果ファイル(out.sam、下から3番目)をダウンロードし、Tablet などのViewerで結果を表示できます(ファイルサイズが大きいため、今回は省略します)
参考
現在募集中の新学術領域研究「ゲノム研究分野支援」 http://www.genome-sci.jp/ で支援された解析情報は、公開可能なデータはすべてDRA, DDBJへ登録、公開していただくことになっています。皆様のデータ登録を楽にするための開発も鋭意すすめていきます。よろしくお願いします。
素晴らしい教材です!広めさせていただきますねー