アノテーションナビ

「アノテーションナビ」は、ゲノム配列への注釈付け情報を紹介します。

アノテーションとは

<アノテーションの定義>

ゲノム分野における「アノテーション(annotation)」とは、塩基配列データに遺伝子構造や遺伝子機能の情報、また文献情報などを注釈付けする事をさしています。また、人が目で確認を行う場合を「マニュアルアノテーション(manual annotation)」、コンピュータが自動で行う場合を「自動アノテーション(automatic annotation)」と分類しています。アノテーション処理を行う人を、アノテーター(annotator)と呼びます。

参考資料:from ライフサイ エンス辞書
annotation (ゲノム情報に遺伝子と機能を割り当てること) アノテーション, 注釈づけ, 注解

<アノテーション処理の流れ>

アノテーション処理の流れは、自動アノテーションをコンピュータ処理で行い、結果の注釈文を人が目で検証するといった流れが、一般的に取られます。先にコンピュータを使うのは、大規模に処理が行えるからですが、自動アノテーション処理の精度はあまり高くありません。そのために、人が目で確認する作業が自動アノテーション処理の後に行われます。注釈結果が合っているかの検証処理は、アノテーションとは別にキュレーション(curation) と呼ばれており、検証処理を行う人をキュレーター(curator)と呼びます。

参考資料:from ライフサイエンス辞書
curation (自動生成データ等に対する人手による検証と修正) キュレーション

DDBJ/EMBL/GenBankの塩基配列データベース

DDBJ は,DNA Data Bank of Japan の略称です。 DDBJ は,欧州の EBI/EMBL-Bank および米国の NCBI/GenBank との密接な連携のもと,『DDBJ/EMBL/GenBank 国際塩基配列データベース』を構築している三大国際 DNA データバンクのひとつで,静岡県三島市にある国立遺伝学研究所 生命情報・DDBJ 研究センター (Center for Information Biology and DNA Data Bank of Japan; CIB-DDBJ) 内で運営されています。

「DDBJ/EMBL/GenBank 国際塩基配列データベース」は研究者から直接送付された DNA 塩基配列データを編集することによって作成されています。塩基配列データベースは,データの単位である「エントリー」の集合として構成されています。それぞれのエントリーは,塩基配列のほか,配列を決定した研究者,関連文献,生物種,遺伝子の機能,特性等に関する情報を含んでいます。また,これらの DNA データのなかには,日本の 特許庁 (JPO), 韓国特許庁 (KIPO), 欧州特許庁 (EPO), 米国特許商標庁 (USPTO) が処理した DNA データも含まれています。塩基配列データは久遠の時間をかけて生物が進化してきたことを直接示す記録です。これらが人類共通の財産であるという認識のもとに,各データバンクは研究者が利用できるように,オンラインでデータを公開しています。

より詳しい情報は、DDBJ のホームページを参照ください。

DDBJでのアノテーションサービス

<データ登録サービス>

DDBJにおける塩基配列のデータ登録は、アノテーターと呼ばれるDDBJ所属のバイオ実験研究の専門家が行っており、アノテーターの確認により登録データの品質を維持しています。塩基配列データを登録するときは、登録支援システムを使ってデータのチェック作業が行われます(下図)。また、登録処理を出来るだけ自動化するように、システムの自動処理化が図られています。

現在、研究室に所属する15名のアノテーターが、データ登録サービスを行っています。シニアアノテーターと呼ばれるアノテーターが、DDBJのバイオに関する専門データを構築しています。またジュニアアノテーターと呼ばれるアノテーターが、文献など周辺情報に関する注釈データを構築しています。

<アノテーションサービス>

当研究室では、塩基配列データのアノテーションサービスを計画しています。現在、次世代シーケンサーのアノテーションを行うパイプラインを構築中です。

次世代シーケンサーの解析パイプライン構築

当研究室では、自動アノテーション処理一つとして、次世代シーケンサーの解析パイプラインを構築しています。
次世代シーケンサーは、従来のキャピラリー式シーケンサーに対して超高速かつ低コストで配列を決定できるために次世代型と呼ばれています。次世代シーケンサーは、大量の配列を生成するためにインフォマティクス処理が必須であり、コンピュータが不得手なバイオ実験研究者の場合は、敷居が高いという欠点があります。当研究室で構築中の解析パイプラインは、主要な処理の自動処理化をすすめて、バイオ実験研究者が利用しやすい解析プラットホームの提供を目的としています。

<次世代シーケンサーのアノテーション・パイプライン>

次世代シーケンサー配列
生データ → 生データ登録
(DDBJ Short Reads)

ゲノムマッピング・アセンブリ

# ゲノム解析
# デジタル発現解析
# SNP解析
# ChIP解析
# メタゲノム解析
# small RNAs解析

アノテーション・データベース登録

<パイプライン処理のベンチマーク>

次世代シーケンサーの性能概要

通称名 企業名 方法 製品名 bp per run read per run bp per read

精度

(コンセンサス)
454 Roche/454 Life Sciences Pyrisequencing Genome Sequencer FLX System 400Mb 4 M reads 200-300 bp

99.5

(99.99)
SOLEXA Illumina Sequencing by synthesis Genome Analyzer II 4-9 Gb — 75 bp
(99.99)
SOLiD Applied Biosystems Supported oligonucleotide detection SOLiD 3 Analyzer 20 Gb 400 M reads 50 bp 99.94

アノテーション関連データベース

* ライフサイエンス統合DBプロジェクトのデータベースカタログ
DB型の「注釈」、対象の「アノテーション」を開くと国内外のDBリストが閲覧できます。

* 遺伝学研究所関連のアノテーションデータベース
o

GTPS =共通プロトコルに基づくバクテリアゲノムの再アノテーション (Prof. Sugawara)

o

GTOP =ゲノム配列からタンパク質の構造へ (Prof. Sugawara)

o

H-Invitational Database=ヒトの全長cDNA配列データベース (Prof. Gojobori)

アノテーション関連ツール

* 構造注釈ツール
* 機能注釈ツール
* パイプライン
* 統合環境
* ゲノムブラウザ