2. 配列類似検索

Jul2014東京工業大学「バイオインフォマティクス」演習 topへ戻る

塩基配列の注釈の基礎 (annotation)

DNA→RNA→タンパク質の情報の流れ(一応おさらい)

  • DNA→(転写:transcription)→RNA→(翻訳:translation)
DNA: ATGGGAGTTCTG...
RNA: AUGGGAGUUCUG...
  • DNAのT(チミン)=RNAのU(ウリジン) 他の塩基は同じ
  • RNA→(翻訳:translation)→タンパク質 protein
RNA: AUGGGAGUUCUG...
PRO:  M  G  V  L  ...
  • 塩基3文字(=コドン)がアミノ酸1文字に対応
    アミノ酸配列=タンパク質
    タンパク質は生体を構成する主要な物質。
    タンパク質の多くは「酵素」であり、細胞内で物質を変換する触媒となる
    「代謝」をつかさどっているのがタンパク質でできた酵素。その設計図がDNA上の「遺伝子」
    タンパク質の配列は、アミノ酸の性質によって、一定の形に折り畳まれる
    生体内で用いられるアミノ酸は20種類ある。
A	Ala	Alanine		アラニン
C	Cys	Cystein		システイン
D	Asp	Aspartate	アスパラギン酸
E	Glu	Glutamate	グルタミン酸
F	Phe	Phenylalanine	フェニルアラニン
G	Gly	Glycine		グリシン
H	His	Histidine	ヒスチジン
I	Ile	Isoleucine	イソロイシン
K	Lys	Lysine		リジン
L	Leu	Leucine		ロイシン
M	Met	Methyonine	メチオニン
N	Asn	Asparagine	アスパラギン
P	Pro	Proline		プロリン
Q	Gln	Glutamine	グルタミン
R	Arg	Arginine	アルギニン
S	Ser	Serine		セリン
T	Thr	Threonine	スレオニン
V	Val	Valine		バリン
W	Typ	Tryptophan	トリプトファン
Y	Tyr	Tyrosine	チロシン
  • アミノ酸は20種類しかないのに、コドンは3文字だから、4x4x4=64種類ある
  • 一つのアミノ酸を指定するコドンが複数存在する場合がおおい
  • 例: F (Phe) フェニルアラニン UUU, UUC
  • 例: L (Leu) ロイシン UUA, UUG, CUU, CUC, CUA, CUG (後ろの4つは実質 CU の二文字で判別可)

ゲノムの注釈 genome annotation

注釈には二種類ある

  • 構造注釈 structural annotation
    遺伝子の構造を記載したアノテーション
  • 機能注釈 functional annotation
    遺伝子の機能を記載したアノテーション

Three major DNA databanks

遺伝子の「構造 structure」を予測すること

  • DNAは読めるが、それだけでは遺伝子はわからない
  • ゲノムを読んだら遺伝子の構造を把握することがまず第一

遺伝子構造アノテーションの基礎

類似配列検索

  • 既知の遺伝子に類似な配列は遺伝子(たぶん)
    • オーソログ ortholog (種分化と同時に遺伝子が分離)
    • パラログ paralog (種のなかで遺伝子が重複)
  • NCBI BLAST
  • DDBJ BLAST
  • BLAT
  • 遺伝子のレパートリーは数え尽くされたか?→No。誰とも似ていない遺伝子がたくさんある→配列パターンによる遺伝子発見

配列の比較・検索=アラインメント

アラインメントとは?

図:配列アラインメント(塩基配列)
図:配列アラインメント(タンパク質=アミノ酸の配列)
図:配列アラインメントのためのドットプロット
図:ドットプロット(1)
図:ドットプロット(2)
図:ドットプロットの方法(1)
図:ドットプロットの方法(2)

アミノ酸配列のアラインメント

「マトリクス」=類似の程度を示す

  • PAM250
  • BLOSUM62

ダイナミックプログラミング = DP

    • 「最適経路中の部分経路もまた最適経路になっている」
    • 動的計画法は、この原理を利用して最適化問題を解く。
    • ある問題を、多段階に「バラす」ことができる場合、動的計画法によって各段階の最適解(経路)を求め、それをたどることで、全体の問題を解くことが可能になる。

まじめにDPやるとタイヘンなんで、はしょる

  • FASTA
    • よく似た領域の周囲だけをDPで探索
  • BLAST
    • 「ワード」の一致を発見
    • そこからアラインメントを横へ延ばす
    • きわめて高速
    • 巨大配列も探索可能
  • BLAST検索のprogram option
program Query DB 概要
BLASTN 核 酸 配 列 核 酸 配 列 問い合わせ配列と類似の核酸配列を検索
BLASTP アミノ酸配列 アミノ酸配列 問い合わせ配列と類似のアミノ酸配列を検索
BLASTX 核 酸 配 列 アミノ酸配列 問い合わせ核酸配列をアミノ酸に翻訳した配列で、類似のアミノ酸配列を検索
TBLASTN アミノ酸配列 核 酸 配 列 アミノ酸配列を核酸配列のデータベースを翻訳したものと類似の配列を検索
TBLASTX 核 酸 配 列 核 酸 配 列 問い合わせ核酸配列を全フレーム翻訳したものを、核酸配列データベースを全フレーム翻訳したものとの類似を検索
PSI-BLAST アミノ酸配列 アミノ酸配列 問い合わせ配列とアミノ酸データベースとの検索を繰り返すことで、弱い類似しかない配列を検索可能にする方法
PHI-BLAST アミノ酸配列 アミノ酸配列 配列の「パターン」で類似の配列を検索する

 

【実習】BLASTあれこれ

NCBI BLASTを体験しよう

>opsin Rh2(Drosophila melanogaster)
MERSHLPETPFDLAHSGPRFQAQSSGNGSVLDNVLPDMAHLVNPYWSRFAPMDPMMSKIL
GLFTLAIMIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFYY
ETWVLGPLWCDIYAGCGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKILFI
WMMAVFWTVMPLIGWSAYVPEGNLTACSIDYMTRMWNPRSYLITYSLFVYYTPLFLICYS
YWFIIAAVAAHEKAMREQAKKMNVKSLRSSEDCDKSAEGKLAKVALTTISLWFMAWTPYL
VICYFGLFKIDGLTPLTTIWGATFAKTSAVYNPIVYGISHPKYRIVLKEKCPMCVFGNTD
EPKPDAPASDTETTSEADSKA
    • 「Choose Search Set」>「Database」の「swissprot」を選択
    • 左下の「BLAST」ボタンをクリック→実行
    • まず「Conserved domains」が示される(BLASTの結果が帰って来た後でも「Graphic Summary」の「Show Conserved Domains」から閲覧可能)
    • 「Conserved domains」画像中の「7tm_1」をクリック → Conserved Domain として「7tm_1[pfam00001], 7 transmembrane receptor (rhodopsin family)」が見いだされた(7回膜貫通型receptor)
    • そろそろ結果が得られているはず。Graphic Summary, Descriptions を眺めてみよう。

(問題が生じたとき使う:検索結果へのリンク1)

  • 下へスクロールして「Descriptions」へ
    1. 上から順に数本にチェック入れる
    2. Download – 手元にダウンロード
    3. GenPept – GenBank からの翻訳DBへ
    4. Graphics – グラフィクスでの配列比較
    5. AlignmentsDistance tree of results – 簡易的な系統樹が描ける。ざっくり観たいときに便利
    6. Multiple alignment – 選んだ配列でマルチプルアラインメントを実施
  • 下へスクロールして「Alignments」へ
    1. アラインメントの右横にある Related Information を活用しよう
    2. Gene-associated gene details
    3. Map Viewer-aligned genomic context
  • 結果上部のリンク「Edit and Resubmit」から生物種やキーワードでの検索結果のしぼりこみができます
    • (例)「Choose Search Set」の「Organism」に「Homo sapiens (taxid:9606)」を入れて(Homo あたりまで入れれば補完候補が出る筈)ヒトの opsin を再検索してみましょう。
    • 右の Exclude をチェックすることで、特定の生物種(群)を除外することもできます。これ便利な

(問題が生じたとき使う:検索結果へのリンク2)

  • 結果上部のリンク「Download」から結果の csvでのダウンロードができます>Excel に読み込んで結果の保存や一致の length や % でのソートが可能
  • 【参考】: cDNAやESTのゲノムへのマッピング(貼り付け)は、BLATのほうがよい。ただしWWWで検索できる生物種はほとんどが animal。上記リンクで確認しよう。
  • 【応用】: 検索結果で得られた類似な配列をまとめどりしよう統合TV本家: http://togotv.dbcls.jp/20070926.html (YouTube版: http://www.youtube.com/watch?v=RhTmgpOIUIw ) を参照
  • 【応用】: PSI-BLASTを使うと、類似が低いが遠縁であるような配列を捕まえることもできます。上記の配列で実行してみましょう。統合TV本家: http://togotv.dbcls.jp/20071016.html (YouTube版: http://www.youtube.com/watch?v=iIufC3uNlEk ) を参照
  • 【応用】「マトリクス」をかえて検索してみましょう。
  • 【応用】table format は大量にサーチする際に便利です。結果をダウンロードして、エクセルで開いてみよう
  • e-valueとは?
    • E = Kmn^(e-λS)
    • そのライブラリで偶然に同じスコアでヒットする本数の期待値
    • ライブラリの大きさ/内容が違うと e-value は違うから単純には比較できないぞ。注意

Jul2014東京工業大学「バイオインフォマティクス」演習 topへ戻る