Jul2014東京工業大学「バイオインフォマティクス」演習 topへ戻る
塩基配列の注釈の基礎 (annotation)
DNA→RNA→タンパク質の情報の流れ(一応おさらい)
- DNA→(転写:transcription)→RNA→(翻訳:translation)
DNA: ATGGGAGTTCTG... RNA: AUGGGAGUUCUG...
- DNAのT(チミン)=RNAのU(ウリジン) 他の塩基は同じ
- RNA→(翻訳:translation)→タンパク質 protein
RNA: AUGGGAGUUCUG... PRO: M G V L ...
- 塩基3文字(=コドン)がアミノ酸1文字に対応
アミノ酸配列=タンパク質
タンパク質は生体を構成する主要な物質。
タンパク質の多くは「酵素」であり、細胞内で物質を変換する触媒となる
「代謝」をつかさどっているのがタンパク質でできた酵素。その設計図がDNA上の「遺伝子」
タンパク質の配列は、アミノ酸の性質によって、一定の形に折り畳まれる
生体内で用いられるアミノ酸は20種類ある。
A Ala Alanine アラニン C Cys Cystein システイン D Asp Aspartate アスパラギン酸 E Glu Glutamate グルタミン酸 F Phe Phenylalanine フェニルアラニン G Gly Glycine グリシン H His Histidine ヒスチジン I Ile Isoleucine イソロイシン K Lys Lysine リジン L Leu Leucine ロイシン M Met Methyonine メチオニン N Asn Asparagine アスパラギン P Pro Proline プロリン Q Gln Glutamine グルタミン R Arg Arginine アルギニン S Ser Serine セリン T Thr Threonine スレオニン V Val Valine バリン W Typ Tryptophan トリプトファン Y Tyr Tyrosine チロシン
- アミノ酸は20種類しかないのに、コドンは3文字だから、4x4x4=64種類ある
- 一つのアミノ酸を指定するコドンが複数存在する場合がおおい
- 例: F (Phe) フェニルアラニン UUU, UUC
- 例: L (Leu) ロイシン UUA, UUG, CUU, CUC, CUA, CUG (後ろの4つは実質 CU の二文字で判別可)
ゲノムの注釈 genome annotation
注釈には二種類ある
- 構造注釈 structural annotation
遺伝子の構造を記載したアノテーション - 機能注釈 functional annotation
遺伝子の機能を記載したアノテーション
- http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nuccore&id=4732164 (F10A2 entry)
featuresなどの注釈がどのようについているのか、眺めてみましょう。
Three major DNA databanks
- JP: http://www.ddbj.nig.ac.jp/
- EU: http://www.ebi.ac.uk/ena/
- USA: http://www.ncbi.nlm.nih.gov/Genbank/
遺伝子の「構造 structure」を予測すること
- DNAは読めるが、それだけでは遺伝子はわからない
- ゲノムを読んだら遺伝子の構造を把握することがまず第一
遺伝子構造アノテーションの基礎
類似配列検索
- 既知の遺伝子に類似な配列は遺伝子(たぶん)
- オーソログ ortholog (種分化と同時に遺伝子が分離)
- パラログ paralog (種のなかで遺伝子が重複)
- NCBI BLAST
- DDBJ BLAST
- http://blast.ddbj.nig.ac.jp/top-j.html
- 日本語・clustalwへの連続技が可能
- BLAT
- http://genome.ucsc.edu/cgi-bin/hgBlat
- 高度な一致を検索する。やたらと高速
- 遺伝子のレパートリーは数え尽くされたか?→No。誰とも似ていない遺伝子がたくさんある→配列パターンによる遺伝子発見
配列の比較・検索=アラインメント
アラインメントとは?
図:配列アラインメント(塩基配列)
図:配列アラインメント(タンパク質=アミノ酸の配列)
図:配列アラインメントのためのドットプロット
図:ドットプロット(1)
図:ドットプロット(2)
図:ドットプロットの方法(1)
図:ドットプロットの方法(2)
アミノ酸配列のアラインメント
「マトリクス」=類似の程度を示す
- PAM250
- BLOSUM62
ダイナミックプログラミング = DP
- 「最適経路中の部分経路もまた最適経路になっている」
- 動的計画法は、この原理を利用して最適化問題を解く。
- ある問題を、多段階に「バラす」ことができる場合、動的計画法によって各段階の最適解(経路)を求め、それをたどることで、全体の問題を解くことが可能になる。
まじめにDPやるとタイヘンなんで、はしょる
- FASTA
- よく似た領域の周囲だけをDPで探索
- BLAST
- 「ワード」の一致を発見
- そこからアラインメントを横へ延ばす
- きわめて高速
- 巨大配列も探索可能
- BLAST検索のprogram option
program | Query | DB | 概要 |
BLASTN | 核 酸 配 列 | 核 酸 配 列 | 問い合わせ配列と類似の核酸配列を検索 |
BLASTP | アミノ酸配列 | アミノ酸配列 | 問い合わせ配列と類似のアミノ酸配列を検索 |
BLASTX | 核 酸 配 列 | アミノ酸配列 | 問い合わせ核酸配列をアミノ酸に翻訳した配列で、類似のアミノ酸配列を検索 |
TBLASTN | アミノ酸配列 | 核 酸 配 列 | アミノ酸配列を核酸配列のデータベースを翻訳したものと類似の配列を検索 |
TBLASTX | 核 酸 配 列 | 核 酸 配 列 | 問い合わせ核酸配列を全フレーム翻訳したものを、核酸配列データベースを全フレーム翻訳したものとの類似を検索 |
PSI-BLAST | アミノ酸配列 | アミノ酸配列 | 問い合わせ配列とアミノ酸データベースとの検索を繰り返すことで、弱い類似しかない配列を検索可能にする方法 |
PHI-BLAST | アミノ酸配列 | アミノ酸配列 | 配列の「パターン」で類似の配列を検索する |
【実習】BLASTあれこれ
NCBI BLASTを体験しよう
- http://blast.ncbi.nlm.nih.gov/Blast.cgiを開く
- 「protein BLAST」を選択
- 「Search」窓に以下の配列をコピペする (cmd-C then cmd-V)
>opsin Rh2(Drosophila melanogaster) MERSHLPETPFDLAHSGPRFQAQSSGNGSVLDNVLPDMAHLVNPYWSRFAPMDPMMSKIL GLFTLAIMIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFYY ETWVLGPLWCDIYAGCGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKILFI WMMAVFWTVMPLIGWSAYVPEGNLTACSIDYMTRMWNPRSYLITYSLFVYYTPLFLICYS YWFIIAAVAAHEKAMREQAKKMNVKSLRSSEDCDKSAEGKLAKVALTTISLWFMAWTPYL VICYFGLFKIDGLTPLTTIWGATFAKTSAVYNPIVYGISHPKYRIVLKEKCPMCVFGNTD EPKPDAPASDTETTSEADSKA
- 「Choose Search Set」>「Database」の「swissprot」を選択
- 左下の「BLAST」ボタンをクリック→実行
- まず「Conserved domains」が示される(BLASTの結果が帰って来た後でも「Graphic Summary」の「Show Conserved Domains」から閲覧可能)
- 「Conserved domains」画像中の「7tm_1」をクリック → Conserved Domain として「7tm_1[pfam00001], 7 transmembrane receptor (rhodopsin family)」が見いだされた(7回膜貫通型receptor)
- そろそろ結果が得られているはず。Graphic Summary, Descriptions を眺めてみよう。
- 下へスクロールして「Descriptions」へ
- 上から順に数本にチェック入れる
- Download – 手元にダウンロード
- GenPept – GenBank からの翻訳DBへ
- Graphics – グラフィクスでの配列比較
- AlignmentsDistance tree of results – 簡易的な系統樹が描ける。ざっくり観たいときに便利
- Multiple alignment – 選んだ配列でマルチプルアラインメントを実施
- 下へスクロールして「Alignments」へ
- アラインメントの右横にある Related Information を活用しよう
- Gene-associated gene details
- Map Viewer-aligned genomic context
- 結果上部のリンク「Edit and Resubmit」から生物種やキーワードでの検索結果のしぼりこみができます
- (例)「Choose Search Set」の「Organism」に「Homo sapiens (taxid:9606)」を入れて(Homo あたりまで入れれば補完候補が出る筈)ヒトの opsin を再検索してみましょう。
- 右の Exclude をチェックすることで、特定の生物種(群)を除外することもできます。これ便利な
- 結果上部のリンク「Download」から結果の csvでのダウンロードができます>Excel に読み込んで結果の保存や一致の length や % でのソートが可能
- 【参考】: cDNAやESTのゲノムへのマッピング(貼り付け)は、BLATのほうがよい。ただしWWWで検索できる生物種はほとんどが animal。上記リンクで確認しよう。
- 【応用】: 検索結果で得られた類似な配列をまとめどりしよう統合TV本家: http://togotv.dbcls.jp/20070926.html (YouTube版: http://www.youtube.com/watch?v=RhTmgpOIUIw ) を参照
- 【応用】: PSI-BLASTを使うと、類似が低いが遠縁であるような配列を捕まえることもできます。上記の配列で実行してみましょう。統合TV本家: http://togotv.dbcls.jp/20071016.html (YouTube版: http://www.youtube.com/watch?v=iIufC3uNlEk ) を参照
- 【応用】「マトリクス」をかえて検索してみましょう。
- 【応用】table format は大量にサーチする際に便利です。結果をダウンロードして、エクセルで開いてみよう
- e-valueとは?
- E = Kmn^(e-λS)
- そのライブラリで偶然に同じスコアでヒットする本数の期待値
- ライブラリの大きさ/内容が違うと e-value は違うから単純には比較できないぞ。注意