次の機能を実装予定です。優先順位順に記載していきます
- DRA/ERA/SRA automatic import (Start)
- Preprocessing (Adapter配列除去機能)
- Automatic version up of analytical tools
- MD5 checksum for download files
- :
実装済の機能リスト
- FASTQファイルのHTTP upload(PE可), 2011.1.20
- QV>15以上の3’端trim機能, 2010.12.5
- FTP client経由でFASTQ/FASTA形式ファイルのupload, 2010.11.19
map/de novo前のFASTQファイル編集
1.Quality scoreの変換
新型シーケンサから出力される配列のQuality scoreは、シーケンサの種類や、バージョンによって算出方法が異なります。
こちら参照FASTQ Quality
ほとんどの新型シーケンサがPHRED形式を採用しているのに対して、illuminaの’Solexa pipeline earlier’は、Solexa形式を採用しています。
PHRED形式であれば、mapping/de novo assemblyを行うにあたって、問題は発生しません。
mapping tool/de novo assembly toolによっては、PHRED形式でないと受け付けないtoolもあり注意が必要です。(Maq)
その為、Pipelineでは、Quality ScoreをPHRED形式に変換する機能を実装予定です。
※DRA/SRA/ERAからダウンロードできるFASTQファイルは、PHRED形式に統一されています。
参考サイト:http://en.wikipedia.org/wiki/FASTQ_format
2.アダプター配列の除去
DRA/SRA/ERAからダウンロードできるFASTQファイルは、新型シーケンサにてシーケンスする為に必要なアダプターは除去済みですが、個々の研究者が付けたアダプター配列は除去されていません。
アダプター除去ツールとしては、以下のものがあるようです。
+fasta,fastq,csfasta,csfastqに対応
・FAR
・cutadapt
+fastqに対応
・FASTX-toolkit
・mirtools Adapter_trim.pl
+fastaに対応
・Figaro
・Biopiece: remove_adaptor