|
素人でもできるNGS解析!というわけで続編です。(1年以上空いてるけど、しれっと書きます)
前回のところではFASTQファイルのプレプロセシングまでやりました。 今回はここからTopHatによるマッピングです。 私が利用しているのは「DDBJ read annotation pipeline (以下DDBJ pipeline)」で、ここには各種演算のツールがおいてあります。 なので、ページ左側のタブから「Step.1 Mapping」をぽちっとして、方法で「TopHat」を選びます。 その後、事前にプレプロセシングしたデータを選択して、あとはページを順番に進めていくだけです。 ここで大事なのが「リファレンスゲノム」のデータです。 DDBJ pipelineではすでに「主要生物のゲノムデータ」がサーバーにおいてあり、選択肢からポチッとするだけでTopHatを動かすことができます。 しかし、私が解析しているラットに関しては昨年までありませんでした。 (今はおいてありますが、アノテーションが1バージョン前のものです) というわけで、データを用意する必要があります。 TopHatでリファレンスゲノムを選ぶページにくると、「Download or upload reference」という項目があるので、ここをポチります。 そして、「使いたいゲノムデータのGenBank ID」を入力してください。 するとゲノムデータがとれます。 私の場合はラットの最新のもの (Rnor_6.0) が使いたかったので、CM000072.5からCM000092.5 (chr1 ~ chrX) とCM002824.1 (chrY)、AY172581.1 (chrM) をダウンロードしました。 (NCBIのAssemblyのデータベースにまとめてあるので、そこを参照) 染色体5本分くらいはまとめてダウンロードできますが、エラーがでることがあるので一つずつやった方がよいでしょう。 ダウンロードした各染色体ゲノムのデータは[Create Data set]でひとまとめにして、わかりやすい名前をつけておきましょう。 あとはそのままTopHatを実行するだけです。 するとSAMファイルが生成されます。(SAMファイルは次のCufflinksで使います) ちなみに、FASTQファイルが分割されている場合は、まとめてファイルを選んでMappingすることでひとつのSAMファイルにすることができます。 ファイルの大きさやサンプル数にもよりますが、数時間 ~ 1日もあれば全部終わるでしょう。 次は「Cufflinks」になるわけですが、まずはページの左側[step-2]の[Workflow]をポチってください。 するとGalaxy/P-GALAXYというページに飛びます。 今後の作業はここでやることになるので、先ほど生成されたSAMファイルをこちらに移します。 左側タブの[Workflow]の中に[Import samfile from DDBJ Pipeline]というのがあるので、こちらをポチってください。 するとSAMファイルがGalaxyの方に移せます。 最後に、このSAMファイルを「sorting」します。 Cufflinksはアルゴリズムの都合上、sortingしたSAMファイルでないと扱えないようなので、忘れずにやりましょう。 やり方は簡単です。 同じく[Workflow]のタブの中に[Cufflinks preprocessing]というのがあるので、これを選んで先ほどimportしたSAMファイルを選んで実行してください。 すると、[Sorted SAM file] というのができあがるはずです。 ここまででSAMファイルの準備はおしまいです。 次回 (連続して投稿しますが) はいよいよCufflinksです。 |
全体表示
[ リスト ]






