|
さて、今回はTopHat ~ Cufflinks準備の部分での修正Ver.となります。
前回実際に解析を行ったのですが、少々トラブルがありました。 今回はそのトラブルシューティングと実際にやったことについてです。 まず何があったのかというと、 TopHatで染色体21本を選んだにも関わらず、5本しかデータが参照されなかった ということです。 Cuffdiffまで実際にやってみて、結果を見ながらおかしな所を探し、一個ずつ遡ってデータを見ていったところ、最初のTopHatでやらかしていたという涙目な結果だったのです。 この解析では 1.DDBJ pipelineのTopHatでGenBank IDを入力し、各染色体のデータセットをインポート 2.全部インポートしたらまとめてひとつのデータセットとして保存 3.これをリファレンスに指定してTopHatを実行 としたわけです。 が、どうもインポートしたゲノムデータセットがちゃんとしていなくて、参照された5本以外がおかしくなっていたようです。 DDBJの担当者によると、染色体をまとめて指定するとこういうことが起きるそうです。 以前に一括インポートを試みたことがあって、ダメなことはわかっていたので今回は全部個別にインポートしたのですが、それでもこういうことがあるんですね。。。 現在はこの件を踏まえ、デフォルトのMajor genome setにラットの最新のアセンブル (Rn6.0) が標準で選択できるようにしてくれたので、以後はこれを用いると安全でしょう。 そして、染色体名の書き換えです。 こちらは悪戦苦闘日記3でも書きましたが、上記の方法でTopHatを行った際も必要です。 (作業行程はこっちを参照してください) 標準ゲノムセットでTopHatを実行し、生成されたsamファイルをみてみると、例えば1番染色体が gi|6619202784|gb|CM000072.5| となっています。 一方、UCSCからインポートしたRefFlatファイルはchr1と書かれています。 なので、まずはUSCSからインポートした各染色体のRefFlatファイルを[Concatenate]で結合し、ひとまとめにします。→ これをファイル1とします。 (ゲノム全体をまとめてとってきてもY染色体の分ははいっていないので、Y染色体を別途インポートし、concatenateで結合させましょう) このファイルをPCにダウンロードし、excel等を用いて文字列 [chr1] を [gi|6619202784|gb|CM000072.5|] に置換していきましょう。 置換したらtxt形式で保存し、再度Galaxyにアップロードします。→ ファイル2 で、ファイル2にファイル1を[Paste]します。 すると、ファイル1のデータの横にファイル2のデータがつながったファイルができあがります。→ ファイル3 上記の一連の操作の際に余計なタブ区切り認識で9列目がおかしくなっているので、[Cut]を用いてファイル3の[C1-C8,C18]を選択すると、まともな形式のGTFファイルになっているはずです。 あとは前回の様にCufflinksを実行してください。 |
全体表示
[ リスト ]







ちょっと気になったのでコメします♪
色んな人のブログの中で一番気になりました♪
何を元にブログを書かれてますか?(*^_^*)素敵だなと思って♪
手厳しいコメントもありがたいので、是非アドバイス下さい♪
2015/4/23(木) 午後 11:20 [ ゆうこ ]
お気に入り、ブクマしているので来ちゃいました♪
在宅ワークの合間にいつも更新確認しちゃったりしてます(笑)
以前見た時から自分のブログにも参考に取り入れさせて頂いてます♪
夏は更新頻度も上げられると思うので是非、私のブログにも遊びに来て下さい♪
2015/10/7(水) 午後 11:41 [ ゆうこ ]