|
第3回目となります。
前回まででCufflinksに用いるSAMファイルの準備までやりました。 次はCufflinksです。 実際にCufflinksを実行する前にもう少し準備が必要になります。 それは「リファレンスゲノムデータ」の準備です。 あれ?それはTopHatの時にやったのでは?と思われるかも知れませんが、残念ながらCufflinksではもう一度準備が必要です。 ぶっちゃけ面倒です。 なぜかというと、今回もデータをインポートして使うのですが、そのデータがそのままでは使えないからです。 以下、手順を追って説明します。 1. USCSからゲノムデータを取得する まずはページ左のタブの[Get Data]より[USCS Main table browser]を選んで下さい。 (ページが飛ばないときは右クリックから新規タブで開くとOKです) するとUSCSのページが表示されます。 そしたら上記の例のように[生物種]、[Assemblyの種類]を選び、Groupを[Gene and Gene Predictions]、trackを[RefSeqGenes]、tableを[refFlat]とします。 特に大事なのがtableの種類で、refFlatを用いないと悲しいことになります。 用いるデータテーブルの種類を決定したら、output formatで[GTF]を選択して下さい。 あとは[get output]を押すことでGalaxyにimportされます。 2. GTFファイルの染色体名を変更する DDBJ pipelineに用意されているゲノムセットを用いた場合はこちら このままCufflinks!といきたいところですが、やってしまうと悲しいことになります。 Cufflinksでは[TopHat]のデータ (SAMファイル) とリファレンスゲノムデータの「染色体名」が一致していないと別のものとして判定されてしまい、データが染色体にひも付けされないままになってしまいます。 TopHatで用いた染色体名 (悪戦苦闘日記2を参照) は、例えば1番染色体に関しては[CM000072.5]となっているのに対し、USCSからインポートしたものは[chr1]となっています。 これじゃいけません。 というわけで、書き換えます。 やり方は自由ですが、私はExcelを使いました。 インポートしたUSCSのrefFlatファイルを自分のPCにダウンロードし、Excelで開きます。 次に、[chr1]を[CM000072|CM000072.5]に置換します。 (検索文字列は完全一致を用いて下さい。chr11とかも置換されてしまいますので) これを染色体の数分繰り返せばOK。 2~3分で終わると思います。 しかし、油断してはいけません。 私がTopHatに用いたリファレンスゲノムはchromosome 1 ~ 20, X, Y, mitochondriaなのですが、このUSCSのデータは 1 ~ 20とXしかありません。 なので、先ほどと同様にUSCSからY染色体とmitochondriaのデータを取得してきて、同じ作業をします。 Y染色体はpositionを[chrY]、ミトコンドリアは[chrM]として[lookup]ボタンを押せばOKです。 しかし、さらなるトラップがあります。 YについてはrefFlatをそのままとってくればいいですが、ミトコンについてはtrackを[other RefSeq]、tableを[xenoRefFlat]を選んでください。 そのままrefFlatをとってくると、中身がからっぽになっています。 (YについてもxenoRefSeqを使うのもありかも知れません) *xenoRefFlat: RefFlatは対象生物の遺伝子名だけですが、xenoRefFlatは他生物のオルソログも参照しています。 全染色体の染色体名を書き換えたらファイルをひとまとめにします。 最初の編集したRefFlatの行下にY, ミトコンのものをコピペで貼り付けます。 そしたらこのexcelファイルを[テキスト(txt)]形式で保存します。 次にこのファイルをGalaxyの[Get Data]の[Upload file from your computer]でアップロードします。 ファイルを選んで、形式を[GTF]にしてください。 自動でtxtファイルがGTF形式に変換されます。 3. GTFファイルのフォーマットを整える そして、最後のトラップが待ち受けています。 変換されたファイルをみてみると、一番右 (9列目) のAttributionが変なタブ認識されて、過剰に["]が追加されています。 まずいです。 タブの設定を色々やったのですが、うまくいかなかったのでごり押しで直します。 まず、UCSCからGalaxyにインポートした元のrefFlatファイル (1~20 +X, Y, Mの3つ) がありますよね。 これを左タブの[Text manipulation]から[Concatenate datasets tail-to-head]を選んで、excelでやったのと同様に全部ひとまとめにします。 このファイルはAttibutionは正常なのですが、染色体名が書き換える前のものになっています。 次に、先ほどアップロードしたファイル (染色体名を書き換えたもの) と上記のファイルを[Paste two files side by side]で合体させてください。すると9列+9列 = 18列のファイルになります。 そして、[Cut columns from a table]でC1-C8, C18を選びます。 つまり、「狂った9列目のAttibutionを元のRefFlatファイルの9列目に置き換える」わけです。 最後に、この編集したファイルは[Tabular形式]になっているので、ファイルの鉛筆印 (Edit Attributes) から[Data type]を選んで、GTFファイルに変換すれば完成です。 かなりぐだったやり方ですが、要は以下のポイントができていれば他のやり方でもOKです。 1. Y, ミトコンドリアを含むTopHatに用いた全ての染色体のRefFlatファイルを用いる 2. 染色体名がTopHatの時のものと同じ 3. GTFファイルの表示がいじくる前と同じ これで準備が整ったので次回はCufflinksです。 |
全体表示
[ リスト ]





