全体表示

[ リスト ]

第3回目となります。

前回まででCufflinksに用いるSAMファイルの準備までやりました。
次はCufflinksです。

実際にCufflinksを実行する前にもう少し準備が必要になります。
それは「リファレンスゲノムデータ」の準備です。

あれ?それはTopHatの時にやったのでは?と思われるかも知れませんが、残念ながらCufflinksではもう一度準備が必要です。

ぶっちゃけ面倒です。
なぜかというと、今回もデータをインポートして使うのですが、そのデータがそのままでは使えないからです。

以下、手順を追って説明します。

1. USCSからゲノムデータを取得する
まずはページ左のタブの[Get Data]より[USCS Main table browser]を選んで下さい。
(ページが飛ばないときは右クリックから新規タブで開くとOKです)
イメージ 1

するとUSCSのページが表示されます。
イメージ 2

そしたら上記の例のように[生物種]、[Assemblyの種類]を選び、Groupを[Gene and Gene Predictions]、trackを[RefSeqGenes]、tableを[refFlat]とします。
特に大事なのがtableの種類で、refFlatを用いないと悲しいことになります。
用いるデータテーブルの種類を決定したら、output formatで[GTF]を選択して下さい。
あとは[get output]を押すことでGalaxyにimportされます。

2. GTFファイルの染色体名を変更する


DDBJ pipelineに用意されているゲノムセットを用いた場合はこちら

このままCufflinks!といきたいところですが、やってしまうと悲しいことになります。
Cufflinksでは[TopHat]のデータ (SAMファイル) とリファレンスゲノムデータの「染色体名」が一致していないと別のものとして判定されてしまい、データが染色体にひも付けされないままになってしまいます。

TopHatで用いた染色体名 (悪戦苦闘日記2を参照) は、例えば1番染色体に関しては[CM000072.5]となっているのに対し、USCSからインポートしたものは[chr1]となっています。
これじゃいけません。

というわけで、書き換えます
やり方は自由ですが、私はExcelを使いました。
インポートしたUSCSのrefFlatファイルを自分のPCにダウンロードし、Excelで開きます。
次に、[chr1]を[CM000072|CM000072.5]に置換します。
(検索文字列は完全一致を用いて下さい。chr11とかも置換されてしまいますので)
これを染色体の数分繰り返せばOK。
2~3分で終わると思います。

しかし、油断してはいけません。
私がTopHatに用いたリファレンスゲノムはchromosome 1 ~ 20, X, Y, mitochondriaなのですが、このUSCSのデータは 1 ~ 20とXしかありません

なので、先ほどと同様にUSCSからY染色体とmitochondriaのデータを取得してきて、同じ作業をします。
Y染色体はpositionを[chrY]、ミトコンドリアは[chrM]として[lookup]ボタンを押せばOKです。

しかし、さらなるトラップがあります。
YについてはrefFlatをそのままとってくればいいですが、ミトコンについてはtrackを[other RefSeq]、tableを[xenoRefFlat]を選んでください。
そのままrefFlatをとってくると、中身がからっぽになっています。
(YについてもxenoRefSeqを使うのもありかも知れません)
*xenoRefFlat: RefFlatは対象生物の遺伝子名だけですが、xenoRefFlatは他生物のオルソログも参照しています。

全染色体の染色体名を書き換えたらファイルをひとまとめにします。
最初の編集したRefFlatの行下にY, ミトコンのものをコピペで貼り付けます。
そしたらこのexcelファイルを[テキスト(txt)]形式で保存します。

次にこのファイルをGalaxyの[Get Data]の[Upload file from your computer]でアップロードします。
ファイルを選んで、形式を[GTF]にしてください。
自動でtxtファイルがGTF形式に変換されます。

3. GTFファイルのフォーマットを整える
そして、最後のトラップが待ち受けています。
変換されたファイルをみてみると、一番右 (9列目) のAttributionが変なタブ認識されて、過剰に["]が追加されています。
まずいです。

タブの設定を色々やったのですが、うまくいかなかったのでごり押しで直します。

まず、UCSCからGalaxyにインポートした元のrefFlatファイル (1~20 +X, Y, Mの3つ) がありますよね。
これを左タブの[Text manipulation]から[Concatenate datasets tail-to-head]を選んで、excelでやったのと同様に全部ひとまとめにします。
このファイルはAttibutionは正常なのですが、染色体名が書き換える前のものになっています。

次に、先ほどアップロードしたファイル (染色体名を書き換えたもの) と上記のファイルを[Paste two files side by side]で合体させてください。すると9列+9列 = 18列のファイルになります。
そして、[Cut columns from a table]でC1-C8, C18を選びます。
つまり、「狂った9列目のAttibutionを元のRefFlatファイルの9列目に置き換える」わけです。
最後に、この編集したファイルは[Tabular形式]になっているので、ファイルの鉛筆印 (Edit Attributes) から[Data type]を選んで、GTFファイルに変換すれば完成です。

かなりぐだったやり方ですが、要は以下のポイントができていれば他のやり方でもOKです。
 1. Y, ミトコンドリアを含むTopHatに用いた全ての染色体のRefFlatファイルを用いる
 2. 染色体名がTopHatの時のものと同じ
 3. GTFファイルの表示がいじくる前と同じ


これで準備が整ったので次回はCufflinksです。

よしもとブログランキング

もっと見る

[PR]お得情報

ふるさと納税サイト『さとふる』
実質2000円で特産品がお手元に
11/30までキャンペーン実施中!
いまならもらえる!ウィスパーうすさら
薄いしモレを防ぐ尿ケアパッド
話題の新製品を10,000名様にプレゼント
いまならもらえる!ウィスパーWガード
薄いしモレを防ぐパンティライナー
話題の新製品を10,000名様にプレゼント

その他のキャンペーン


プライバシー -  利用規約 -  メディアステートメント -  ガイドライン -  順守事項 -  ご意見・ご要望 -  ヘルプ・お問い合わせ

Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.

みんなの更新記事