|
第4回。いよいよCufflinksです。
前回までで準備万端整いました。 まずは左のタブ[NGS: RNA Analysis]から[Cufflinks]を選びましょう。 そして、事前に準備しておいた[Sorted sam file]を選択します。 あとはオプションを選んでいくだけです。 以下は私の場合です。デフォルトからの変更点だけ記載します。 イントロンについてはデフォルトで200kbとなっています。 論文を調べていると、どうやら最大で50kbくらいのものはありそうですが、それ以上はないようなので私は[50,000]としています。 あまり設定が長いと変な物までひっつけてしまうかもしれませんからね。 次にquartile Normalizationを[yes]にしてます。 Cufflinksでは発現量をfpkmで表しており、簡単に言うと発現量を [100万リードあたりいくら分?]という形で表すわけです。 これはサンプル間で比較するに当たってとてもわかりやすいのですが、欠点として「発現量の多い遺伝子が増減すると、全体に影響を与える」というものです。 極端な例を挙げると、興味のある遺伝子Aならびに殆どの遺伝子の発現量がサンプル間で変わっていないとする。しかし、元々発現量が100万リード中10万リード分だった遺伝子Bが5倍の50万リード分になった。すると、Bの変化のせいでAを含む他の遺伝子の発現量が相対的に小さくなってしまう。 というように、高発現遺伝子の変動が低発現遺伝子の変動に影響を与えてしまう、という問題があります。 これを回避するために、総リード数を求める際に[上位25%分はなしにしよう]というのがこの正規化法です。 私的に、この正規化はやらないよりやった方がいいだろう、という判断で実行しています。 最後にExecuteをポチっとやってやればCufflinksが動きます。 しばらく待っていると ・gene expression ・transcript expression ・assembled transcript という3つのファイルが生成されます。 あとはサンプル分、この作業を繰り返します。 次回は発現データをみるためのCuffdiffと、その準備のためのCuffcompare, Cuffmergeです。 |
全体表示
[ リスト ]



