|
次世代シーケンサー解析 (Next Generation Sequencing: NGS) に手を出して、悪戦苦闘する男の備忘録です。
ここでは私がやろうとしていることと、何をやったのかの2点について記述し、脳みその整理をすることを目的としています。
また、同様に苦しんでいる人がこの記事を読んで何か参考にしてくれたらなぁ、とか、この道のプロにアドバイスもらえたらなぁ、なんてことを考えています。
〜前置き〜
まず前提として、「自分はプログラムを書けない」ということがあります。
つまり、コマンドうってどうとかいう「CUI」は無理。見た目でわかってクリックでポン!の「GUI」を使ってこの局面を乗り切りたいわけです。
が、いくらなんでも自分が使おうとしているプログラムが何をしているか全く理解していない状況、というのは避けなければなりません。
ここは少々勉強しました。
〜目的〜
・種類、状態の異なる細胞をラット個体から分離し、それらの細胞の発現プロファイルを知る。
・また発現プロファイルから逆遺伝学的なアプローチでそれらの細胞の性質を議論する。
〜やること〜
-Sequencing-
それぞれの細胞からtotal RNAを抽出。illuminaのHiSeq2000でシーケンスを読む。
ただし、経済的事情等もあり、12種のサンプルをmultiprexでラベルし、1ランで読む。
*multiprex: それぞれのRNAにタグを付ける際に、異なるindex配列 (6塩基) を付加しておき、それらのサンプルをまとめてシーケンシング、その後、index配列毎に配列を分けるというお得な手法。これは公式のキット。
ちなみに自分で試薬を購入して読むよりも外注した方が安かったので、RNAを送って読んでもらうことにした。
-fastqファイルの生成-
index毎に振り分けたfastqファイルを生成する。
ここまでが外注の内容。振り分けをするためのソフトはあるらしい。
さて、ここでくっそ重いファイルの詰まったHDが送られてきたわけですが、当然自分のPCで捌けるわけがない。
色々話を聞いていると、どうやらDDBJ (DNA Data Bank of Japan) のサーバーを使って解析が可能で、しかもNGS解析に必要なものが一通り揃えられているというではないか!!
これは使わざるを得ない。元・遺伝研民としても。
というわけで、以下がサーバーでの作業になります。
-サーバーへのデータアップロード-
解析の戦場となるのは「DDBJ Pipeline」という場所。
サーバーでもあり、NGSの基礎解析を行うためのツールが用意されている素敵なところです。
まずは登録。そしてデータの準備。
なんせファイルが多い&重い。
というわけでFTPを用いてアップロード。
が、ここでトラブル発生。大学がセキュリティのために外部のサーバーへのFTP接続をブロックしていた。
まじかよ。。。
過去に誰も塩基配列登録とかしてないってことか。。。
愚痴っていてもはじまらないので、システム管理人に連絡をとり、事情を話して個人的にファイアーウォールの設定を変えてもらう。これで無事に目的のサーバーにデータをアップできたわけである。
最初っからつまづいて、数日間を要してしまった。。。
-生データのfiltering-
無事にアップされたデータをまずはフィルタリングし、信頼度の低いリードを捨てる作業を行います。
Accuracyが99.9%あればよいだろうという判断で、この設定で「PreProcessing」を実行。
必要なパラメーターを入力し、後はガイドに従ってポチポチやっていればできます。
なんて素晴らしい。。。
今回はここまでです。
次回以降、
-TopHatによるマッピングとスプライシングジャンクションの推定 (SAMファイル作成)-
-Galaxyへのデータの輸送-
-SAMファイルのソーティング-
-リファレンス配列の準備-
-Cufflinksによるアノテーション付けと発現量推定-
-Cuffcompare, Cuffmergeによるサンプル間比較と新規転写ユニットの推定-
-Cuffdiffによる発現量比較-
-R & CummeRbundによる詳細解析-
と続く予定です。(まだ全部終わっていませんがw)
|