<?xml version="1.0" encoding="UTF-8" ?>
	<rss version = "2.0"  xmlns:blogChannel="http://backend.userland.com/blogChannelModule">
		<channel>
			<title>実験室より一言申し上げます</title>
			<description>研究者のつぶやき。
おもしろいことも、おもしろくないことも、むやみやたらにはき出してみたいと思う今日この頃。</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935</link>
			<language>ja</language>
			<copyright>Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.</copyright>
		<image>
			<title>実験室より一言申し上げます</title>
			<url>https://s.yimg.jp/i/jp/blog/iym_img.gif</url>
			<description>研究者のつぶやき。
おもしろいことも、おもしろくないことも、むやみやたらにはき出してみたいと思う今日この頃。</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935</link>
		</image>
		<item>
			<title>初心者からのNGS解析 ~悪戦苦闘日記６~</title>
			<description>さて、今回はTopHat ~ Cufflinks準備の部分での修正Ver.となります。&lt;br&gt;
&lt;br&gt;
前回実際に解析を行ったのですが、少々トラブルがありました。&lt;br&gt;
今回はそのトラブルシューティングと実際にやったことについてです。&lt;br&gt;
&lt;br&gt;
まず何があったのかというと、&lt;br&gt;
&lt;b&gt;&lt;font size=&quot;2&quot;&gt;TopHatで染色体21本を選んだにも関わらず、５本しかデータが参照されなかった&lt;/font&gt;&lt;/b&gt;&lt;br&gt;
ということです。&lt;br&gt;
&lt;br&gt;
Cuffdiffまで実際にやってみて、結果を見ながらおかしな所を探し、一個ずつ遡ってデータを見ていったところ、最初のTopHatでやらかしていたという涙目な結果だったのです。&lt;br&gt;
&lt;br&gt;
この解析では&lt;br&gt;
１．DDBJ pipelineのTopHatでGenBank IDを入力し、各染色体のデータセットをインポート&lt;br&gt;
２．全部インポートしたらまとめてひとつのデータセットとして保存&lt;br&gt;
３．これをリファレンスに指定してTopHatを実行&lt;br&gt;
としたわけです。&lt;br&gt;
&lt;br&gt;
が、どうも&lt;font size=&quot;2&quot;&gt;インポートしたゲノムデータセットがちゃんとしていなくて&lt;/font&gt;、参照された５本以外がおかしくなっていたようです。&lt;br&gt;
DDBJの担当者によると、染色体をまとめて指定するとこういうことが起きるそうです。&lt;br&gt;
以前に一括インポートを試みたことがあって、ダメなことはわかっていたので今回は全部個別にインポートしたのですが、それでもこういうことがあるんですね。。。&lt;br&gt;
現在はこの件を踏まえ、デフォルトのMajor genome setにラットの最新のアセンブル (Rn6.0) が標準で選択できるようにしてくれたので、以後はこれを用いると安全でしょう。&lt;br&gt;
&lt;br&gt;
そして、&lt;font size=&quot;3&quot;&gt;&lt;b&gt;染色体名の書き換え&lt;/b&gt;&lt;/font&gt;です。&lt;br&gt;
&lt;br&gt;
こちらは悪戦苦闘日記３でも書きましたが、上記の方法でTopHatを行った際も必要です。&lt;br&gt;
(作業行程は&lt;a target=&quot;_blank&quot; href=&quot;http://blogs.yahoo.co.jp/mfxtx935/39440920.html&quot;&gt;こっち&lt;/a&gt;を参照してください)&lt;br&gt;
&lt;br&gt;
標準ゲノムセットでTopHatを実行し、生成されたsamファイルをみてみると、例えば&lt;b&gt;１番染色体&lt;/b&gt;が&lt;br&gt;
&lt;b&gt;gi|6619202784|gb|CM000072.5|&lt;/b&gt;&lt;br&gt;
となっています。&lt;br&gt;
&lt;br&gt;
一方、UCSCからインポートしたRefFlatファイルは&lt;b&gt;chr1&lt;/b&gt;と書かれています。&lt;br&gt;
&lt;br&gt;
なので、まずはUSCSからインポートした各染色体のRefFlatファイルを[Concatenate]で結合し、ひとまとめにします。→ これを&lt;b&gt;ファイル１&lt;/b&gt;とします。&lt;br&gt;
(ゲノム全体をまとめてとってきてもY染色体の分ははいっていないので、Y染色体を別途インポートし、concatenateで結合させましょう)&lt;br&gt;
&lt;br&gt;
このファイルをPCにダウンロードし、excel等を用いて文字列 [chr1] を [gi|6619202784|gb|CM000072.5|] に置換していきましょう。&lt;br&gt;
&lt;br&gt;
置換したらtxt形式で保存し、再度Galaxyにアップロードします。→ &lt;b&gt;ファイル２&lt;/b&gt;&lt;br&gt;
で、ファイル２にファイル１を[Paste]します。 &lt;br&gt;
すると、ファイル１のデータの横にファイル２のデータがつながったファイルができあがります。→ ファイル３&lt;br&gt;
上記の一連の操作の際に余計なタブ区切り認識で9列目がおかしくなっているので、[Cut]を用いてファイル３の[C1-C8,C18]を選択すると、まともな形式のGTFファイルになっているはずです。&lt;br&gt;
&lt;br&gt;
あとは前回の様にCufflinksを実行してください。&lt;br&gt;</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/39461026.html</link>
			<pubDate>Fri, 26 Dec 2014 17:26:31 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>初心者からのNGS解析 ~悪戦苦闘日記５~</title>
			<description>さて、いよいよCuffdiffです。&lt;br&gt;
Cuffdiffではサンプル間の発現量比較を行います。&lt;br&gt;
&lt;br&gt;
そこで、またまた準備です。&lt;br&gt;
&lt;br&gt;
&lt;font size=&quot;2&quot;&gt;&lt;b&gt;・リファレンスデータを作成する&lt;/b&gt;&lt;/font&gt;&lt;br&gt;
何回もやったじゃねーか！！と思いたくなるのをぐっと我慢です。&lt;br&gt;
今回用意するリファレンスデータは、「Cufflinksで各サンプル毎に出てきたtranscriptデータを、比較できるように揃える」作業です。&lt;br&gt;
&lt;br&gt;
Cufflinksはサンプル毎に個別に実行しているので、出力された結果では各転写産物がサンプル毎に名前が付けられています。&lt;br&gt;
発現量を比較する際には、同じ転写産物同士で比較する必要があるので、名前を揃えなきゃいけないわけです。&lt;br&gt;
&lt;br&gt;
そこで、「&lt;b&gt;Cuffcompare&lt;/b&gt;」あるいは「&lt;b&gt;Cuffmerge&lt;/b&gt;」を使って、統合したリファレンスデータを作成するわけです。&lt;br&gt;
&lt;br&gt;
[Cuffcompare]と[Cuffmerge]の違いについては原著論文の筆頭著者であるCole Trapnellによる解説があり、彼は&lt;b&gt;Cuffmerge&lt;/b&gt;を推奨しているようです。&lt;br&gt;
&lt;br&gt;
&amp;quot;Cole Trapnellによる説明&amp;quot;&lt;br&gt;
=======================================================================&lt;br&gt;
both are designed to gracefully merge full-length and partial transcript assemblies without ever merging transfrags that disagree on splicing structure.  Consider two transfrags, A and B, each with a couple exons.  If A and B overlap, and they don&amp;#39;t disagree on splicing structure, we can (and according to Cufflinks&amp;#39; assembly philosophy, we should) merge them.  The difference between Cuffcompare and Cuffmerge is that Cuffcompare will only merge them if A is &amp;quot;contained&amp;quot; in B, or vice versa.  That is, only if one of the transfrags is essentially redundant.  Otherwise, they both get included.  Cuffmerge on the other hand, will merge them if they overlap, and agree on splicing, and are in the same orientiation.  As turnersd noted, this is done by converting the transfrags into SAM alignments and running Cufflinks on them. &lt;br&gt;
&lt;br&gt;
The other thing that distinguishes these two options is how they deal with a reference annotation.  You can read on our website how the Cufflinks Reference Annotation Based Transcript assembler (RABT) works.  Cuffcompare doesn&amp;#39;t do any RABT assembly, it just includes the reference annotation in the combined.gtf and discards partial transfrags that are contained and compatible with the reference.  Cuffmerge actually runs RABT when you provide a reference, and this happens during the step where transfrags are converted into SAM alignments and assembled.  We do this to improve quantification accuracy and reduce errors downstream.  I should also say that Cuffmerge runs cuffcompare in order annotate the merged assembly with certain helpful features for use later on.&lt;br&gt;
&lt;br&gt;
So we recommend #3 for a number of reasons, because it is the closest in spirit to #1 while still being reasonably fast.  For reasons that I don&amp;#39;t want to get into here (pretty arcane details about the Cufflinks assembler) I also feel that option #3 is actually the most accurate in most experimental settings.		&lt;br&gt;
=======================================================================&lt;br&gt;
&lt;br&gt;
実際にはどちらかを使えば良いわけですが、これを読む限りCuffmergeの方が良さそうですね。&lt;br&gt;
(そもそもCufflinksが良い手法なのかどうかについては議論があるようですが...)&lt;br&gt;
というわけでCuffmergeを実行します。&lt;br&gt;
&lt;br&gt;
Cufflinksで出力されたファイルを選び、Cufflinksで用いたGTFファイルをリファレンスにして実行すればOK.&lt;br&gt;
すぐに[&lt;b&gt;merged transcripts&lt;/b&gt;]というファイルが生成されます。&lt;br&gt;
&lt;br&gt;
&lt;font size=&quot;2&quot;&gt;&lt;b&gt;・Cuffdiffを実行する&lt;/b&gt;&lt;/font&gt;&lt;br&gt;
いよいよCuffdiffです。&lt;br&gt;
左のタブからCuffdiffを選択してやるだけです。&lt;br&gt;
&lt;br&gt;
サンプル名を入力し、&lt;b&gt;sorted sam&lt;/b&gt;ファイルを選びましょう。&lt;br&gt;
replicateとなっているものは[add replicate]から追加しましょう。&lt;br&gt;
&lt;br&gt;
最後にパラメーターの設定です。&lt;br&gt;
&lt;b&gt;normalization&lt;/b&gt;には[Geometric]、[Quartile]、[classic-fpkm]の３種類があります。&lt;br&gt;
Geometricは中央値に対して、Quartileは上位25%をはじいたものの平均値に対して、classic-fpkmは生のfpkmを出力します。&lt;br&gt;
GeometricもQuartileもデータをRobustnessをあげるためなので、どちらを使っても良いでしょうが、生は怖いですね。&lt;br&gt;
私はGeometric (中央値) を使っています。&lt;br&gt;
&lt;br&gt;
&lt;b&gt;Dispersion estimation method&lt;/b&gt;はreplicateのデータの合わせ方です。&lt;br&gt;
調べたのですが細かいことは分からなかったです。&lt;br&gt;
[&lt;b&gt;pooled&lt;/b&gt;]は平均分散モデルというものを用いたもので、これで良さそうです。&lt;br&gt;
もしreplicateがない場合は[&lt;b&gt;blind&lt;/b&gt;]を選びましょう。&lt;br&gt;
&lt;br&gt;
あとは[&lt;b&gt;multi-read correction&lt;/b&gt;]と[&lt;b&gt;Bias correction&lt;/b&gt;]です。&lt;br&gt;
どちらもやった方が定量性が増すようですが、私はやっていません。&lt;br&gt;
*multi-read correctionをやると結果が思わしくなかったです (因果はまだ不明)。現在詳細について解析中。&lt;br&gt;
&lt;br&gt;
そしてExecuteをポチれば終わり！！！&lt;br&gt;
&lt;br&gt;
しばらく (1日くらい) 待てば結果が出てくるはずです。&lt;br&gt;
&lt;br&gt;
出てきたデータは次回、さばきます。&lt;br&gt;</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/39441313.html</link>
			<pubDate>Mon, 15 Dec 2014 23:15:00 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>初心者からのNGS解析 ~悪戦苦闘日記４~</title>
			<description>第４回。いよいよCufflinksです。&lt;br&gt;
&lt;br&gt;
前回までで準備万端整いました。&lt;br&gt;
&lt;br&gt;
まずは左のタブ[NGS: RNA Analysis]から[Cufflinks]を選びましょう。&lt;br&gt;
&lt;div align=&quot;center&quot;&gt;&lt;img src=&quot;https://blog-001.west.edge.storage-yahoo.jp/res/blog-4b-9c/mfxtx935/folder/1270650/01/39441001/img_0_m?1418645185&quot; alt=&quot;&amp;#x0030a4;&amp;#x0030e1;&amp;#x0030fc;&amp;#x0030b8; 1&quot; class=&quot;popup_img_1031_817&quot; style=&quot;&quot; height=&quot;444&quot; width=&quot;560&quot;/&gt;&lt;/div&gt;
&lt;br&gt;
そして、事前に準備しておいた[Sorted sam file]を選択します。&lt;br&gt;
&lt;br&gt;
あとはオプションを選んでいくだけです。&lt;br&gt;
以下は私の場合です。デフォルトからの変更点だけ記載します。&lt;br&gt;
&lt;br&gt;
&lt;b&gt;イントロン&lt;/b&gt;についてはデフォルトで200kbとなっています。&lt;br&gt;
論文を調べていると、どうやら最大で50kbくらいのものはありそうですが、それ以上はないようなので私は[50,000]としています。&lt;br&gt;
あまり設定が長いと変な物までひっつけてしまうかもしれませんからね。&lt;br&gt;
&lt;br&gt;
次に&lt;b&gt;quartile Normalizationを[yes]&lt;/b&gt;にしてます。&lt;br&gt;
Cufflinksでは発現量を&lt;b&gt;fpkm&lt;/b&gt;で表しており、簡単に言うと発現量を [100万リードあたりいくら分？]という形で表すわけです。&lt;br&gt;
これはサンプル間で比較するに当たってとてもわかりやすいのですが、欠点として「発現量の多い遺伝子が増減すると、全体に影響を与える」というものです。&lt;br&gt;
極端な例を挙げると、興味のある遺伝子Aならびに殆どの遺伝子の発現量がサンプル間で変わっていないとする。しかし、元々発現量が100万リード中10万リード分だった遺伝子Bが５倍の50万リード分になった。すると、Bの変化のせいでAを含む他の遺伝子の発現量が相対的に小さくなってしまう。&lt;br&gt;
というように、高発現遺伝子の変動が低発現遺伝子の変動に影響を与えてしまう、という問題があります。&lt;br&gt;
これを回避するために、総リード数を求める際に[上位25%分はなしにしよう]というのがこの正規化法です。&lt;br&gt;
私的に、この正規化はやらないよりやった方がいいだろう、という判断で実行しています。&lt;br&gt;
&lt;br&gt;
最後にExecuteをポチっとやってやればCufflinksが動きます。&lt;br&gt;
しばらく待っていると&lt;br&gt;
・gene expression&lt;br&gt;
・transcript expression&lt;br&gt;
・assembled transcript&lt;br&gt;
という3つのファイルが生成されます。&lt;br&gt;
&lt;br&gt;
あとはサンプル分、この作業を繰り返します。&lt;br&gt;
&lt;br&gt;
次回は発現データをみるためのCuffdiffと、その準備のためのCuffcompare, Cuffmergeです。&lt;br&gt;</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/39441001.html</link>
			<pubDate>Mon, 15 Dec 2014 21:06:25 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>初心者からのNGS解析 ~悪戦苦闘日記３~</title>
			<description>第３回目となります。&lt;br&gt;
&lt;br&gt;
前回まででCufflinksに用いるSAMファイルの準備までやりました。&lt;br&gt;
次はCufflinksです。&lt;br&gt;
&lt;br&gt;
実際にCufflinksを実行する前にもう少し準備が必要になります。&lt;br&gt;
それは「&lt;b&gt;リファレンスゲノムデータ」の準備&lt;/b&gt;です。&lt;br&gt;
&lt;br&gt;
あれ？それはTopHatの時にやったのでは？と思われるかも知れませんが、残念ながらCufflinksではもう一度準備が必要です。&lt;br&gt;
&lt;br&gt;
ぶっちゃけ面倒です。&lt;br&gt;
なぜかというと、今回も&lt;font color=&quot;#ff00ff&quot;&gt;データをインポートして使うのですが、そのデータがそのままでは使えない&lt;/font&gt;からです。&lt;br&gt;
&lt;br&gt;
以下、手順を追って説明します。&lt;br&gt;
&lt;br&gt;
&lt;font size=&quot;3&quot;&gt;&lt;b&gt;1. USCSからゲノムデータを取得する&lt;/b&gt;&lt;/font&gt;&lt;br&gt;
まずはページ左のタブの[Get Data]より[USCS Main table browser]を選んで下さい。&lt;br&gt;
(ページが飛ばないときは右クリックから新規タブで開くとOKです)&lt;br&gt;
&lt;div align=&quot;center&quot;&gt;&lt;img src=&quot;https://blog-001.west.edge.storage-yahoo.jp/res/blog-4b-9c/mfxtx935/folder/1270650/20/39440920/img_0_m?1419581889&quot; alt=&quot;&amp;#x0030a4;&amp;#x0030e1;&amp;#x0030fc;&amp;#x0030b8; 1&quot; class=&quot;popup_img_1032_606&quot; style=&quot;&quot; height=&quot;329&quot; width=&quot;560&quot;/&gt;&lt;/div&gt;
&lt;br&gt;
するとUSCSのページが表示されます。&lt;br&gt;
&lt;div align=&quot;center&quot;&gt;&lt;img src=&quot;https://blog-001.west.edge.storage-yahoo.jp/res/blog-4b-9c/mfxtx935/folder/1270650/20/39440920/img_1_m?1419581889&quot; alt=&quot;&amp;#x0030a4;&amp;#x0030e1;&amp;#x0030fc;&amp;#x0030b8; 2&quot; class=&quot;popup_img_1294_619&quot; style=&quot;&quot; height=&quot;268&quot; width=&quot;560&quot;/&gt;&lt;/div&gt;
&lt;br&gt;
そしたら上記の例のように[生物種]、[Assemblyの種類]を選び、Groupを[Gene and Gene Predictions]、trackを[&lt;b&gt;RefSeqGenes&lt;/b&gt;]、tableを[&lt;b&gt;refFlat&lt;/b&gt;]とします。&lt;br&gt;
特に大事なのがtableの種類で、refFlatを用いないと悲しいことになります。&lt;br&gt;
用いるデータテーブルの種類を決定したら、output formatで[&lt;b&gt;GTF&lt;/b&gt;]を選択して下さい。&lt;br&gt;
あとは[&lt;b&gt;get output&lt;/b&gt;]を押すことでGalaxyにimportされます。&lt;br&gt;
&lt;font size=&quot;3&quot;&gt;&lt;b&gt;&lt;br&gt;
2. GTFファイルの染色体名を変更する&lt;/b&gt;&lt;/font&gt;&lt;br&gt;
&lt;br&gt;
DDBJ pipelineに用意されているゲノムセットを用いた場合はこちら&lt;br&gt;
&lt;br&gt;
このままCufflinks！といきたいところですが、やってしまうと悲しいことになります。&lt;br&gt;
Cufflinksでは&lt;font color=&quot;#ff00ff&quot;&gt;[TopHat]のデータ (SAMファイル) とリファレンスゲノムデータの「染色体名」が一致していないと別のものとして判定されてしまい&lt;/font&gt;、データが染色体にひも付けされないままになってしまいます。&lt;br&gt;
&lt;br&gt;
TopHatで用いた染色体名 (&lt;a target=&quot;_blank&quot; href=&quot;http://blogs.yahoo.co.jp/mfxtx935/39440725.html&quot;&gt;悪戦苦闘日記２&lt;/a&gt;を参照) は、例えば１番染色体に関しては[CM000072.5]となっているのに対し、USCSからインポートしたものは[chr1]となっています。&lt;br&gt;
これじゃいけません。&lt;br&gt;
&lt;br&gt;
というわけで、&lt;font size=&quot;2&quot;&gt;&lt;b&gt;書き換えます&lt;/b&gt;&lt;/font&gt;。&lt;br&gt;
やり方は自由ですが、私はExcelを使いました。&lt;br&gt;
インポートしたUSCSのrefFlatファイルを自分のPCにダウンロードし、Excelで開きます。&lt;br&gt;
次に、&lt;b&gt;[chr1]を[CM000072|CM000072.5]に置換&lt;/b&gt;します。&lt;br&gt;
(検索文字列は完全一致を用いて下さい。chr11とかも置換されてしまいますので)&lt;br&gt;
これを染色体の数分繰り返せばOK。&lt;br&gt;
2~3分で終わると思います。&lt;br&gt;
&lt;br&gt;
しかし、油断してはいけません。&lt;br&gt;
私がTopHatに用いたリファレンスゲノムはchromosome 1 ~ 20, X, Y, mitochondriaなのですが、&lt;b&gt;このUSCSのデータは 1 ~ 20とXしかありません&lt;/b&gt;。&lt;br&gt;
&lt;br&gt;
なので、先ほどと同様にUSCSからY染色体とmitochondriaのデータを取得してきて、同じ作業をします。&lt;br&gt;
Y染色体はpositionを[chrY]、ミトコンドリアは[chrM]として[lookup]ボタンを押せばOKです。&lt;br&gt;
&lt;br&gt;
しかし、さらなるトラップがあります。&lt;br&gt;
YについてはrefFlatをそのままとってくればいいですが、ミトコンについてはtrackを[&lt;b&gt;other RefSeq]、tableを[xenoRefFlat]を選んでください。&lt;/b&gt;&lt;br&gt;
そのままrefFlatをとってくると、中身がからっぽになっています。&lt;br&gt;
(YについてもxenoRefSeqを使うのもありかも知れません)&lt;br&gt;
*xenoRefFlat: RefFlatは対象生物の遺伝子名だけですが、xenoRefFlatは他生物のオルソログも参照しています。&lt;br&gt;
&lt;br&gt;
全染色体の染色体名を書き換えたらファイルをひとまとめにします。&lt;br&gt;
最初の編集したRefFlatの行下にY, ミトコンのものをコピペで貼り付けます。&lt;br&gt;
そしたらこのexcelファイルを[&lt;b&gt;テキスト(txt)&lt;/b&gt;]形式で保存します。&lt;br&gt;
&lt;br&gt;
次にこのファイルをGalaxyの[Get Data]の[Upload file from your computer]でアップロードします。&lt;br&gt;
ファイルを選んで、形式を[&lt;b&gt;GTF&lt;/b&gt;]にしてください。&lt;br&gt;
自動でtxtファイルがGTF形式に変換されます。&lt;br&gt;
&lt;br&gt;
&lt;font size=&quot;3&quot;&gt;&lt;b&gt;3. GTFファイルのフォーマットを整える&lt;/b&gt;&lt;/font&gt;&lt;br&gt;
そして、最後のトラップが待ち受けています。&lt;br&gt;
変換されたファイルをみてみると、一番右 (9列目) のAttributionが変なタブ認識されて、過剰に[&amp;quot;]が追加されています。&lt;br&gt;
まずいです。&lt;br&gt;
&lt;br&gt;
タブの設定を色々やったのですが、うまくいかなかったので&lt;b&gt;ごり押し&lt;/b&gt;で直します。&lt;br&gt;
&lt;br&gt;
まず、UCSCからGalaxyにインポートした元のrefFlatファイル (1~20 +X, Y, Mの３つ) がありますよね。&lt;br&gt;
これを左タブの&lt;span class=&quot;cat1 tool-link&quot;&gt;[Text manipulation]から[Concatenate datasets&lt;/span&gt; tail-to-head]を選んで、excelでやったのと同様に全部ひとまとめにします。&lt;br&gt;
このファイルはAttibutionは正常なのですが、染色体名が書き換える前のものになっています。&lt;br&gt;
&lt;br&gt;
次に、先ほどアップロードしたファイル (染色体名を書き換えたもの) と上記のファイルを[&lt;span class=&quot;Paste1 tool-link&quot;&gt;Paste&lt;/span&gt; two files side by side]で合体させてください。すると９列＋９列 = 18列のファイルになります。&lt;br&gt;
そして、[&lt;span class=&quot;Cut1 tool-link&quot;&gt;Cut&lt;/span&gt; columns from a table]でC1-C8, C18を選びます。&lt;br&gt;
つまり、「&lt;b&gt;狂った９列目のAttibutionを元のRefFlatファイルの9列目に置き換える&lt;/b&gt;」わけです。&lt;br&gt;
最後に、この編集したファイルは[Tabular形式]になっているので、ファイルの鉛筆印 (Edit Attributes) から[Data type]を選んで、&lt;b&gt;GTFファイル&lt;/b&gt;に変換すれば完成です。&lt;br&gt;
&lt;br&gt;
かなりぐだったやり方ですが、要は以下のポイントができていれば他のやり方でもOKです。&lt;br&gt;
&amp;nbsp;1. Y, ミトコンドリアを含むTopHatに用いた全ての染色体のRefFlatファイルを用いる&lt;br&gt;
&amp;nbsp;2. 染色体名がTopHatの時のものと同じ&lt;br&gt;
&amp;nbsp;3. GTFファイルの表示がいじくる前と同じ&lt;br&gt;
&lt;br&gt;
&lt;br&gt;
これで準備が整ったので次回はCufflinksです。&lt;br&gt;</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/39440920.html</link>
			<pubDate>Mon, 15 Dec 2014 20:38:34 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>初心者からのNGS解析 ~悪戦苦闘日記２~</title>
			<description>&lt;b&gt;素人でもできるNGS解析！&lt;/b&gt;というわけで続編です。(１年以上空いてるけど、しれっと書きます)&lt;br&gt;
&lt;br&gt;
前回のところではFASTQファイルのプレプロセシングまでやりました。&lt;br&gt;
今回はここからTopHatによるマッピングです。&lt;br&gt;
&lt;br&gt;
私が利用しているのは「&lt;b&gt;DDBJ read annotation pipeline&lt;/b&gt; (以下DDBJ pipeline)」で、ここには各種演算のツールがおいてあります。&lt;br&gt;
&lt;div align=&quot;center&quot;&gt;&lt;img src=&quot;https://blog-001.west.edge.storage-yahoo.jp/res/blog-4b-9c/mfxtx935/folder/1270650/25/39440725/img_0_m?1418643770&quot; alt=&quot;&amp;#x0030a4;&amp;#x0030e1;&amp;#x0030fc;&amp;#x0030b8; 1&quot; class=&quot;popup_img_960_770&quot; style=&quot;&quot; height=&quot;449&quot; width=&quot;560&quot;/&gt;&lt;/div&gt;
&lt;br&gt;
&lt;br&gt;
なので、ページ左側のタブから「Step.1 Mapping」をぽちっとして、方法で「&lt;b&gt;TopHat&lt;/b&gt;」を選びます。&lt;br&gt;
その後、事前にプレプロセシングしたデータを選択して、あとはページを順番に進めていくだけです。&lt;br&gt;
&lt;br&gt;
ここで大事なのが「&lt;b&gt;リファレンスゲノム&lt;/b&gt;」のデータです。&lt;br&gt;
DDBJ pipelineではすでに「主要生物のゲノムデータ」がサーバーにおいてあり、選択肢からポチッとするだけでTopHatを動かすことができます。&lt;br&gt;
しかし、私が解析しているラットに関しては昨年までありませんでした。&lt;br&gt;
(今はおいてありますが、アノテーションが１バージョン前のものです)&lt;br&gt;
&lt;br&gt;
というわけで、データを用意する必要があります。&lt;br&gt;
TopHatでリファレンスゲノムを選ぶページにくると、「Download or upload reference」という項目があるので、ここをポチります。&lt;br&gt;
そして、「&lt;b&gt;使いたいゲノムデータのGenBank ID&lt;/b&gt;」を入力してください。&lt;br&gt;
するとゲノムデータがとれます。&lt;br&gt;
私の場合はラットの最新のもの (Rnor_6.0) が使いたかったので、CM000072.5からCM000092.5 (chr1 ~ chrX) とCM002824.1 (chrY)、AY172581.1 (chrM) をダウンロードしました。&lt;br&gt;
(NCBIのAssemblyのデータベースにまとめてあるので、そこを参照)&lt;br&gt;
染色体5本分くらいはまとめてダウンロードできますが、エラーがでることがあるので一つずつやった方がよいでしょう。&lt;br&gt;
ダウンロードした各染色体ゲノムのデータは[Create Data set]でひとまとめにして、わかりやすい名前をつけておきましょう。&lt;br&gt;
&lt;br&gt;
あとはそのままTopHatを実行するだけです。&lt;br&gt;
すると&lt;b&gt;SAMファイル&lt;/b&gt;が生成されます。(SAMファイルは次のCufflinksで使います)&lt;br&gt;
ちなみに、FASTQファイルが分割されている場合は、まとめてファイルを選んでMappingすることでひとつのSAMファイルにすることができます。&lt;br&gt;
ファイルの大きさやサンプル数にもよりますが、数時間 ~ 1日もあれば全部終わるでしょう。&lt;br&gt;
&lt;br&gt;
&lt;br&gt;
次は「Cufflinks」になるわけですが、まずはページの左側[step-2]の[&lt;b&gt;Workflow&lt;/b&gt;]をポチってください。&lt;br&gt;
すると&lt;b&gt;Galaxy/P-GALAXY&lt;/b&gt;というページに飛びます。&lt;br&gt;
&lt;div align=&quot;center&quot;&gt;&lt;img src=&quot;https://blog-001.west.edge.storage-yahoo.jp/res/blog-4b-9c/mfxtx935/folder/1270650/25/39440725/img_1_m?1418643770&quot; alt=&quot;&amp;#x0030a4;&amp;#x0030e1;&amp;#x0030fc;&amp;#x0030b8; 2&quot; class=&quot;popup_img_1021_816&quot; style=&quot;&quot; height=&quot;448&quot; width=&quot;560&quot;/&gt;&lt;/div&gt;
&lt;br&gt;
今後の作業はここでやることになるので、先ほど生成されたSAMファイルをこちらに移します。&lt;br&gt;
左側タブの[Workflow]の中に[&lt;b&gt;Import samfile&amp;nbsp; from DDBJ Pipeline&lt;/b&gt;]というのがあるので、こちらをポチってください。&lt;br&gt;
するとSAMファイルがGalaxyの方に移せます。&lt;br&gt;
&lt;br&gt;
最後に、このSAMファイルを「&lt;b&gt;sorting&lt;/b&gt;」します。&lt;br&gt;
Cufflinksはアルゴリズムの都合上、sortingしたSAMファイルでないと扱えないようなので、忘れずにやりましょう。&lt;br&gt;
&lt;br&gt;
やり方は簡単です。&lt;br&gt;
同じく[Workflow]のタブの中に[&lt;b&gt;Cufflinks preprocessing&lt;/b&gt;]というのがあるので、これを選んで先ほどimportしたSAMファイルを選んで実行してください。&lt;br&gt;
すると、[&lt;b&gt;Sorted SAM file&lt;/b&gt;] というのができあがるはずです。&lt;br&gt;
&lt;br&gt;
ここまででSAMファイルの準備はおしまいです。&lt;br&gt;
&lt;br&gt;
次回 (連続して投稿しますが) はいよいよCufflinksです。&lt;br&gt;
&lt;br&gt;
&lt;br&gt;</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/39440725.html</link>
			<pubDate>Mon, 15 Dec 2014 19:07:55 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>忙しいときにエラーが。。。</title>
			<description>ふふふ。１年も空いてしまったぜ。&lt;br /&gt;
&lt;br /&gt;
NGS解析についてまとめようと思っているのだけど、まだ出来ていないというていたらく。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
来週の学会で発表するデータをもう少し肉付けしようと思い、久しぶりにデータを読み込んで解析をポチポチと進めてみる。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
現在はCufflinks → CummeRbundのコンビでデータを解析しているのだが、コマンド中に意味不明なエラーが起こる。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
CummeRbundで「ある遺伝子群」を抜き出して解析するために(getGenes)コマンドを使うのだが、突然エラーが発生して出来なくなる。&lt;br /&gt;
&lt;br /&gt;
他のコマンド、例えば(csDensity)とかは問題なく動くので、何かgetGenesに関する問題みたいだ。&lt;br /&gt;
記述を見るとRSQLiteに関するものみたいなのだが、訳がわからん。&lt;br /&gt;
しかも、毎回RSQLiteのエラーなのだが、エラーの種類が変わるｗ&lt;br /&gt;
&lt;br /&gt;
ちょちょいとネットで似たような症例がないかを調べてみると、ちょこちょこあるみたいです。&lt;br /&gt;
(readCufflinks)をやり直せば大丈夫、みたいな記述があったけど、自分はダメでした。&lt;br /&gt;
ちなみにdbファイルはrebuildしてます。dbファイルが壊れている、というわけではなさそう。&lt;br /&gt;
&lt;br /&gt;
案外メモリ(キャッシュ？)の問題かもしれないので、明日またトライしてみよう。意外といけるかもしれん(野生の感)。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
悪戦苦闘の記録はしっかり残して、できれば解決方法も見つけてここで出していきたいと思います。</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/39390623.html</link>
			<pubDate>Tue, 18 Nov 2014 23:16:08 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>初心者からのNGS解析 ~悪戦苦闘日記１~</title>
			<description>次世代シーケンサー解析 (Next Generation Sequencing: NGS) に手を出して、悪戦苦闘する男の備忘録です。&lt;br /&gt;
&lt;br /&gt;
ここでは私がやろうとしていることと、何をやったのかの2点について記述し、脳みその整理をすることを目的としています。&lt;br /&gt;
また、同様に苦しんでいる人がこの記事を読んで何か参考にしてくれたらなぁ、とか、この道のプロにアドバイスもらえたらなぁ、なんてことを考えています。&lt;br /&gt;
&lt;br /&gt;
～前置き～&lt;br /&gt;
&lt;br /&gt;
まず前提として、「自分はプログラムを書けない」ということがあります。&lt;br /&gt;
つまり、コマンドうってどうとかいう「CUI」は無理。見た目でわかってクリックでポン!の「GUI」を使ってこの局面を乗り切りたいわけです。&lt;br /&gt;
&lt;br /&gt;
が、いくらなんでも自分が使おうとしているプログラムが何をしているか全く理解していない状況、というのは避けなければなりません。&lt;br /&gt;
ここは少々勉強しました。&lt;br /&gt;
&lt;br /&gt;
～目的～&lt;br /&gt;
&lt;br /&gt;
・種類、状態の異なる細胞をラット個体から分離し、それらの細胞の発現プロファイルを知る。&lt;br /&gt;
・また発現プロファイルから逆遺伝学的なアプローチでそれらの細胞の性質を議論する。&lt;br /&gt;
&lt;br /&gt;
～やること～&lt;br /&gt;
&lt;br /&gt;
-Sequencing-&lt;br /&gt;
それぞれの細胞からtotal RNAを抽出。illuminaのHiSeq2000でシーケンスを読む。&lt;br /&gt;
ただし、経済的事情等もあり、12種のサンプルをmultiprexでラベルし、1ランで読む。&lt;br /&gt;
*multiprex: それぞれのRNAにタグを付ける際に、異なるindex配列 (6塩基) を付加しておき、それらのサンプルをまとめてシーケンシング、その後、index配列毎に配列を分けるというお得な手法。これは公式のキット。&lt;br /&gt;
ちなみに自分で試薬を購入して読むよりも外注した方が安かったので、RNAを送って読んでもらうことにした。&lt;br /&gt;
&lt;br /&gt;
-fastqファイルの生成-&lt;br /&gt;
index毎に振り分けたfastqファイルを生成する。&lt;br /&gt;
ここまでが外注の内容。振り分けをするためのソフトはあるらしい。&lt;br /&gt;
&lt;br /&gt;
さて、ここでくっそ重いファイルの詰まったHDが送られてきたわけですが、当然自分のPCで捌けるわけがない。&lt;br /&gt;
色々話を聞いていると、どうやらDDBJ (DNA Data Bank of Japan) のサーバーを使って解析が可能で、しかもNGS解析に必要なものが一通り揃えられているというではないか！！&lt;br /&gt;
これは使わざるを得ない。元・遺伝研民としても。&lt;br /&gt;
&lt;br /&gt;
というわけで、以下がサーバーでの作業になります。&lt;br /&gt;
&lt;br /&gt;
-サーバーへのデータアップロード-&lt;br /&gt;
解析の戦場となるのは「DDBJ Pipeline」という場所。&lt;br /&gt;
サーバーでもあり、NGSの基礎解析を行うためのツールが用意されている素敵なところです。&lt;br /&gt;
まずは登録。そしてデータの準備。&lt;br /&gt;
なんせファイルが多い＆重い。&lt;br /&gt;
というわけでFTPを用いてアップロード。&lt;br /&gt;
が、ここでトラブル発生。大学がセキュリティのために外部のサーバーへのFTP接続をブロックしていた。&lt;br /&gt;
まじかよ。。。&lt;br /&gt;
過去に誰も塩基配列登録とかしてないってことか。。。&lt;br /&gt;
&lt;br /&gt;
愚痴っていてもはじまらないので、システム管理人に連絡をとり、事情を話して個人的にファイアーウォールの設定を変えてもらう。これで無事に目的のサーバーにデータをアップできたわけである。&lt;br /&gt;
最初っからつまづいて、数日間を要してしまった。。。&lt;br /&gt;
&lt;br /&gt;
-生データのfiltering-&lt;br /&gt;
無事にアップされたデータをまずはフィルタリングし、信頼度の低いリードを捨てる作業を行います。&lt;br /&gt;
Accuracyが99.9%あればよいだろうという判断で、この設定で「PreProcessing」を実行。&lt;br /&gt;
必要なパラメーターを入力し、後はガイドに従ってポチポチやっていればできます。&lt;br /&gt;
なんて素晴らしい。。。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
今回はここまでです。&lt;br /&gt;
次回以降、&lt;br /&gt;
 -TopHatによるマッピングとスプライシングジャンクションの推定 (SAMファイル作成)-&lt;br /&gt;
 -Galaxyへのデータの輸送-&lt;br /&gt;
 -SAMファイルのソーティング-&lt;br /&gt;
 -リファレンス配列の準備-&lt;br /&gt;
 -Cufflinksによるアノテーション付けと発現量推定-&lt;br /&gt;
 -Cuffcompare, Cuffmergeによるサンプル間比較と新規転写ユニットの推定-&lt;br /&gt;
 -Cuffdiffによる発現量比較-&lt;br /&gt;
 -R &amp; CummeRbundによる詳細解析-&lt;br /&gt;
と続く予定です。(まだ全部終わっていませんがｗ)</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/38483319.html</link>
			<pubDate>Mon, 30 Sep 2013 20:18:23 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>Primary culture</title>
			<description>現在とある細胞 (細胞A) のPrimary cultureの実験系を確立しようとしています。&lt;br /&gt;
&lt;br /&gt;
これまでに様々な報告があるのですが、この細胞をキレイに分離して、他の細胞が混じらないsingle populationとして培養できたというものが無い状態です。&lt;br /&gt;
&lt;br /&gt;
現在主に解析している細胞 (細胞B) との相互作用をin vitroで検証するためには細胞Aを何とか分離・培養する必要があります。&lt;br /&gt;
&lt;br /&gt;
そして昨年秋くらいから挑戦して、なんとかpureに分離することができました。&lt;br /&gt;
ただ、細胞Aはとてもデリケートなため、なかなか生存率を高く保ったまま、また性質を維持したまま培養するのが難しいという課題にぶち当たりました。&lt;br /&gt;
&lt;br /&gt;
培養条件を色々いじって、ようやく実験に耐えられるレベルまで生存率を維持できるようになり、今年に入って解析に入ることができたという状況です。&lt;br /&gt;
&lt;br /&gt;
もう少し条件を改善したいという気持ちもあるけど、「完璧そして理想的」という条件はないのかもしれません。&lt;br /&gt;
&lt;br /&gt;
これから丁寧にデータを集めて、なんとか春くらいには論文書けるようにしたいところです。</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/37829162.html</link>
			<pubDate>Sat, 12 Jan 2013 22:55:09 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>データの処理 (統計)</title>
			<description>普段は統計処理をしなければならないような実験はあまりやっていないのですが、それでも統計を使わなければ難しい問題というのはあるものです。&lt;br /&gt;
&lt;br /&gt;
統計と言えば、生物系の研究をしているとよく「それは違うんじゃねぇか？」という場面に出くわします。&lt;br /&gt;
&lt;br /&gt;
一番多いのが、「とりあえず、ビール！」とばかりに「とりあえず、t検定！」っていうのと、なんでもかんでも「平均値」でデータを出すというものですね。&lt;br /&gt;
&lt;br /&gt;
確かにt検定は王様的な存在だとは思いますが、実際やってみればt検定が使えないデータが結構多い気がします。&lt;br /&gt;
・・・だって、そんなにきれいに正規性を示すデータってないですよ？&lt;br /&gt;
(サイコロ振るように単純に測定作業を繰り返すだけなら問題ないですが)&lt;br /&gt;
&lt;br /&gt;
平均値も、バラツキが多いデータとか大きな外れ値があるとそれにひっぱられてわけのわからない数値になるので、場合によっては「中央値」あたりを使った方がいいんじゃないかって場面は多いと思います。&lt;br /&gt;
&lt;br /&gt;
SDとSEも、使い方がくちゃくちゃな場面が多いですね。&lt;br /&gt;
確かにデータ数が増えれば、SEはSDに比べてちっちゃくなってグラフの見栄えは良くなりますが、そもそも表しているものが違うのだからどっちを使うかはちゃんと考えないといけない、と思います。&lt;br /&gt;
&lt;br /&gt;
ざっくばらんにいうと、平均値で棒グラフかいてbarで示す場合、&lt;br /&gt;
　SD:　データのバラツキ具合&lt;br /&gt;
　SE:　平均値がとりうるであろう範囲 (真の平均値の推定)&lt;br /&gt;
を表すわけだから、様々な要因でデータがばらつきやすい場合はSDでそれを示した方がいいと思うわけです。&lt;br /&gt;
けど、「barがでかいとデータが悪い」という人が多いのも事実だと思います。(残念なことですが)&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
私自身、まだまだ勉強しなければならないことが多いのですが、統計処理の持つ意味をはき違えないように、頑張っていこうと思います。&lt;br /&gt;
（生物学での統計ってのは、適当にやるくらいなら直感とfeelingで判断した方がマシというのが私の考えですがw)&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
また何か勉強したらその内容について書きたいと思います。&lt;br /&gt;
*検定方法の使い分けガイド的なものはいずれ書こうと思います。</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/37608779.html</link>
			<pubDate>Fri, 19 Oct 2012 23:03:12 +0900</pubDate>
			<category>生物学</category>
		</item>
		<item>
			<title>密度勾配の作成</title>
			<description>この1年くらい、細胞を分離するために密度勾配遠心をする機会が多くなりました。&lt;br /&gt;
さっきも明日使う予定のFicoll溶液の調整をしていました。&lt;br /&gt;
(Ficoll以外にもNycodenzもよく使っています)&lt;br /&gt;
&lt;br /&gt;
初めて密度勾配遠心のために溶液を重層したときは、境界面がちょっと混ざってしまったりして美しいバンドを作成できなかったのですが、これもなんとか習得できました。&lt;br /&gt;
&lt;br /&gt;
どこかの誰かがwebで「密度勾配　遠心　コツ」みたいなキーワードで検索したときのためにここに書いておきます。&lt;br /&gt;
&lt;br /&gt;
1. 重層する液を重ねる前に遠心チューブの内壁を濡らしておき、そこを伝わらせて液を加える。&lt;br /&gt;
 (縦に筋が通るようにするとよいが、その筋の幅が広い方がなお良い)&lt;br /&gt;
2. あまり小さいサイズのピペットを使わない。&lt;br /&gt;
 (出口が小さいと圧が強く、液が出るときに勢いがつきすぎる)&lt;br /&gt;
&lt;br /&gt;
・・・ホント、どうでもいい内容な上に、言葉じゃわかりにくいですね。</description>
			<link>https://blogs.yahoo.co.jp/mfxtx935/37595957.html</link>
			<pubDate>Mon, 15 Oct 2012 01:08:52 +0900</pubDate>
			<category>生物学</category>
		</item>
		</channel>
	</rss>