NGS DRY解析教本の発現解析の項で詰まったところと解決法
今までNGSのデータを扱う機会がなかったのだけど、少しくらい知っていた方がいいかと思って、以前から評判の良かった次世代シーケンサーDRY解析教本に沿って自習を始めた......のだけど、さすがに執筆されたのが3年前ということもあって書いてある通りにやってみても動かない。特にHomebrewを使ってインストールしているツールの多くがインストールできなくなっている。以下、自分なりにググって調べた解決法。
作業環境
MacBookPro (Retina Mid 2012)
MacOS Mojave (直前にクリーンインストール)
出版社のサイトからレファレンスファイルをダウンロードできない
⇒以下のサイトの正誤表というところに正しいurlがある
Homebrewで検索してもインストールしたいパッケージが見つからない
⇒類似のパッケージマネージャであるbiocondaを使ってインストールできる。
ただし、一部のツールはbiocondaでインストールできるバージョンでは上手く動かない可能性がある。実際、自分はtophatとcufflinksはbiocondaでインストールしたものは途中でハングしてしまった。この場合は本家のサイトから古いバージョンのバイナリをダウンロードすることで解決した。biocondaの使い方はググればいろいろ出てくるので省略(biocondaからのインストールはpython2.7の仮想環境にて行なった)。
以下、詳細。
tophat
biocondaでv2.1.1をインストールできるがこれをMacで動かすと途中でハングする(このサイトでも言及されている)。v2.0.14では動くらしいがbiocondaにはないので、本家のサイトからバイナリをダウンロードして解凍(右側のカラムにあるReleasesのところをクリックすると古いバージョンのリストが出てくるのでtophat-2.0.14.OSX_X86_64.tar.gzを落とす)。
使用するにはコマンドサーチパスを通す必要がある。勉強のために使用するだけなら、
export PATH=〈tophatのフォルダのパス〉:$PATH
でよい(ターミナルを閉じるまでの間はパスが通る)。〈tophatのフォルダのパス〉の部分はFinderからtophatのフォルダをドラッグ&ドロップすれば入る。
なお、tophat自体はすでに開発が終了していて製作者が後継版であるHISAT2の使用を推奨しているので本気で使うつもりなら、HISAT2の使用法を勉強した方がよい(このあたりとかを参考?)。
cufflinks
こちらもv2.2.1がbiocondaでインストールできるが、これを使うと途中でハングした。本家のサイトからv2.1.1のバイナリをダウンロードして解決。パスを通すあたりはtophatと同様に。
cummeRbund
RStudioから手順通りに進めると最新版をソースファイルからコンパイルするか聞いてくるがそれをするとコケる。noにすると一つ古いバイナリがインストールされるはず。
FastQC
Homebrewでもbiocondaでも入る。
fastx_toolkit
biocondaで入る。
これで本に書いてある内容はだいたい再現できた(ただし、ツールのバージョンが違うからか本の結果と全く同じではなかったが)。ただ、調べているとこのやり方は業界的にはすでにoutdatedの模様。だいたい何をやっているのかを学ぶには役立ったけれど仕事で使うには新しいやり方をちゃんとキャッチアップしないといけないっぽい。