###「BioHack@JSBi2013」で使用したソースコード
https://github.com/dbcls/jsbi2013/wiki/BioHack
=======
-
まず、NCBIのFTPサーバにある、gene_infoというファイルをダウンロードする (ftp://ftp.ncbi.nih.gov/gene//DATA/gene_info.gz)
-
gene_infoのうち1,3列目だけ切り出す
./extract_TAXID_GENESYMBOL.sh
TAXID_GENESYMBOL.txtというファイル(1列目はTaxonomy ID、2列目はGene Symbol)が生成される。ただし、2列目の一部にNEWENTRYという関係ない文字列が含まれている
- TAXID_GENESYMBOL.txtのうち、NEWENTRYがある行を削除する。また、Taxonomy IDだけ別途抽出する
R CMD BATCH extract_TAXID.R log1.txt
TAXID.txt(Taxonomy ID)、TAXID_TAXNAME.txt(NEWENTRYが無い行だけ抽出)、log1.txt(ログファイル)というファイルが生成される。
- TAXID.txtに記述されたTAXIDをもとに、Ensemblにアクセスし、Taxonomy Nameをダウンロードする。
perl download.pl
TAXID_TAXNAME.txtというファイル(1列目がTaxonomy ID、2列目がTaxonomy Name)が生成される
- 最後に、TAXID_GENESYMBOL.txtとTAXID_TAXNAME.txtを、同じTAXID同士でマージする
R CMD BATCH make_table.R log2.txt
TABLE.txt、log2.txt(ログファイル)、Dictionary.txt(今回考慮した誤変換が起きる疑いがある文字列集)が生成される
- Rのtagcloudパッケージを利用して、検出頻度が高かった誤変換されるGene Symbolを強調する図を作成
cd TagCloud
R CMD BATCH tagcloud.R log3.txt
cd ..
tagcloud_symbol.jpeg, tagcloud_symbol.png, tagcloud_symbol.eps等画像ファイルが生成される
- Cytoscapeを利用して、Taxonomy Name - Gene Symbolの共起ネットワークを作成