阅读 242

nr数据库分库

我们下载的nr数据库非常大,2017年9月更新后所有nr的fasta文件已达72G,因而在进行nr比对时,如果不对nr库以类别进行区分,会非常耗我们的计算资源和时间,因而最好对下载的nr数据库进行分库,可以更准确快速的完成nr数据库比对。

nr数据库分库操作步骤:

首先明确我们需要分库的类别:细菌,真菌,真核生物,脊椎动物,植物

目前以脊椎动物为例,介绍如何进行nr数据库分库。

首先我们要得到脊椎动物的分类学ID,即NCBI数据库Taxonomy数据库的ID,如果我们不知道,可以通过已知脊椎动物的拉丁名在Taxonomy数据库中查找可得到以下界面


nr1.png


点击protein选项可得到如下界面


nr2.png


在linage中可看到红圈中的脊椎动物的分类,单击Vertebrata连接,可进入到脊椎动物的介绍页面,再单击Vertebrata可得到脊椎动物的分类学ID 7742


再次进入到Taxonomy页面,在搜索框中粘贴如7742这个ID。可得到以下的页面

nr3.png

单击右上角send to ,如图

nr4.png

点击creat file 将gi_list 存入到本地,基因ID较多需要花费较长时间。

得到GI list后,使用blast+的工具进行分库

blastdb_aliastool -gilist Vertebrata.gi -db /lustre/guest/bjjszx/nr/nr_database/nr -out Vertebrata_nr -title Vertebrata_nr

运行上述命令,即可得到两个文件

Vertebrata_nr.pal

Vertebrata_nr.p.gil

即可完成对于nr数据库的分库操作。

进行blast比对时,数据库填写成/path/to/Vertebrata_nr即可完成对于脊椎动物库的比对



作者:卡卡哈梅斯
链接:https://www.jianshu.com/p/051f8747ebc2

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐