qiime2自建数据库进行物种注释
SynCom接种植物体系之后,为了研究它们的动态变化,扩增子是简单可行的方法,这也在
science
: Coordination between microbiota and root endodermis supports plant mineral nutrient homeostasis,nature
A single bacterial genus maintains root growth in a complex microbiome中都有采用。但是作者只是一两句话带过分析的流程,摸索了一下,挺简单的,主线就是:前期数据拆分、质控、去噪 >> 得到代表性序列 >> 比对到自己构建的含有序列信息和物种注释信息的数据库 >> 可视化
记下来详细步骤:
- 准备文件: 自己测的16S全长序列,保存为fasta格式,如下:
序列的注释信息
- 导入数据
qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path ref-seqs.fa \
--output-path ref-seqs.qza
qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path ref-taxonomy.txt \
--output-path ref-taxonomy.qza
- 提取序列:根据你测的SynCom区选择需要提取的序列,用于后续分类器的训练,我这里是
V3-V4 区 (338F (5’-ACTCCTACGGGAGGCAGCA-3’) / 806R (5’-GGACTACHVGGGTWTCTAAT-3’))
参数就是字面意思,不解释了
qiime feature-classifier extract-reads \
--i-sequences seq.qza \
--p-f-primer ACTCCTACGGGAGGCAGCA \
--p-r-primer GGACTACHVGGGTWTCTAAT \
--p-trunc-len 460 \
--p-min-length 400 \
--p-max-length 480 \
--o-reads ref-seqs.qza
虽然--p-trunc-len
我们指定的是460,但是它会智能的根据引物来截取,最终得到的序列是430bp左右
- 训练分类器
qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads ref-seqs.qza \
--i-reference-taxonomy ref-taxonomy.qza \
--o-classifier classifier.qza
- 最后,测试一下分类效果,
rep-seqs.qza
由前期质控去噪得到
qiime feature-classifier classify-sklearn \
--i-classifier classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
#可选
qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
- 柱状图可视化:
table.qza
由前期质控去噪得到,sample-metadata.tsv
如下:
qiime taxa barplot --i-table table.qza \
--i-taxonomy taxonomy.qza \
--m-metadata-file sample-metadata.tsv \
--o-visualization taxa-bar-plots.qzv
完成
参考:
https://docs.qiime2.org/2020.11/tutorials/feature-classifier/
作者:kkkkkkang
原文链接:https://www.jianshu.com/p/c45f38e1e3c2