生物信息数据分析工具
QIIME(Quantitative Insights Into Microbial Ecology)和MOTHUR是引用最多、应用最广泛的软件。它们都可以用来分析原始测序数据生成OTU/丰度表,并进行不同样本的比较。QIIME2于2018年发布,是一个全新设计和重写的QIIME版本。
QIIME
由Knight实验室开发,设计用来分析微生太系统,可以是细菌、古菌、真菌或者病毒的各种平台的测序数据,包括illumina HiSeq,MIseq,454等。是打包了许多其他软件的一个脚本,其设计目的是让用户从原始数据+实验设计数据生成能用来发表质量的图表和统计。它可以以多种方式分析高通量数据。
MOTHUR
密歇根大学微生物与免疫部门开发,和QIIME使用相同的质量控制参数,同样是开源的命令行工具,也具有类似的数据分析功能。在任何系统发育和基因型的生态分析中,序列聚类(分型)是第一步。MOTHUR除了可以处理qiime能处理的数据,还可以处理Sanger,Pacbio和IonTorrent测序数据,一次是最高引用的16S数据分析软件之一。
使用qiime和mothur分析16S数据
分析16S测序数据,这两个软件有很多共同点,如质控、聚类、分类(物种注释)等。Mothur有一个特别的步骤,所有的序列必须比对到一个模板数据库,任何没有重叠的序列将被移除。一般来说,两个软件的16S数据分析步骤如下:
第一步,质控和过滤
首先,数据前处理,去除低质量序列,这是一个重要的步骤。
第二步,挑选OTU和分配代表序列
qiime最常用的是uclust,使用用户指定的序列相似度参数(如97%),mothur使用类似的方法。
然后就是分配代表序列到物种分类(从头OTU聚类),如通过改变相似度阈值获得科、属和种三级。准确的物种注释需要与基因序列的区域(参考数据库)进行比较获得。
第三步 生成OTU或物种分类表
OTU表是样本观测矩阵,列是样本,行是OTU,而物种分类表列是物种分类(门纲目科属种),行是OTU。由于种种原因,OTU数量总是“膨胀”,因此,为了确保OTU数量正确,需要进行OTU表的过滤。
qiime也可以进行alpha和beta多样性的统计分析。
总结
本章,我们简要介绍了微生物组的定义、概念、发育遗传和宏基因组。然后回顾了DNA测序,特别是NGS技术和宏基因组方法。另外,我们介绍了两个最常用的生信数据分析工具qiime和mothur。