宏基因组学习笔记1

一直以来,看到这本书《Statistical Analysis of Microbiome Data with R》活跃在朋友圈和公众号,既然口碑这么好,当然有必要学习下啦!分享记录一下书中我所认为重要的点。

第一章 宏基因组数据的生物信息分析

这章的内容基本上是概论和综述,不过读读同样有收获的,毕竟大牛写的书,认知还是比我水平高很多的。

16S

1.几个概念

人类微生物组的概念,这里首先谈了microbiota和miceobiome两个词的区别,前者是指一个特定环境中的群落微生物物种,后者是物种和他们的基因的集合。

一代和二代测序相关的内容就没有多少新知识了,毕竟书的编辑时间在2016年左右,许多知识还停留在以前,这里略过。

关于特种分类方面,涉及了系统发生学(Phylogenetics)的概念,作者从林奈的拉丁文双名法,说到了界门纲目科属种,以及在这之上的Domain(域)的概念,这个好像用得不多,应该是分类水平太高了。

OTU的定义,一般是97%相似度为界,因为同一种的16S相似度在97%以上,相应地,属在5%,门在20%,这个现在这有争议。在某些时候,OTU被认为“等同”于种。

2. 16S测序的优缺点

优点是:

  • 1)16S基因的广泛存在性,方便。
  • 2)具有保守区和可变区,方便设计通用引物扩增片段并测序。
  • 3)有学者设计的优秀引物
  • 4)有较完备的数据库
  • 5)价格便宜,流程相对成熟

缺点是:

  • 1)PCR有扩增的偏好性
  • 2)会过高估计多样性
  • 3)不能直接获得功能相关信息
  • 4)无法用来研究新物种
  • 5)流程缺乏“金标准”

3.几点额外收获

1.相比样本直接提取,放-80冰箱后检测,厚壁菌门/拟杆菌门的比例会增加。我认为应该是厚壁菌门较多是革兰氏阳性菌,冻过后破壁率增加,更易提取?

4.质量控制

1.识别和去除人工嵌合体序列(以前是根据参考数据库处理,现在大多云噪了吧)。
2.去除低质量和过短的序列
3.去除测序错误(也是降噪)

5.OTU聚类

两个方法分别是基于系统发生学的方法和基于相似性的方法。前者依赖于一个完备的数据库,算力消耗小(说实话如果样本量不是太多不会消耗太多算力,普通笔记本电脑足够啦),分类稳定,但是不能分析新物种。后者克服了这个缺点,相应的缺点就是耗费计算资源,相对慢,大内存(RAM),主流研究都是采用这个方法的。

6.为什么用OTU做分析单元

有几个聚类方法可以完成聚类OTU,平均邻接(average neighbour)算法是最具鲁棒性的。OTU是否代表一个独特地序列在生物信息学上还是以个难题,有以下几个原因:
– 1.这些等级的相似度阀值没有经历过严格的测试。
– 2.序列独立于参考数据库构建OTU,可能把不同的分类放在同一个OTU里
– 3.只根据OTU估计样本多样性会夸大结果

发表评论