宏基因组学习笔记1

一直以来，看到这本书《Statistical Analysis of Microbiome Data with R》活跃在朋友圈和公众号，既然口碑这么好，当然有必要学习下啦！分享记录一下书中我所认为重要的点。

第一章宏基因组数据的生物信息分析

这章的内容基本上是概论和综述，不过读读同样有收获的，毕竟大牛写的书，认知还是比我水平高很多的。

16S

1.几个概念

人类微生物组的概念，这里首先谈了microbiota和miceobiome两个词的区别，前者是指一个特定环境中的群落微生物物种，后者是物种和他们的基因的集合。

一代和二代测序相关的内容就没有多少新知识了，毕竟书的编辑时间在2016年左右，许多知识还停留在以前，这里略过。

关于特种分类方面，涉及了系统发生学（Phylogenetics）的概念，作者从林奈的拉丁文双名法，说到了界门纲目科属种，以及在这之上的Domain(域)的概念，这个好像用得不多，应该是分类水平太高了。

OTU的定义，一般是97%相似度为界，因为同一种的16S相似度在97%以上，相应地，属在5%，门在20%，这个现在这有争议。在某些时候，OTU被认为“等同”于种。

2. 16S测序的优缺点

优点是：

1）16S基因的广泛存在性，方便。
2）具有保守区和可变区，方便设计通用引物扩增片段并测序。
3）有学者设计的优秀引物
4）有较完备的数据库
5）价格便宜，流程相对成熟

缺点是：

1）PCR有扩增的偏好性
2）会过高估计多样性
3）不能直接获得功能相关信息
4）无法用来研究新物种
5）流程缺乏“金标准”

3.几点额外收获

1.相比样本直接提取，放-80冰箱后检测，厚壁菌门/拟杆菌门的比例会增加。我认为应该是厚壁菌门较多是革兰氏阳性菌，冻过后破壁率增加，更易提取？

4.质量控制

1.识别和去除人工嵌合体序列（以前是根据参考数据库处理，现在大多云噪了吧）。
2.去除低质量和过短的序列
3.去除测序错误（也是降噪）

5.OTU聚类

两个方法分别是基于系统发生学的方法和基于相似性的方法。前者依赖于一个完备的数据库，算力消耗小（说实话如果样本量不是太多不会消耗太多算力，普通笔记本电脑足够啦），分类稳定，但是不能分析新物种。后者克服了这个缺点，相应的缺点就是耗费计算资源，相对慢，大内存（RAM)，主流研究都是采用这个方法的。

6.为什么用OTU做分析单元

有几个聚类方法可以完成聚类OTU，平均邻接（average neighbour）算法是最具鲁棒性的。OTU是否代表一个独特地序列在生物信息学上还是以个难题，有以下几个原因：
– 1.这些等级的相似度阀值没有经历过严格的测试。
– 2.序列独立于参考数据库构建OTU，可能把不同的分类放在同一个OTU里
– 3.只根据OTU估计样本多样性会夸大结果

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文章

第一章宏基因组数据的生物信息分析

16S

1.几个概念

2. 16S测序的优缺点

3.几点额外收获

4.质量控制

5.OTU聚类

6.为什么用OTU做分析单元

发表回复取消回复

第一章 宏基因组数据的生物信息分析

16S

1.几个概念

2. 16S测序的优缺点

3.几点额外收获

4.质量控制

5.OTU聚类

6.为什么用OTU做分析单元

发表回复 取消回复

第一章宏基因组数据的生物信息分析

发表回复取消回复