宏基因组学习笔记2

宏基因组

1.定义

metagenomics，在希腊语中meta意思是超越的。宏基因组研究的目的是通过对菌种（株）的鉴定，获得真实的多样性数据，功能，协作和进化。宏基因组分析的三个任务是物种分析（它们是谁），功能分析（能干什么，潜力），比较分析（怎么比较它们）。

2.优缺点

优点：
– 1.不仅是群落组成信息，还可以有不同环境中微生物的功能信息，是解释疾病等假说的有力工具。可以分析物种内的基因异质性。
– 2.可能是无偏好性的，更有可能检测罕见或新的物种和物种组成的细微变化。
– 3.可以通过基因把物种确定到菌株的水平。

3.数据分析

有两种方法，一种是基于reads比对的，另一种是基于序列组装的。前者适合进行物种组成、宏基因组功能和代谢途径分析；后者可以进行物种分类和基因功能预测。

取样

首先是序列打断成合适的长度，加接头。然后，片段大小选择和去除无接头的序列。最后，PCR选择有双端接头的，保证有足够的文库序列量。
上面方法多少还是有些偏好性，直接测序方法可以避免，但是还不够成熟。

DNA提取

不同于16S的扩增为目的，宏基因组测序样本DNA提取量要足够。

质控

组装

把reads组装成contigs，将会使下游分析变得轻松。有两种组装方法，基于参考的组装和从头组装。
基于参考的组装，首先要有一个相近的参考基因组。如果有大的插入、缺失或者多态性，效果会很差。相比de-nova组装，耗计算资源少些，更小的运行内存和时间。
有许多组装软件，各有千秋。几个技术性的问题是，1）没有参考基因组比较组装结果；2）组装取决于有没有相近的基因组；3）另外，组装也受测序深度的影响。因此，组装软件的开发还处于初级阶段。

分箱

把reads、contigs分类成组，每组可能代表一个个体的基因组或者相近个体的基因组。组装一个完整的基因组（环）是有难度的。注：现在纳米孔测序是可以实现的。
有几个分箱方法，最有常用的是基于组成的、完全基于相似度的方法。也有同时使用两者的混合方法，以及分级聚类、测序深度等其他方法。
因为不同物种有不同的保守核酸序列，可以映射到不同的物种参考基因组，GC含量以及K-mers等也不同，所以可以分箱。基于相似度的分箱，看序列与参考数据库的相似性来分。基因组和物种分类分箱工具都有，不同工具在重现基因组、样本分类准确性、平均分箱完整度和纯度（物种分类分箱）、低丰度物种的表现不同。
分箱有几个问题：
– 短reads影响两种分箱方法的效果。
– chimeric分箱，以及菌株水平的多样性比较难。

注释

基因组和宏基因组功能注释
前者用组装的长contigs注释，后者以未组装的reads或短contigs注释。注释用的工具主要有RAST、IMG等。
基因预测和功能注翻
注释这个过程主要分两步，也就是基因预测和功能注释，主要是鉴定基因、蛋白和RNA。和单个基因组功能注翻类似，分配假定基因功能和邻近分类，但只有不到一半的宏基因组数据能被注释。这主要是以下几个原因：

注翻取决于与现有的数据库的比较，由于读长短以及临近分类相似度低；另外，新的基因不能被鉴定。
这个过程复杂，蛋白一般是片段化的，而且读长短，也增加了难度。
如果一个基因在不同生态中有不同功能，这个基因的生重要性是难以了解的。

难点

技术上的，过程复杂，大的数据量意味着大的计算量，会存在宿主基因，需要专门的工具过滤，容易污染。
对于与已有的分类和群落非常不同的，难以得到可靠结果。
成本较高，物别是宿主基因占比过大的话。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文章

宏基因组

1.定义

2.优缺点

3.数据分析

取样

DNA提取

质控

组装

分箱

注释

难点

发表回复取消回复

宏基因组

1.定义

2.优缺点

3.数据分析

取样

DNA提取

质控

组装

分箱

注释

难点

发表回复 取消回复

发表回复取消回复