宏基因组学习笔记2

宏基因组

1.定义

metagenomics, 在希腊语中meta意思是超越的。宏基因组研究的目的是通过对菌种(株)的鉴定,获得真实的多样性数据,功能,协作和进化。宏基因组分析的三个任务是物种分析(它们是谁),功能分析(能干什么,潜力),比较分析(怎么比较它们)。

2.优缺点

优点:
– 1.不仅是群落组成信息,还可以有不同环境中微生物的功能信息,是解释疾病等假说的有力工具。可以分析物种内的基因异质性。
– 2.可能是无偏好性的,更有可能检测罕见或新的物种和物种组成的细微变化。
– 3.可以通过基因把物种确定到菌株的水平。

3.数据分析

有两种方法,一种是基于reads比对的,另一种是基于序列组装的。前者适合进行物种组成、宏基因组功能和代谢途径分析;后者可以进行物种分类和基因功能预测。

取样

首先是序列打断成合适的长度,加接头。然后,片段大小选择和去除无接头的序列。最后,PCR选择有双端接头的,保证有足够的文库序列量。
上面方法多少还是有些偏好性,直接测序方法可以避免,但是还不够成熟。

DNA提取

不同于16S的扩增为目的,宏基因组测序样本DNA提取量要足够。

质控
组装

把reads组装成contigs,将会使下游分析变得轻松。有两种组装方法,基于参考的组装和从头组装。
基于参考的组装,首先要有一个相近的参考基因组。如果有大的插入、缺失或者多态性,效果会很差。相比de-nova组装,耗计算资源少些,更小的运行内存和时间。
有许多组装软件,各有千秋。几个技术性的问题是,1)没有参考基因组比较组装结果;2)组装取决于有没有相近的基因组;3)另外,组装也受测序深度的影响。因此,组装软件的开发还处于初级阶段。

分箱

把reads、contigs分类成组,每组可能代表一个个体的基因组或者相近个体的基因组。组装一个完整的基因组(环)是有难度的。注:现在纳米孔测序是可以实现的。
有几个分箱方法,最有常用的是基于组成的、完全基于相似度的方法。也有同时使用两者的混合方法,以及分级聚类、测序深度等其他方法。
因为不同物种有不同的保守核酸序列,可以映射到不同的物种参考基因组,GC含量以及K-mers等也不同,所以可以分箱。基于相似度的分箱,看序列与参考数据库的相似性来分。基因组和物种分类分箱工具都有,不同工具在重现基因组、样本分类准确性、平均分箱完整度和纯度(物种分类分箱)、低丰度物种的表现不同。
分箱有几个问题:
– 短reads影响两种分箱方法的效果。
– chimeric分箱,以及菌株水平的多样性比较难。

注释

基因组和宏基因组功能注释
前者用组装的长contigs注释,后者以未组装的reads或短contigs注释。注释用的工具主要有RAST、IMG等。
基因预测和功能注翻
注释这个过程主要分两步,也就是基因预测和功能注释,主要是鉴定基因、蛋白和RNA。和单个基因组功能注翻类似,分配假定基因功能和邻近分类,但只有不到一半的宏基因组数据能被注释。这主要是以下几个原因:

  • 注翻取决于与现有的数据库的比较,由于读长短以及临近分类相似度低;另外,新的基因不能被鉴定。
  • 这个过程复杂,蛋白一般是片段化的,而且读长短,也增加了难度。
  • 如果一个基因在不同生态中有不同功能,这个基因的生重要性是难以了解的。
难点
  • 技术上的,过程复杂,大的数据量意味着大的计算量,会存在宿主基因,需要专门的工具过滤,容易污染。
  • 对于与已有的分类和群落非常不同的,难以得到可靠结果。
  • 成本较高,物别是宿主基因占比过大的话。

发表评论