使用纳米孔测序数据进行16S-DNA条形码研究的计算方法[综述] – 赵加栋的个人博客—

摘要

通过对16S核糖体RNA（16S rRNA）基因进行测序来评估细菌多样性已广泛用于环境微生物学中，特别是自从高通量测序技术问世以来。这些技术带来的另一项创新是需要开发新的策略来管理和研究生成的大量测序数据。这种情况刺激了生物信息学领域的快速扩展，发布了新的工具，主要用于使用Illumina技术生成的测序数据的下游分析和解释。近年来，已经开发出第三代测序技术，并已与前一种测序策略并行和互补地应用。尤其是，牛津纳米孔技术公司（ONT）推出了纳米孔测序技术，该技术已在分子生态学家中广为流行。纳米孔技术提供了低廉的价格，便携性和快速的测序通量。这项强大的技术最近已通过16S rRNA分析测试，显示出令人鼓舞的结果。但是，与以前的技术相比，缺乏专门用于分析纳米孔16S序列的生物信息学工具和标准。由于其显著的特征，研究人员最近开始在16S rRNA测序研究中对MinION的适用性进行评估，并获得了显蓍的结果。在这里，我们对应用于微生物组研究的MinION技术的最新进展进行了综述。

1.介绍

微生物群落的功能，相互作用和动力学被认为对生态平衡和生命的存在至关重要[1]，[2]。在实验室条件下只能培养不到1％的微生物这一事实[3]为提供精确的微生物世界规模以及在分类学背景下研究微生物多样性提出了历史限制。

由于分子系统发育的基础是在1960年代和70年代建立的，因此16S rRNA基因已被广泛用于原核生物的分类研究[4]，[5]。16S rRNA是所有原核细胞中存在的小核糖体亚基（SSU）的一部分，该分子的编码基因具有一些独特的特征，使其适于分类学分析：1）它普遍存在，在所有原核生物和古细菌生物中均被发现[6]；2）相对较小（〜1500 bp）和功能的高度保守[5]，3）16S rRNA基因中可变区的存在是物种间进化速度不同的结果，可用于区分不同的细菌群[7]，[8]，以及4）物种中高度保守区的存在。基因序列，可用于设计基因中鉴定出的不同高变区（共9个，V1-V9）侧翼的通用引物[9]。另一方面，使用16S rRNA进行细菌鉴定存在一些局限性，包括细菌基因组中这些基因的拷贝数可变，某些细菌类在物种水平上的分类学分辨力低以及对生物分类的偏好性。序列取决于为分析选择的可变区[10]。

直到1990年代后期，仅在分类学背景下才应用16S rRNA基因来根据从纯净（大多为临床）培养物中获得的单个细菌来唯一地定义物种[6]，[11]。然而，1997年，Pace等人。[12]首次通过使用Sanger测序采用16S rRNA基因的序列，首次描述了无需在实验室中培养的微生物群落的组成。这项工作导致建立了一种研究微生物群落的通用方法。如今，对16S rRNA进行序列分析仍是研究微生物多样性的金标准，可对临床和环境样品中存在的原核生物进行准确的分类学分析[11]。，[12]。

Sanger测序技术在微生物群落研究中的引入标志着微生物生态学领域的一场革命，并彻底改变了评估微生物多样性的方式。但是，这种方法需要分析单个序列，这意味着需要克隆步骤作为研究样品的关键先决条件（图1a）。结果，最多可以生成约1000个碱基的序列。但是，由于Sanger平台的通量（表1），可分析的序列数受到限制。因此，就时间和成本而言，使用Sanger测序对细菌多样性进行全面评估已成为一个严峻的挑战。

图1。各代测序技术最常用的DNA条形码测序策略。（a）第一代测序（Sanger）。在这种方法下，经典条形码编码是通过从环境DNA样品中扩增全长16S rRNA基因来完成的。一旦获得扩增子，就进行16S扩增子的克隆，将序列添加到载体中，然后转化入宿主。最后，通过Sanger方法进行质粒提取和纯化，并对16S rRNA插入片段进行测序。（b）第二代测序（Illumina）。从环境DNA样品中，进行de 16S rRNA基因特定区域的PCR扩增；根据研究范围，可以扩增16S基因的一个或两个区域，其中最常使用的区域是V1-V2和V3-V4；通过使用这些区域，通常使用配对的末端文库（DNA片段与末端连接有接头的DNA片段的混合物，并准备进行测序）制备，接头（与核酸分子连接的外源核酸）测序）和索引（唯一的DNA序列连接到测序文库中的片段，它们允许在同一测序运行中对不同样品进行后验分选和鉴定）添加到16S扩增子极端，最终测序出长度约300 bp的文库在Illumina MiSeq平台上。（c）第三代测序（纳米孔）。这种最近开发的方法开始于使用通用引物从环境DNA扩增全长16S rRNA基因。同时，在同一PCR反应中，将用于多重化的指标添加到扩增子中；一旦扩增子被纯化，就进行文库制备过程，包括在16S扩增子的特定标记区域添加蛋白质（文库制备10分钟）；最后，样品的直接测序在MinION测序仪上进行。

表1。使用DNA条形码方法进行16S宏基因组分析的可用测序平台的比较。

Sequencing Platform	Read Length (bp)	Accuracy	Output	Sequencing Chemistry	Run Time	Advantages in Metabarcoding approaches
Sanger	400–900	99.999%	1.9–84 Kb	Dideoxy chain termination	20 min −3 h	Long read length, high quality
Illumina MiSeq	75–300	99.9%	13.2–20 Gb	Sequencing by Synthesis	21–56 h	High Throughput, read quality
MinION	>200,000	~95%	~50 Gb	Single Sequencing real time-long reads	1–48 h	High Throughput, Long read length, portability
PacBio	10–15 Kb	99.999	5–10 Gb	Single Sequencing real time-long reads	4 h	Long read length and quality

在全球范围内，高通量测序或第二代测序（SGS）技术的出现及其在2000年代初期在实验室中的快速广泛应用代表了微生物生态学的范式转变。这些新技术提供的特征性高输出和数据准确性，以及消除繁琐且耗时的步骤，例如Sanger测序所需的克隆DNA片段和测序产物的电泳分离，使得在短期过程中生成大量测序数据成为可能。在开创高通量测序的不同公司中，Illumina在市场上处于领先地位，已成为标准测序技术，并且是微生物生态学研究中最常使用的技术[13]，[14]。通过该技术生成的序列中的常见元素是长度缩短（从50 bp到300 bp），高通量（从2 Gb到750 Gb），高精度和降低的成本（大约从每Gb 40美元起,译者注应该是Miseq的价格）[15]（表1）。

但是，由于Illumina和Sanger技术在序列长度方面的差异性，单独使用Illumina测序无法获得16S rRNA基因的全长序列。为了克服这一限制，通常使用Illumina进行16S基因分析仅限于16S rRNA的特定可变区，而不是完整的基因（图 1b）。但是，就输出，准确性和速度而言，Illumina测序的显蓍特征使这项技术成为了迄今为止基于16S分析的几乎所有最重要研究的技术，包括人类微生物组计划[16]，地球微生物组计划[17]和极端微生物组计划[18]。

1.1 当前在16S宏基因组学研究中应用的分析方法

高通量测序技术带来的另一项创新是需要新的策略来管理和研究生成的大量测序数据。从用户的角度来看，这种变化涉及从标准计算机中普通用户可访问的基本计算机程序的应用到对需要高级生物信息学技能的复杂计算分析的需求。这种情况刺激了应用于微生物生态学研究的生物信息学领域的迅速扩展，主要是因为发布了用于下游分析和测序数据解释的新工具。如今，有大量强大的工具可用于有效集成不同类型的数据[15]，[16]，[17]。

在这种情况下，目前有几种用于处理扩增子测序数据的生物信息学程序和工具，其中大多数设计用于16S rRNA基因的V3和V4可变区。进行16S扩增子分析的最受欢迎的软件包是QIIME [20]，MOTHUR [21]和Phyloseq [22]。特别是对于16S宏基因组学研究，标准分析软件包和流程通常包括一个工作流程，该流程包括多路分解和质量控制步骤，然后生成操作分类单元（OTU挑选）和/或“扩增子序列变异分析”（ASV）分析，允许对代表性序列进行分类分配和样品的多样性分析（图2）。因此，序列的生物分类分配是关键步骤，也是微生物多样性分析中最有用的元素。

图2 经典流程MOTHUR [21]和QIIME2 [20]及其用于16S rRNA扩增子分析的完整工作流程，“通用过程”流程包含两个流程中的所有通用步骤。

图2显示了16S rRNA Illumina序列最常规工作流程的详细流程。尽管不同程序包之间存在差异，但是工作流中的主要组成部分是模拟的，并且共享一个通用过程，包括：序列的质量控制，聚类或ASV分析，分类分配和多样性分析（图3）。

图3。推荐的MinION 16S rRNA扩增子管线用于细菌多样性分析。[90]，[91]，[92]

2 第三代测序技术

近年来，已经开发了第三代测序（TSG）技术，并已与前一种测序策略并行和互补地使用。这些新技术可以实时检测单个DNA分子，并产生非常长的读取（从1到100 kb）。2011年，太平洋生物科学公司（Pacific Biosciences）引入了首个TSG技术，称为单分子实时测序[19]，[ 20]。新测序仪，特别是Sequel的最新版本，通过将读取长度和每次运行的吞吐量分别增加10倍和100倍，提高了输出。但是，尽管该新平台比以前的版本便宜两倍，但其成本效益仍低于Illumina，因此该平台在16S宏基因组学研究中的应用仍然很少。此外，错误率与第一个PacBio版本相同（〜13％）[25]，并且输出仍然低于Illumina。因此，价格和有限的产量限制了PacBio系统在微生物群落研究中的应用[22]，[23]，[24]（表1）。

2014年，牛津纳米孔技术（ONT）引入了纳米孔测序[28]。纳米孔测序技术是在1980年代末开发的[29]，尽管该测序技术于2012年首次成功使用[30]。该测序技术可直接检测核苷酸，而无需进行主动的DNA合成，因为长链的单链DNA穿过了蛋白质纳米孔，该蛋白质纳米孔稳定在耐电的聚合物膜中[25]，[26]，[ 27]。具体而言，核苷酸检测基于设置跨膜的电压，该电压由传感器组成，该传感器能够实时检测DNA分子通过时占据孔的核苷酸移动的离子电流变化。

运用这一技术，ONT于2014年发布了MinION平台，它具有一些显蓍的优势，例如低价格，便携性和快速测序化学[33]。MinION基本上是支持Flowcell的基础，该Flowcell负责直接测序单个DNA链，这些DNA链可在纳米尺寸的纳米孔中转移到半导体膜中[34]。。MinION纳米孔测序仪最显蓍的特点是Flowcell产生的序列长度和每次运行可产生的数据量。而且，MinION是一种小型测序设备，是当今市场上最小的测序设备，尺寸为10×3×2 cm，重量为87 g。一个特殊的特征是，测序过程不像Illumina和PacBio [35]那样利用次级信号，例如光或pH 。根据制造商的说法，R9.4.5版Flowcell中使用的最新化学试剂可提供约95％的精度，并具有约20 Gb的输出。但是，R9.4.5Flowcell产生的 reads质量仍低于Illumina的 reads，后者的准确性为99.9％（表1）。）。纳米孔reads的典型问题是序列中人为产生的插入和缺失现象频繁出现，这可能为正确分析和解释MinION数据带来一些障碍[32]。

ONT平台的另一个显蓍特点是可以从测序运行开始就进行数据分析，与Illumina平台相比，这可以大大减少分析时间。此外，与目前用于16S宏基因组学研究的其他测序平台相比，与MinION执行的分析相关的成本要低得多（表1）。所有这些特性使MinION成为许多实验室可访问的技术，从而在整个科学界迅速扩展了该技术的使用范围。在此背景下，ONT开发的一个显蓍的原始功能就是“纳米孔社区”，它是ONT网站的一部分。这种“社区”提供了一个公共空间，用户可以在其中获得有关设备性能，方法和生物信息学分析的帮助和反馈。重要的是要注意，还有其他的ONT平台可以产生比MinION平台更多的具有相同特性的测序数据，例如GridION（100 Gb）和PromethION（6 Tb）[30]。

3 纳米孔测序技术在16S rRNA研究中的潜力

纳米孔测序为16S rRNADNA条形码研究带来了第一代和第二代测序的好处。ONT平台会产生长读，从而可以通过快速，廉价和高通量的过程覆盖16S rRNA基因的全长序列（V1-V9区）。全长16S rRNA序列最相关的优势之一是，由于在分析中考虑了16S rRNA基因的所有信息位点，因此它们为细菌鉴定提供了更高的分类学和系统发育分辨率[36]。通过Illumina测序，对16S rRNA进行测序的常规策略使用高变区V1-V2和/或V3-V4[ 37]，并且仅基于大约〜300 bp的16S rRNA基因的这些短可变区来分配分类法。在大多数情况下，对这些短区域的分析提供了有限的分类学分辨率，无法可靠地区分超过属水平的序列[31]，[32]。此外，这些区域的选择将直接影响分类学分配的特异性。例如，在宿主相关研究中，V4区域更好地代表了整个细菌的多样性，而V1-V2对皮肤微生物群的研究更具特异性。此外，当使用16S rRNA基因的不同部分时，不同细菌类别的生物分类学分辨率也不同[40]。相比之下，通过纳米孔测序获得的分辨率仅可与Sanger 16S rRNA测序所提供的水平相提并论，具有在分类群之间更好地区分，更深的系统发生信号以及更准确的16S rRNA纳米孔序列分类学定位的潜力[34]。，[31]，[30]。ONT的另一个优点是，可以在较短的运行时间（1-48小时）内以可承受的价格（每个样本约50美元）生成数据。表1。

如前所述，MinION是当今最受欢迎的ONT平台之一，已被广泛用于基因组学和转录组学研究[35]，[36]，[37]，[38]，[39]，[40]，并且在过去两年中，有关微生物多样性的研究正在迅速发展。但是，尽管在微生物生态学研究中使用ONT技术具有明显的好处，但是仍然有一些因素限制了在微生物多样性的常规分析中采用这些新方法。专门设计用于16S基因全序列的工具的稀缺性使得对纳米孔序列进行专门的分类学分析极为困难。此外，纳米孔16S序列质量有限表示使用其他技术（主要是Illumina）设计的现有工具来分析这些序列的严重限制。

3.1 纳米孔16S宏基因组学研究

使用纳米孔测序来描述微生物多样性的研究通常采用与以前的研究类似的方法，这些研究大多基于Illumina，无论纳米孔产生全长16S序列的事实如何。使用Nanopore，可以使用通用引物（27F和1493R）通过PCR扩增全长16S rRNA基因。通过在扩增子序列中添加接头来制备文库，并使用握在MinION设备上的Flowcell直接对样品进行测序（图 1c）。

作者试图通过使用两个基于PCR步骤的协议来标准化不同的基于16S的扩增子条形码协议，第一个过程是扩增16S rRNA基因，第二个过程是添加用于16S扩增子测序的接头[48]，[49]。另一种策略是基于使用ONT 1D2化学文库制备方法，其中两条DNA链都已测序（类似于Illumina的配对末端测序），通过对目标DNA的两条链进行测序来提高读取质量[50]。尽管在已发表的研究中使用纳米孔测序对16S rRNA-DNA条形码进行了不同的研究，但牛津纳米孔技术公司的16S条形码试剂盒已被广泛使用，并获得了令人满意的结果[41]，[42]，[43]，[44]。

与样品制备相似，引入的用于分析纳米孔16S扩增子的方法学包括多种生物信息学工具。尽管如此，尽管使用了不同的工具，但所有已发表研究的中心过程都是基于分类分配的策略的应用[44]，[43]，[45]，[47]。

3.2 使用纳米孔16S序列进行分类分配

与Illumina相比，缺乏专门用于分析纳米孔16S序列的生物信息学工具和流程。使用最广泛的工具是基于云的数据分析服务EPI2ME（ONT），它提供了许多用于纳米孔16S数据的端到端分析的工作流程：16S分类分类，条形码协议和读取质量过滤器。对于分类分配，将FASTQ文件上载到EPI2ME平台的FASTQ 16S协议上，按质量对reads进行过滤，然后使用BLAST将分类分配给NCBI数据库，最小水平覆盖率为30％，最小精度为77％作为默认参数（ONT）。但是，此工具不是公开可用的，只有ONT客户可以通过网络平台访问此工具。此外，优质的过滤器，适配器修整，缺省情况下，已经配置好了序列号或比对参数（例如同一性和序列的覆盖范围）的设置，并且用户不能修改超出读取质量初始参数的范围。此外，带有分类分配结果的最终输出的格式与执行下游分析（例如多样性和分类差异丰度）的其他工具不兼容。

Cusco [48]使用工具Minimap将映射方法应用于分类学分配，并且能够确定细菌分离株，模拟群落和复杂皮肤样品在属和种水平上的分类学组成。但是，研究表明需要更精确的生物信息学方案以实现更可靠的结果。这项研究的另一个重要结果是，通过分析比16S rRNA基因更长的序列（例如rrn操纵子）（16S rRNA-ITS-23S rRNA； 4500 bp），可以提高分类学的准确性。Kai等使用Minimap2 [54]。[52]报告了物种一级的细菌鉴定，其中超过90％的 reads正确分配给每个物种。Hardegen等人进行的后续研究。[49]使用了基于BLAST的分类，得出的结论是，它们的流程可能适合纳米孔测序中16S rRNA reads的分类分配。爱德华兹等。[51]使用VSEARCH [55]进行分类分配，并在门和科级别达到了〜75 ％的置信度。Ma等人执行了另一种方法。[50]，他们使用RDP分类器[56]进行了分类，并在纯培养中报告了在门和属水平上的平均注释准确度分别为93.8％和82.0％。Mitsuhashi等。[57]使用Centrifuge分析了脓胸患者的模拟胸腔积液[58]和BLAST进行分类分析，使用Centrifuge成功鉴定了模拟社区中存在的所有物种[58]。特纳等。[53]描述了使用Centrifuge[58]进行分类的新入侵奈美球菌属的微生物组，确定了与微生物组相关的2054种。

考虑到所有上述研究，Centrifuge[58]和Minimap [54]已成为纳米孔数据集最常用的分类学分类器[50]，[41]，[44]，[43]和[45]。关于两种生物信息学工具的特性，Centrifuge[58]当使用包含多个高度相似的参考基因组的数据库（例如细菌物种的不同菌株）的数据库时，它能够准确识别 reads。此外，Centrifuge的工作原理是建立一个基因组数据库，在其中识别出这些基因组的独特片段，从而建立一个FM索引（用于全文本模式搜索的压缩数据结构）。此FM索引可用于有效搜索数据库中针对基因组片段的测序 reads。另一方面，Minimap2 [54]是一种通用的比对程序，可将长的DNA序列与参考基因组（例如人，真菌，细菌或病毒基因组）作图。Minimap2比长读作图工具或cDNA作图工具快30倍以上，并且具有更高的准确性，超过了专门用于单一类型比对的大多数比对器。尽管这两种工具均已成功应用于纳米孔数据的分析，但Minimap是专门为绘制长reads而开发的，而Centrifuge则被设计用于宏基因组分析中的更通用目的（针对全基因组数据库的映射）。但是，就参数设置和配置而言，Centrifuge提供了更多种类的模块和多功能性，这可能导致更可靠的分类分配。

其他工具，例如BLASTN，MEGABLAST和LASTZ [52]，[50]也已用于使用Illumina测序的DNA条形码研究中的分类分配。然而，重要的是要强调，由于纳米孔和Illumina reads之间的差异，即由于序列上存在插入和缺失而导致的较长和较差的质量，因此许多此类标准生物信息学工具和管线都不适合与纳米孔数据。在这种情况下，Magi等[60]，[61]已经评估了比对和作图工具，并得出结论，由于这些长序列的大小，高数量和不均匀的错误特征，将纳米孔 reads与数据库作图或比对特别具有挑战性。这项研究还发现，诸如LAST，BWA，BLASR和MarginAlign之类的作图和比对工具对纳米孔数据的处理效率低下，而且这些分析的结果受序列长度的影响很大，因为更长的序列包含更多的错误[53]，[54]，[14]，[46]。此外，Centrifuge已被纳入新工具MINDS [62]中，用于分析纳米孔序列。基于这些研究，已证明Centrifuge和Minimap2是处理纳米孔数据的最合适工具，并且可以认为它们是当前的最佳选择。

另外，分类分配中要考虑的第二个关键方面是数据库的组成，它通常对正确分配给不同分类级别的序列的百分比有很大影响[63]，[64]。迄今为止，很少有可用于微生物鉴定的精选数据库-SILVA [65]，Greengenes [66]，RDP [56]和NCBI [67]最常用于16S研究。SILVA数据库包含细菌，古细菌和Eukarya领域的生物分类信息。它主要基于小亚基rRNA的系统发育（原核生物为16S，真核生物为18S）[64]。它们的分类学层次和等级是根据Bergey的分类学纲要，具有命名法的原核生物名称列表（LPSN）和人工管理建立的[68]。Greengenes是最受欢迎和使用最广泛的数据库，因为它是QIIME流程中的默认数据库。它提供了基于无嵌合，一致的多个序列比对推断的系统发育树的细菌和古细菌分类法，但自2013年5月以来未进行过更新。NCBI分类法包含与提交NCBI序列数据库相关的所有生物的名称。它是根据当前的系统文献手动整理的，使用了150多种资源。它包含一些代表不同生物的重复名称。每个NCBI数据库节点都有一个科学名称，并且可能为其分配了一些同义词。重要的是要注意，这是MinION 16S序列分类文章中使用最多的数据库[57]，[51]，[59]，[53]，[52]。RDP数据库基于细菌，古细菌和真菌（真核生物）的16S rRNA序列。它包含可从国际核苷酸序列数据库合作组织（INSDC）数据库获得的16S rRNA序列。另一个新的数据库是EzBiocloud，它是一个物种级别的分辨率数据库，由61700种/系统型组成，其中包括13132种/系统型，具有有效的名称，以及62362个全基因组装配体，在分类上按属，种和方式分类。亚种水平[69]。

一些作者使用这些数据库评估了分类分配的差异，[64]并且显示出NCBI在序列数量上是更大的，其次是SILVA，RDP和Greengenes。此外，他们发现Silva与NCBI拥有最多的分类单位，而GreenGenes的数据库则较少。此外，只有GreenGenes 和NCBI可以将生物分类分配给物种级别等级，而SILVA仅允许属作为最低等级。重要的是，NCBI数据库并非针对所有微生物组进行管理，并且可能包含16S序列的重复副本，由于某些细菌类的数量过多，这可能会由于高估而导致分类分配上的偏差。这方面的一个示例是NCBI存储库提供的属于病原细菌组的大量可用序列。与临床菌株相比，属于极端环境的序列在NCBI数据库中仍然很稀少，并且在进行分类分配时可能不足。Park＆Won 2018提供了更详细的数据库选择指南[68]。

选择工具的最后考虑因素是输出数据的格式，因为它们不能与应用于下游分析的其他生物信息学工具兼容。这尤其与那些执行统计测试，生成图和对样本中识别出的生物分类图进行比较分析的工具有关。表2总结了使用纳米孔数据进行16S宏基因组学研究的可用工具的不同选择和应用的详细说明。

表2 DNA条形码研究中用于分析Nanopore 16S数据的不同工具。

Analysis approach	Data processes included	Tools used for analysis	Taxonomic Data Base	Reference
Profiling of bacterial communities	Basecalling, Demultiplexing, adapters and barcode trimming, chimera removal, taxonomic assignment	Albacore V2.3.1, Porechop, Yacrd 0.3, Minimap, EPI2ME	NCBI and rrn database	[48]
In field metagenome bacterial community analysis	Basecalling, Demultiplexing, Taxonomic assignment, diversity analysis	Albacore v1.10, SiINTAX, usearch v10.0.240	Ribosomal Database Project	[51]
Rapid bacterial pathogens identification	Basecalling, human reads removal, bacterial reads taxonomic assignment	Albacore 2.2.4, TanTan v13, Minimap2, R	GenomeSync database, NCBI database	[52]
Monitoring microbial of an anaerobic digestion system	Basecalling, Demultiplexing, adapter trimming, Taxonomic assignment	Metrichor, EPI2ME, poRe, Porechop, QIIME, BLAST,	GreenGenes database	[49]
Microbiome characterization	Basecalling, OTU picking, taxonomy assignment.	Metrichor v2.42.2, Poretools, QIIME 1.9. RDP classifier, BLASTn	GreenGenes database	[50]
Microbiome amplicon sequencing workflow	Bassecalling, alignment, re-orientation of reads, de-novo clustering, chimera removal,	Fast5-to-fastq, seqtk, INC-Seq, blastn, Graphmap, POA, chopSeq, nanoClust, R	No taxonomic assignment	[81]

3.3 限制超越纳米孔测序数据进行分类分配

由于大多数已经开发出来分类分配的分析工具只可用于Illumina数据，不能用于纳米孔序列，因此尚未系统地探索使用全长16S rRNA序列的潜在好处。完整的16S基因序列提供的更深的分类学分辨率可以比其他方法[68]，[69]和[70]达到更高的特异性，达到属和种的水平。这种方法已成功应用于工业过程的临床，法医和质量控制中，由于其与医学/人类的相关性，许多待鉴定的微生物在数据库中得到了很好的表示[29]，[61]。

但是，在以前没有研究过微生物群落的其他生态环境中，分类学分配并不总是最好的方法。在这种情况下，生活在这些生境中的最具代表性的微生物可能仍未开发，因此它们的基因组数据不在数据库中，这使得无法对许多 reads进行分类学鉴定。由于数据库主要由16S rRNA基因的片段组成，并且全长序列的存在通常是一个例外，而不是常规，这种情况可能对纳米孔数据更为严峻，这限制了基于完整序列的可靠分类学鉴定基因。另一方面，没有分类分配的大量reads的存在直接影响了对样品中生物多样性的现实测量，从而导致对物种真实数量的低估。在这种情况下，如第2节所述，为克服这些局限性以及由直接分类法读取的 reads引起的偏差，通常将诸如操作分类学单元（OTU）拾取和/或去噪管线之类的方法用于16S Illumina数据分析[71]，[72]，[73] OTU拣选和ASV分析均减少了代表性序列的重复和错误，并允许在无数据库限制的情况下分析细菌群，从而实现了更可靠的分类分配，从而实现了更强大的功能微生物群落的定义（表3）。

表3 用于16S rRNADNA条形码纳米孔数据的生物信息学工具。

Process	Tool	Input file	Programming languages	Available from	Reference
Basecalling	Albacore	Fast5	Python	https://nanoporetech.com/	ONT
	Guppy	Fast5	Python	https://nanoporetech.com/	ONT
	Deep Nano	fast5	Python	https://bitbucket.org/vboza/deepnano	[77]
	Chiron	Fast5	Python	https://github.com/haotianteng/Chiron	[78]

Sequencing report	NanoPlot	fastq, fasta, sequencing_summary (Albacore or guppy basecaller)	Python	https://github.com/wdecoster/NanoPlot	[82]
	pOre	fastq, fasta	R	https://sourceforge.net/projects/rpore/files/	[83]
	pauvre	fastq		https://github.com/conchoecia/pauvre	Github
	poretools	fastq, fast5	Python	https://github.com/arq5x/poretools	[84]

Demultiplexing	Albacore	Fast5	Python	https://nanoporetech.com/	ONT
	qcat	fastq	Python	https://github.com/nanoporetech/qcat	Github
	porechop	fastq, fasta	C++, Python	https://github.com/rrwick/Porechop	Github

Filtering and trimming	NanoFilt	fastq	Python	https://github.com/wdecoster/nanofilt	[82]
	Filtlong	fastq	C++, Python	https://github.com/rrwick/Filtlong	Github
	Porechop	fastq	C++, Python	https://github.com/rrwick/Porechop	Github

Taxonomic assignment	Minimap2	fastq, fasta	C++, Python	https://github.com/lh3/minimap2	[54]
	Wimp	fastq	Cloud-based	https://nanoporetech.com/	ONT
	Centrifuge	fastq, fasta	g++	https://ccb.jhu.edu/software/centrifuge	[58]
	LASTZ	fastq, fasta	g++, python	https://github.com/lastz/lastz	Github

Clustering	NanoClust	USEARCH/VSEARCH format	Python	https://github.com/umerijaz/nanopore/blob/master/nanoCLUST.py	[81]
	CARNAC-LR	paf	C++, Python	https://github.com/kamimrcht/CARNAC-LR	[80]

Data exploration	Pavian	Kraken and MetaPhlan formats	R	https://github.com/fbreitwieser/pavian	[85]
	PHINCH	biom	Cloud-based	https://github.com/PitchInteractiveInc/Phinch	[86]
	Krona	Krona format	–	https://github.com/marbl/Krona/wiki	[87]
	MEGAN6	OTU table	–	http://ab.inf.uni-tuebingen.de/software/megan6/	[88]
	Microbiome Analyst	OTU table, taxonomy table	Cloud-based	https://www.microbiomeanalyst.ca/	[89]

为了执行分类分配和多样性分析，需要执行这些分析（图3）。如前所述，在Illumina测序管线中最常使用DADA2和Deblur之类的工具。但是，由于Nanopore 16S读取的特殊特性（长度和质量），DADA2和Deblur或基于ASV检测的任何其他算法的使用，至今尚无法用于Nanopore数据。通常通过纳米孔测序引入的错误数量（主要是插入/缺失）代表了在reads之间发现相似性的相当大的限制。此外，由于reads质量差而导致的人为序列差异，即使它们来自单一生物体，也可能产生以下效果：将每个 reads识别为单个序列变异体，从而高估了细菌多样性[71]。因此，使用不适当的OTU聚类工具或使用ASV方法对Nanopore reads进行分析可能会提供样品微生物多样性的完全不正确的图片，显示出具有非常不同序列的数据集。

因此，尽管ASV方法是评估细菌多样性的最完整方法，但是它对于纳米孔数据分析是不可行的，唯一可用的选择是基于OTU的聚类方法的应用。然而，当应用最流行的聚类算法[74]，例如UCLUST [75]，VSEARCH [55]或CDHIT [76]时，可以发现与使用ASV识别的局限相似的局限性。在最近的研究中评估了使用流行的流程QIIME分析纳米孔16S序列的情况[50]，表明该工具在OTU选择步骤中失败，这证实了上述将Illumina设计的工具应用于纳米孔数据的问题。通过执行封闭或开放参考OTU聚类，将仅对一小部分数据进行聚类，并且数据集的主要部分将由单例组成，这会导致对样本中细菌多样性的错误高估。

如前所述，读取质量是纳米孔数据分析的最重要限制之一。碱基检出是提高序列质量的最决定性的过程。纳米孔测序基于检测DNA链穿过纳米孔而产生的电流变化。理想情况下，每个基极都应具有特定的电流变化，称为事件。每个事件都通过当前的均值和方差以及事件持续时间进行总结[77]，[51]。将该事件翻译成DNA序列称为碱基检出过程。ONT的原始basecallers使用隐马尔可夫模型（HMM）的基础上，使用机器学习然而当今新的策略在所有的现代纳米孔序列basecallers，如Guppy，DeepNano，和Chiron[77] ，[78] 。这种基于机器学习的碱基识别程序使用可以使用实际测序数据进行训练的神经网络。已经证明，使用机器学习方法可以有效提高纳米孔测序数据的质量，并限制原始数据中常见的碱基修饰，插入和缺失的影响[79]。因此，在纳米孔数据上使用这些新的机器学习方法对于改善序列质量至关重要，并且短期内可能会允许对纳米孔序列进行必要的改进，使其超出16S序列的分类分配范围。

最后要考虑的重要一点是Illumina和Nanopore测序技术产生的读取方向的差异。使用Illumina，从测序开始就定义了读取方向，因此序列都处于相同方向，这极大地促进了生物信息数据分析。测序数据的这种同质性对于比对和聚类至关重要，因为可以更轻松地比较 reads。另一方面，利用纳米孔的一维测序化学，可以将接头连接至DNA模板的一端或两端[71]DNA链以随机方向测序。因此，在碱基检出过程之后，数据集由彼此不互补的正向和反向序列组成。因此，为达到一致的结果，在分析纳米孔数据之前，必须结合一个额外的步骤来评估读取的方向，这一点至关重要。

根据前面各节中讨论的有关使用工具及其在纳米孔序列上的应用的要点，在图3中提出了16S rRNA数据分析的工作流程。

4 。总结与展望

随着现代测序技术的出现，基于微生物16S rRNA基因分析的微生物生态学研究已成为DNA条形码研究中最流行的技术之一。迄今为止，大多数使用纳米孔序列进行的研究均报告了适用范围狭窄的流程，通常使用特定的生物信息学方案来检测特定病原体或目标细菌群或分类群，而无需考虑对样品中存在的整个微生物群落进行分析。但是，当前大多数比对器，聚类算法和工具都无法处理Nanopore数据[74]，这对于进行更全面的Nanopore 16S rRNA数据分析仍然是一个挑战。

由于分类分配带来的潜在偏差，OTU聚类可能代表了更方便的选择。在这方面，为转录组创新簇开发的新工具可能代表了未来的探索选择[66]，[67]。正如一些转录为基础的研究已经与纳米孔进行的，一个可能的替代方法是应用这些品种为工具 de–novo 对源自单个基因的所有转录本进行聚类，并应用相同的策略将样品中16S基因的所有变异聚类。此外，已经开发了其中一些工具来处理纳米孔序列的特定特征，因此，可以用作对来自纳米孔的16S序列实施特定聚类工具的第一种方法。

最后，自从新测序技术的发展以来，数据分析的许多挑战浮出水面。正确使用可用工具有助于扩大对纳米孔的16S数据的使用，以进行微生物成分的首次评估。对于Nanopore，根据该技术的消费者和最终用户的需求，工作主要集中在设计用于碱基识别，样本数据分离和物种分类分配的工具。当然，我们仍处于基因组革命的第一步，未来将为扩展这些技术和开发新一代强大的生物信息学工具带来新的可能性。有关身份，对齐方式，并且还必须评估每个数据集的数据库选择，特别是如果需要在物种级别进行识别的情况下。ONT于2019年发布的Flowcell新版本（R10）采用了一种新的化学方法，将显蓍改善数据的质量和数量，共识精度达到99％，输出50 Gb。纳米孔输出的所有这些发展将为生物信息学分析带来新的挑战，但也将带来革新微生物生态学研究的新机会。

2026 年 3 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

摘要