开源工具Protologger:从16S到全基因组的细菌系统分类流程

 

小编导读

微生物研究领域一直面临着大量未命名细菌的困扰。虽然许多新物种已经被分离培养,但由于缺乏有效发表的名称和规范描述,这些菌株的研究和应用受到严重限制。传统的原核生物模式描述(protologue)撰写过程繁琐耗时,需要整合分类学、功能学和生态学等多方面信息。DSMZ研究团队开发的Protologger这一生物信息学工具,通过自动化分析16S rRNA基因序列和基因组数据,能够快速生成撰写模式描述所需的全部信息。Protologger完全开源,提供了网页服务器(http://protologger.de/)和本地部署方案,为微生物学和生物技术领域的研究人员提供了标准化、高效的细菌命名解决方案。

主要结果

Protologger生物信息学工具,能够自动生成撰写详细模式描述所需的所有输出结果。通过使用单个物种的16S rRNA基因和基因组序列,生成多个分类学输出、功能特征和生态分析,大幅缩短了收集描述新分类群所需信息的时间。研究使用三个已发表的分离株集合展示了Protologger的实用性,描述了34个新分类单元,包括17个新种和17个新属,并自动生成了具有生态和功能相关性的名称。研究还强调需要使用多种分类学划分方法,虽然各方法之间存在不一致,但综合方法能够提供稳健的分类定位。该工具将描述新分类单元的工作时间从约10小时缩短至约1小时,为细菌命名提供了标准化、高效的解决方案。

研究方法

Protologger需要输入完整长度的16S rRNA基因序列和基因组组装序列,均为FASTA格式。

  • • 系统首先进行质量检查,使用UCHIME检测嵌合16S rRNA基因序列,使用CheckM评估基因组的完整性和污染程度。
  • • 分类学分析方面,使用BLASTN将16S rRNA基因序列与SILVA Living Tree Project数据库比对,筛选条件为序列相似度大于60%、查询覆盖率大于80%、E值小于10的负25次方,识别50个最相似的物种并计算成对序列相似度。
  • • 基因组分析使用GTDB-Tk进行系统发育定位,FastANI计算平均核苷酸一致性值,自定义Python脚本计算保守蛋白百分比和基因组DNA的GC含量百分比。
  • • 功能分析使用PROKKA提取蛋白质序列,通过PROKKA2KEGG工具获得非冗余的KEGG直系同源物列表,与人工选择的代谢途径进行比较,包括10种碳源利用、短链脂肪酸生物合成、维生素合成等30种不同的生化和生理特征。碳水化合物活性酶注释使用CAZy数据库,抗生素抗性基因检测使用CARD数据库。
  • • 生态分析整合了两个大型数据库,包括来自19个环境的19000个16S rRNA扩增子样本(通过BLASTN比对,相似度97%、OTU覆盖率80%)和来自至少10个环境的49094个高质量宏基因组组装基因组(使用MASH比对,距离阈值小于0.05)。系统使用MUSCLE进行序列比对,FastTree构建系统发育树。
  • • 本地安装需要约100 GB内存和200 GB存储空间,主要用于集成GTDB-Tk及其相关数据库(今年仍在更新)。

软件安装和使用

在线使用


galaxy服务器,就相对容易啦,有一步步的详细指导,只需要上传下序列,剩下的就是等待啦!也可以参见官方录制的说明视频。


个人认为用来画个进化树也是极好的

本地安装

可能只有大批量使用的才有必要啦,步骤如下!

#使用命令创建一个 python3 环境;
conda create -n protologger python=3.7 prokka
# 将 Protologger 安装到此环境中;
conda install -c thitch protologger
# 安装后,必须使用以下命令下载数据库;
setup-protologger.sh
# 确保您已安装 Usearch(版本 5.2.32 是测试版本)并且在您的$PATH中

输出结果

什么是protologues,为什么需要它们?

根据最新版本的《国际原核生物命名法》(ICNP),新类群的出版必须包括对该类群特征的描述。此信息的格式称为“原型”,示例页面上提供了一些示例。虽然 ICNP 对应包含的内容的具体内容含糊不清,但一般来说,原型包括:该物种相对于现有有效命名类群的功能特征、分离来源和分类位置。 因此,Protologger 提供了编写原型的所有必要信息,减轻了微生物培养专家验证新类群名称的负担。

参考

  • • http://protologger.de/
  • • https://github.com/thh32/Protologger
  • • https://doi.org/10.1038/s43705-021-00017-z

 

本篇文章来源于微信公众号:微因

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注