适用于QIIME2 的预训练UNITE 9.0分类器

之前在某个群里看到有同鞋想要预训练的UNITE(ITS)分类器,刚好在qiime2论坛上靠前的帖子看到了这个,分享一下!

先放上可以直接用的下载地址(贴心地列出了加速网址哦,加速见这篇开发了个在线绘图小站+github加速):

https://ghproxy.com/https://github.com/colinbrislawn/unite-train/releases/download/9.0-qiime2-2023.2-demo/unite_ver9_99_29.11.2022-Q2-2023.2.qza

https://ghproxy.com/https://github.com/colinbrislawn/unite-train/releases/download/9.0-qiime2-2023.2-demo/unite_ver9_99_all_29.11.2022-Q2-2023.2.qza

2021.11以后的版本都有相关下载,如果感觉2023.2版本太新不敢用,可以考虑2021.11到2022年的版本。

为 UNITE 数据库[1]构建 Qiime2[2] 分类分类器的[3]流程

提示:这是一个非官方版本,尚未经过验证。使用风险自负!这是 UNITE 数据库[4] 9.0 版的分类器,经过训练,可与 Qiime2 2023.2[5] 配合使用。这些可以用q2-feature-classifier“数据资源”页面上[6]的类似内容一起使用。

UNITE 在 CC BY-SA 4.0 下获得许可。如果你使用它,引用它!

Abarenkov, Kessy; Zirk, Allan; Piirmann, Timo; Pöhönen, Raivo; Ivanov, Filipp; Nilsson, R. Henrik; Kõljalg, Urmas (2022): UNITE QIIME release for Fungi. Version 16.10.2022. UNITE Community 

DOIs for specific releases are listed here: https://unite.ut.ee/repository.php[7]

变化:

  • 将 Qiime2 更新至 2023.2
  • 仅包含 99% 和“动态”阈值(默认禁用 97%)
  • 现在使用已经存在的命名 conda 环境[8]。这意味着您不会安装重复的 conda 环境,但在运行此流程之前,您必须先安装 Qiime2。如果需要,您仍然可以让此管道管理您的Qiime2 conda env

此处提供了两个级别的分类:

  • “99”,即分类群之间的99%同一性
  • dynamic”,在分类群之间使用97%至99%的同一性,由该领域的专家单独推荐。

有两个分类范围:

  • 只是真菌
  • “all”所有真核生物

有两个版本,带和不带“s”:

  • 包括设置为 RefS 的单例(在动态文件中)。
  • “s”包括全局和 97% 的单例。(我不确定这意味着什么)

日期注意事项:

在 UNITE 主下载页面上[9],版本号 9.0 的发布日期为 2022-10-16。

但是,该 DOI 会导致三个逐渐更新的文件(网页[10]API[11])

  • sh_qiime_release_16.10.2022.tgz
  • sh_qiime_release_27.10.2022.tgz
  • sh_qiime_release_29.11.2022.tgz

使用了最新的文件 (29.11.2022),这就是为什么文件日期比发布日期新的原因。

运行Snakemake的流程

建立:

  • 安装Mambaforge[12]并配置Bioconda[13]
  • 使用推荐的环境名称安装所需的 Qiime2[14] 版本。(为了加快安装速度,可以替换为 。conda``mamba
  • 将 Snakemake[15] 安装到环境中,然后激活该环境。

配置:

  • 打开并根据自己的喜好对其进行配置。(例如,您可能需要更新 Qiime2 环境的名称。config/config.yaml

跑:

snakemake --cores 8 --use-conda --resources mem_mb=10000

这在一般的机器上大约需要 15 个小时

报告:

snakemake --report results/report.html

snakemake --forceall --dag --dryrun | dot -Tpdf > results/dag.pdf

UNITE[16]数据库

当前版本: 9.0;上次更新时间:2022 年 10 月 17 日 (了解更多[17]) ITS 序列数量 (UNITE+INSD): 8 395 383;数字对象标识符为 1.5% 阈值的 UNITE 真菌物种假设数量:290 922 (更多统计数据[18]

UNITE[19] 是一个以真核核糖体 ITS 区域为中心的数据库和序列管理环境。来自国际核苷酸序列数据库协作的所有真核ITS序列都聚类到大约物种水平(物种之间的距离以0.5%为步长),并且所有此类物种假设都被赋予DOI,以促进明确的科学交流和数据组装。用户可以通过多种方式与这些物种假设(SH下同)(例如SH1566366.08FU[20])进行交互,并支持第三方序列和元数据注释。需要注册才能访问随附的冥王星工作台[21]的更强大功能。提供一系列搜索和查询选项,并下载用于本地序列相似性搜索和 HTS 管道的预编译参考数据集。由于UNITE的真菌学根源,有两个版本的释放文件可用:所有真核生物(包括真菌)和仅真菌。UNITE 是一项社区工作,依赖于其用户的科学专业知识——请考虑通过例如注释您的专业知识分类群序列来做出贡献。

官网:https://unite.ut.ee/#main

参考资料

[1]

UNITE 数据库: https://unite.ut.ee/repository.php

[2]

Qiime2: https://qiime2.org/

[3]

分类器的: https://docs.qiime2.org/2021.11/data-resources/

[4]

UNITE 数据库: https://unite.ut.ee/repository.php

[5]

Qiime2 2023.2: https://docs.qiime2.org/2023.2/install/

[6]

“数据资源”页面上: https://docs.qiime2.org/2023.2/data-resources/

[7]

https://unite.ut.ee/repository.php: https://unite.ut.ee/repository.php

[8]

已经存在的命名 conda 环境: https://snakemake.readthedocs.io/en/stable/snakefiles/deployment.html#using-already-existing-named-conda-environments

[9]

UNITE 主下载页面上: https://unite.ut.ee/repository.php

[10]

网页: https://doi.plutof.ut.ee/doi/10.15156/BIO/2483915

[11]

API: https://api.plutof.ut.ee/v1/public/dois/?format=api&identifier=10.15156/BIO/2483915

[12]

Mambaforge: https://github.com/conda-forge/miniforge#mambaforge

[13]

Bioconda: https://bioconda.github.io/

[14]

Qiime2: https://docs.qiime2.org/

[15]

Snakemake: https://snakemake.readthedocs.io/en/stable/getting_started/installation.html

[16]

UNITE: https://unite.ut.ee/index.php

[17]

了解更多: https://unite.ut.ee/#

[18]

更多统计数据: https://unite.ut.ee/statistics.php

[19]

UNITE: https://unite.ut.ee/index.php

[20]

SH1566366.08FU: https://unite.ut.ee/sh/SH1566366.08FU

[21]

冥王星工作台: https://plutof.ut.ee/


本篇文章来源于微信公众号:微因

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注