之前在某个群里看到有同鞋想要预训练的UNITE(ITS)分类器,刚好在qiime2论坛上靠前的帖子看到了这个,分享一下!
先放上可以直接用的下载地址(贴心地列出了加速网址哦,加速见这篇开发了个在线绘图小站+github加速):
https://ghproxy.com/https://github.com/colinbrislawn/unite-train/releases/download/9.0-qiime2-2023.2-demo/unite_ver9_99_29.11.2022-Q2-2023.2.qza
https://ghproxy.com/https://github.com/colinbrislawn/unite-train/releases/download/9.0-qiime2-2023.2-demo/unite_ver9_99_all_29.11.2022-Q2-2023.2.qza
2021.11以后的版本都有相关下载,如果感觉2023.2版本太新不敢用,可以考虑2021.11到2022年的版本。
为 UNITE 数据库[1]构建 Qiime2[2] 分类分类器的[3]流程
提示:这是一个非官方版本,尚未经过验证。使用风险自负!这是 UNITE 数据库[4] 9.0 版的分类器,经过训练,可与 Qiime2 2023.2[5] 配合使用。这些可以用q2-feature-classifier
与“数据资源”页面上[6]的类似内容一起使用。
UNITE 在 CC BY-SA 4.0 下获得许可。如果你使用它,引用它!
“
Abarenkov, Kessy; Zirk, Allan; Piirmann, Timo; Pöhönen, Raivo; Ivanov, Filipp; Nilsson, R. Henrik; Kõljalg, Urmas (2022): UNITE QIIME release for Fungi. Version 16.10.2022. UNITE Community
DOIs for specific releases are listed here: https://unite.ut.ee/repository.php[7]
变化:
-
将 Qiime2 更新至 2023.2 -
仅包含 99% 和“动态”阈值(默认禁用 97%) -
现在使用已经存在的命名 conda 环境[8]。这意味着您不会安装重复的 conda 环境,但在运行此流程之前,您必须先安装 Qiime2。如果需要,您仍然可以让此管道管理您的 Qiime2 conda env
。
此处提供了两个级别的分类:
-
“99”,即分类群之间的99%同一性 -
“dynamic”,在分类群之间使用97%至99%的同一性,由该领域的专家单独推荐。
有两个分类范围:
-
只是真菌 -
“all”所有真核生物
有两个版本,带和不带“s”:
-
包括设置为 RefS 的单例(在动态文件中)。 -
“s”包括全局和 97% 的单例。(我不确定这意味着什么)
日期注意事项:
在 UNITE 主下载页面上[9],版本号 9.0 的发布日期为 2022-10-16。
但是,该 DOI 会导致三个逐渐更新的文件(网页[10]、API[11])
-
sh_qiime_release_16.10.2022.tgz -
sh_qiime_release_27.10.2022.tgz -
sh_qiime_release_29.11.2022.tgz
使用了最新的文件 (29.11.2022),这就是为什么文件日期比发布日期新的原因。
运行Snakemake的流程
建立:
-
安装Mambaforge[12]并配置Bioconda[13]。 -
使用推荐的环境名称安装所需的 Qiime2[14] 版本。(为了加快安装速度,可以替换为 。 conda``mamba
-
将 Snakemake[15] 安装到环境中,然后激活该环境。
配置:
-
打开并根据自己的喜好对其进行配置。(例如,您可能需要更新 Qiime2 环境的名称。 config/config.yaml
跑:
snakemake --cores 8 --use-conda --resources mem_mb=10000
这在一般的机器上大约需要 15 个小时
报告:
snakemake --report results/report.html
snakemake --forceall --dag --dryrun | dot -Tpdf > results/dag.pdf
UNITE[16]数据库
当前版本: 9.0;上次更新时间:2022 年 10 月 17 日 (了解更多[17]) ITS 序列数量 (UNITE+INSD): 8 395 383;数字对象标识符为 1.5% 阈值的 UNITE 真菌物种假设数量:290 922 (更多统计数据[18])
UNITE[19] 是一个以真核核糖体 ITS 区域为中心的数据库和序列管理环境。来自国际核苷酸序列数据库协作的所有真核ITS序列都聚类到大约物种水平(物种之间的距离以0.5%为步长),并且所有此类物种假设都被赋予DOI,以促进明确的科学交流和数据组装。用户可以通过多种方式与这些物种假设(SH下同)(例如SH1566366.08FU[20])进行交互,并支持第三方序列和元数据注释。需要注册才能访问随附的冥王星工作台[21]的更强大功能。提供一系列搜索和查询选项,并下载用于本地序列相似性搜索和 HTS 管道的预编译参考数据集。由于UNITE的真菌学根源,有两个版本的释放文件可用:所有真核生物(包括真菌)和仅真菌。UNITE 是一项社区工作,依赖于其用户的科学专业知识——请考虑通过例如注释您的专业知识分类群序列来做出贡献。
官网:https://unite.ut.ee/#main
参考资料
UNITE 数据库: https://unite.ut.ee/repository.php
[2]Qiime2: https://qiime2.org/
[3]分类器的: https://docs.qiime2.org/2021.11/data-resources/
[4]UNITE 数据库: https://unite.ut.ee/repository.php
[5]Qiime2 2023.2: https://docs.qiime2.org/2023.2/install/
[6]“数据资源”页面上: https://docs.qiime2.org/2023.2/data-resources/
[7]https://unite.ut.ee/repository.php: https://unite.ut.ee/repository.php
[8]已经存在的命名 conda 环境: https://snakemake.readthedocs.io/en/stable/snakefiles/deployment.html#using-already-existing-named-conda-environments
[9]UNITE 主下载页面上: https://unite.ut.ee/repository.php
[10]网页: https://doi.plutof.ut.ee/doi/10.15156/BIO/2483915
[11]API: https://api.plutof.ut.ee/v1/public/dois/?format=api&identifier=10.15156/BIO/2483915
[12]Mambaforge: https://github.com/conda-forge/miniforge#mambaforge
[13]Bioconda: https://bioconda.github.io/
[14]Qiime2: https://docs.qiime2.org/
[15]Snakemake: https://snakemake.readthedocs.io/en/stable/getting_started/installation.html
[16]UNITE: https://unite.ut.ee/index.php
[17]了解更多: https://unite.ut.ee/#
[18]更多统计数据: https://unite.ut.ee/statistics.php
[19]UNITE: https://unite.ut.ee/index.php
[20]SH1566366.08FU: https://unite.ut.ee/sh/SH1566366.08FU
[21]冥王星工作台: https://plutof.ut.ee/
本篇文章来源于微信公众号:微因