前面提到,已经有家公司通过宏转录组(Metatranscriptomics)测序检测肠道微生物,面向消费者提供检测服务。对宏转录组充满了好奇,有这样的比方说,**宏基因组可以告诉我们这个微生物群落可能有什么样的功能(潜能),宏转录组就是告诉我们群落正在做什么**,相比宏基因组的眉毛胡子一把抓,宏转录组是更针对当下的结果。由于测序的目标序列少了很多,结果不是变态大,对计算机的配置要求也相对降低。苦于想学宏基因组暂时没有服务器的我,就退而求其次试试宏转录组了,相信不会让我失望。之前学习过单转录组数据的分析,一般的笔记本(双核,8g ram)扛了下来。鉴于中文网络上能找到的宏转录组教程基本没有,只在Github上搜索到两个,选其中一个学习下。
本教程将带您完成处理宏转录组数据的流程。
到目前为止,我们已经完成了所有工作,并复制并粘贴了许多命令来完成所需的操作。这可行!但是也可能很耗时,并且更容易出错。接下来,我们将向你展示如何将所有这些命令放入Shell脚本中。
QIIME 2 2020.2 更新踩着2月的尾巴来了!疫情仍在,学习的好时光呀,加油!这次更新有一些小的命令更改,已经把需要关注的重点更新突出显示。官方提醒下一次的更新发布是QIIME 2 2020.5,请持续关注更新。
前面做的许多处理基本上自己拼凑来的,下面再看下完整解决方案。researchgate网站上有人说qiime1版本有这个双向数据配对不拼接的选项?这个没找到。主要发现了有两个方案,一个是有篇文章提出了一个流程*Hybrid-denovo*,还有一篇peer review的文章,几个人评议还有一个人不同意,anyway,都看下。
最近这波疫情,重现当年初中非典时期,甚至愈演愈烈,与之前初中时的封校住宿学习不同,已经工作的今天和太多的互联网信息大爆炸让我们有些焦虑,特别是,作为学习生物的人,我们也感到无能为力。官方媒体的科普,已经让大家对这个病毒的具体情况有所了解。我注意到,NJEM也已经把许多文章翻译成了中文版,以正视听。在这个时候,我们不能听信谣言!那么作为有些生物学素养的我们,也应该以自己的知识,学习下这个病毒的信息,以我们自己的理解!
接着前面的内容,这里再进行下数据库的处理,看看从参考数据库就按测序数据处理是不是能提高物种注释的精度。这里先预报一下,种的分类结果并不能有明显的提升,或许是因为序列长度的缺陷,即使再努力提高技巧,终究不能解决根本的问题,250bp的长度,对比1500bp左右的全长,显然还是太短了,难以实现精确的分类,所以,要想更精确,只有上16S全长,这只能寄望于Pacbio,Oxford Nanopore,和10x linked reads或者类似的技术,比如华大的sLtFR等技术提升读长了。再激进些,等测序成本足够低,上宏基因组,宏转录组了。
前面我们探索了处理不能拼接的V4 PE150数据,首先双向reads根据质量情况分别切成120bp,然后使用dada2 R包进行了直接+10N拼接,生成ASV表,再分别使用dada2包,decipher包和qiime2进行了物种注释,基本上完成了一个最简单的分析过程。这里填下自己之前挖的坑,比较一下这个含有348条序列的样本,qiime2,dada2和的分类器哪个效果更好。
前面我们探索了处理不能拼接的V4 PE150数据,首先双向reads根据质量情况分别切成120bp,然后使用dada2 R包进行了直接+10N拼接,生成ASV表,再分别使用dada2包和qiime2进行了物种注释,基本上完成了一个最简单的分析过程,这里,使用比较流行的phyloseq包进行下多样性分析。
我简单处理了下otu序列和表,使它们能导入qiime2,应该是一行shell代码解决的,shell水平不行,python来顶了。