接着前面的内容,这里再进行下数据库的处理,看看从参考数据库就按测序数据处理是不是能提高物种注释的精度。这里先预报一下,种的分类结果并不能有明显的提升,或许是因为序列长度的缺陷,即使再努力提高技巧,终究不能解决根本的问题,250bp的长度,对比1500bp左右的全长,显然还是太短了,难以实现精确的分类,所以,要想更精确,只有上16S全长,这只能寄望于Pacbio,Oxford Nanopore,和10x linked reads或者类似的技术,比如华大的sLtFR等技术提升读长了。再激进些,等测序成本足够低,上宏基因组,宏转录组了。
前面我们探索了处理不能拼接的V4 PE150数据,首先双向reads根据质量情况分别切成120bp,然后使用dada2 R包进行了直接+10N拼接,生成ASV表,再分别使用dada2包,decipher包和qiime2进行了物种注释,基本上完成了一个最简单的分析过程。这里填下自己之前挖的坑,比较一下这个含有348条序列的样本,qiime2,dada2和的分类器哪个效果更好。
前面我们探索了处理不能拼接的V4 PE150数据,首先双向reads根据质量情况分别切成120bp,然后使用dada2 R包进行了直接+10N拼接,生成ASV表,再分别使用dada2包和qiime2进行了物种注释,基本上完成了一个最简单的分析过程,这里,使用比较流行的phyloseq包进行下多样性分析。
这篇文章这会拿出来重读是因为,我发现有公司以这篇文章的方法做成了一个肠癌早筛产品,就是前段时间发布的以检测7种菌来进行肠癌早筛的产品。不小心找到了这个公司的专利,结合这篇文章一起学习一下。
2019已经与我们擦肩而过,响应jimmy号召,把总结提前到这两天写好。一份总结,可以从多个方面入手,工作的、学习的(一般也和工作内容相关的)、生活的,主要写下学习方面的吧!
最近有需求需要把很多excel里的引物序…
我简单处理了下otu序列和表,使它们能导入qiime2,应该是一行shell代码解决的,shell水平不行,python来顶了。
继续之前[未完成的笔记](https://mp.weixin.qq.com/s/Zw-4DasNB7ZBWmKZGQquow),前面实现了使用qiime2-dada2插件初步探索,结果以无敌的报错失败告终,这里进入R包,更灵活地处理数据,下面是我的详细步骤。
还是接着之前的事说,首先,在researchgte网站上发现了一个小“新大陆”,说可以把不能很好拼接的数据直接N连接处理。这里就先按软件默认的加几个N了,虽然拼接率有3%。。。然后,找到了直接加N的软件,不重复造轮子,自己写拼接脚本还是要费半天时间的,不如用工具,既好又准。
从科研的角度讲,肠道微生物的研究依然大热,cns大作文章层出不穷,带来新的idea和见解,另一方面,微生物产业却道路曲折