最近学习肠道微生物方面的知识,有一部分测序数据需要学习分析。鉴于qiime已经升级为qiime2,还有了图形版本,真是越来越人性化了,但是图形版本还处于原型阶段,测试安装两次以失败告终,可能是我的系统是deepin,通用性不好,如果在原生的ubuntu或许可以安装成功。话说qiime2已经在今年1月份代替qiime1成为官方支持版本,qiime1已经停止维护了,我表示对于我这种几乎没有qiime1使用经验的人来说,直接上手qiime2也不错。
我的理解中,qiime2最大的区别除了从python2进化到python3,还有一个新的数据格式qza,这又多了一步数据格式导入和转换的步骤。我想官方做出这一选择肯定是有他的道理的,应该是更易用了,毕竟都开始上图形界面了。
下面是我的pipeline学习笔记:
1.样本表的获得
开始我参考的是微信公众号 统计咨询 的《肠道菌群研究 – 从生物信息分析开始(内含代码)》。但是发现样本表的文件名已经变成了样本文件所在文件夹名+mainifest,而我的文件名还是csv的。。。。。。ps.我的shell水平几乎没有,于是用python代替,虽然简单问题有点复杂化了。
import os path = '/home/zjd/qiime2/test' fout = open('%s-manifest' % path,'w') fout.write("sample-id,absolute-filepath,direction" + '\n') #path = '/home/zjd/qiime2/test' for i in os.listdir(path): if 'R1.fastq.gz' in i: sample_id = i.split('__R1')[0] fout.write(str(sample_id) + ',' + path + '/' + sample_id + '__R1.fastq.gz' +',' + 'forward' + '\n') fout.write(str(sample_id) + ',' + path + '/' + sample_id + '__R2.fastq.gz' +',' + 'reverse' + '\n') fout.close()
获得的文件内容类似于:
sample-id,absolute-filepath,direction XK-27F-10,/home/zjd/16s/test/XK-27F-10_1.fastq.gz,forward XK-27F-10,/home/zjd/16s/test/XK-27F-10_2.fastq.gz,reverse
2.导入数据
#然后,是qiime正式的第一步,导入数据,转换成qza格式。 qiime tools import \ --type 'SampleData[PairedEndSequencesWithQuality]' \ --input-path test-manifest \ --output-path test.qza \ --source-format PairedEndFastqManifestPhred33
据说phred64的数据处理起来特别慢,要提前转换。这个过程一个单样本时间只花了几十秒大概。
关于 “qiime2学习笔记(一)” 的 1 个意见