一个ubiome原始数据分析学习记录

最近在github上找到一个ubiome的原始数据,包含多个身体部位的,尝试分析一下,看看能获得什么结果。经历了那么多的安装坑,发现还是docker的安装方式最方便有效、节省时间,特别是换上国内的加速源之后。虚拟机太占资源,而且总感觉虚拟机不够真实,conda安装完竟然也总是报错,特别是更新2个月一次如此频繁的qiime2。

1.docker安装qiime2

#安装docker
sudo apt-get install \
     apt-transport-https \
     ca-certificates \
     curl \
     gnupg2 \
     software-properties-common
curl -fsSL https://download.docker.com/linux/debian/gpg | sudo apt-key add -
sudo add-apt-repository \
    "deb [arch=amd64] https://download.docker.com/linux/ubuntu \
    $(lsb_release -cs) \
   stable"
sudo apt-get update
sudo apt-get install docker-ce
#更新国内DaoCloud 加速源,看教程也有阿里云的
https://www.daocloud.io/mirror#accelerator-doc
##将用户添加到docker组 ,方便使用
#非root用户,不需要使用sudo使用docker,需要将用户添加到docker组sudo groupadd docker
sudo gpasswd -a 用户名 docker
sudo service docker restart
#摘取qiime镜像
sudo docker pull qiime2/core
sudo docker run -t -i --rm -v $(pwd):/data qiime2/core

这里我们在docker里的工作目录就变成了/data,然后数据的绝对目录就是/data/microbiome

2.原始数据的稍微处理

#首先,下载这些数据:
git clone https://github.com/gedankenstuecke/microbiome.git
cd microbiome
#把最近更新的一次数据的正反向文件合并
gunzip ssr_23172__R1*_*
cat  ssr_23172__R1* >> ssr_23172__R1.fastq
cat  ssr_23172__R2* >> ssr_23172__R2.fastq
gzip ssr_23172__R*_*

3.获取manifest文件

用我之前的python脚本得到,参见https://jiawen.zd200572.com/278.html

4.导入数据

qiime tools import  \
 --type 'SampleData[PairedEndSequencesWithQuality]'  \
 --input-path microbiome-manifest  \
 --output-path microbiome.qza  \
 --source-format PairedEndFastqManifestPhred33

5.序列质控及Feature表构建

## quality control #visualization 
qiime demux summarize \
 --i-data microbiome.qza\
 --o-visualization microbiome.qzv
 ##filter 聚类
 qiime dada2 denoise-paired \
 --i-demultiplexed-seqs microbiome.qza \ 
--p-trunc-len-f 0 \
 --p-trunc-len-r 0 \
 --o-representative-sequences rep-seqs-dada2.qza #输出feature表代表序列
 --o-table table-dada2.qza \ #输出表 
--p-n-threads 4 #36线程,服务器是4线程的
 #qzv 可视化 qiime feature-table summarize \
 --i-table table-dada2.qza \
 --o-visualization table-dada2.qzv
#代表序列统计
qiime feature-table tabulate-seqs \
--i-data rep-seqs-dada2.qza \
--o-visualization rep-seqs.qzv
qiime tools view rep-seqs.qzv

6.建树,用于多样性分析

# 多序列比对
qiime alignment mafft \
  --i-sequences rep-seqs.qza \
  --o-alignment aligned-rep-seqs.qza
# 移除高变区
qiime alignment mask \
  --i-alignment aligned-rep-seqs.qza \
  --o-masked-alignment masked-aligned-rep-seqs.qza
# 建树
qiime phylogeny fasttree \
  --i-alignment masked-aligned-rep-seqs.qza \
  --o-tree unrooted-tree.qza
# 无根树转换为有根树
qiime phylogeny midpoint-root \
  --i-tree unrooted-tree.qza \
  --o-rooted-tree rooted-tree.qza

7.alpha多样性

qiime diversity core-metrics \
  --i-phylogeny rooted-tree.qza \
  --i-table table.qza \
  --p-sampling-depth 1080 \
  --output-dir core-metrics-results
qiime feature-classifier classify-sklearn \
--i-classifier gg-13-8-99-515-806-nb-classifier.qza \
--i-reads rep-seqs-dada2.qza \
--o-classification taxonomy.qza

qiime metadata tabulate \
  --m-input-file taxonomy.qza \
  --o-visualization taxonomy.qzv

 qiime taxa barplot \
--i-table table-dada2.qza \
--i-taxonomy taxonomy.qza \
--m-metadata-file sample-metadata.tsv \
--o-visualization taxa-bar-plots.qzv

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注