宏转录组学习笔记(一)

前面提到,已经有家公司通过宏转录组(Metatranscriptomics)测序检测肠道微生物,面向消费者提供检测服务。对宏转录组充满了好奇,有这样的比方说,宏基因组可以告诉我们这个微生物群落可能有什么样的功能(潜能),宏转录组就是告诉我们群落正在做什么,相比宏基因组的眉毛胡子一把抓,宏转录组是更针对当下的结果。由于测序的目标序列少了很多,结果不是变态大,对计算机的配置要求也相对降低。苦于想学宏基因组暂时没有服务器的我,就退而求其次试试宏转录组了,相信不会让我失望。之前学习过单转录组数据的分析,一般的笔记本(双核,8g ram)扛了下来。鉴于中文网络上能找到的宏转录组教程基本没有,只在Github上搜索到两个,选其中一个学习下。

1.整体过程概览

整理了一个流程图放在这里,和普通转录组的区别在于多了个物种注释的过程。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ykUpVo3o-1584769876763)(https://jiawen.zd200572.com/wp-content/uploads/2020/03/%E8%B7%A8%E8%81%8C%E8%83%BD%E6%B5%81%E7%A8%8B%E5%9B%BE%EF%BC%88%E6%B0%B4%E5%B9%B3%EF%BC%89.png)]

2.软件环境准备

软件安装使用conda进行,需要几个G的空间,由于电脑配置有限,教程可能止步于某个对配置要求特别高的地方,后面如果运算时间不长,下载数据量不大,内存和核心数要求不太高,成本可以接受的话可以考虑使用腾讯云、vultr,aws等云服务完成。

#首先安装conda, 添加清华源加速,教程有很多,这里省略
#建立一个新的工作环境
conda create -n tara
#激活工作环境
source activate tara
#安装所需软件
conda install fastqc multiqc trimmomatic khmer \ 
busco megahit sourmash salmon r dammit cd-hit -y
#可选,如果后面要把环境打包,可以导出一个环境的软件安装列表,如果哪天可以整体打包文件就好了
#conda env export -n tara -f $PROJECT/tara_conda_environment.yaml
#安装conda中没有的其他软件
cd <location-to-put-transrate>
wget https://bintray.com/artifact/download/blahah/generic/transrate-1.0.3-linux-x86_64.tar.gz
tar zxvf transrate-1.0.3-linux-x86_64.tar.gz
#添加环境变量
echo 'export PATH=/LUSTRE/apps/workshop/transrate-1.0.3-linux-x86_64:$PATH' >> ~/.bashrc
source ~/.bashrc
#安装 hmmer
wget http://eddylab.org/software/hmmer/hmmer.tar.gz
tar zxvf hmmer.tar.gz

3.数据和数据库准备

数据来自塔拉海洋探险(2009-2013)采样对比世界海洋生态系统,利用现代测序和最先进的成像技术收集环境数据和浮游生物,从病毒到后生动物,用于以后的分析。它对20个生物地理省份中的210个生态系统进行了调查,收集了35,000多个海水和浮游生物样本。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hM2onCSm-1584769876770)(https://ngs-docs.github.io/2018-cicese-metatranscriptomics/files/TARAOCEANS-CARTE-1024×462.jpg)]

我们选择分析的数据是《全球海洋真核基因图集》的一部分(Carradec et al.2018)。本文使用跨转录组学的方法对TARA海洋数据进行了研究,从浮游性真核生物中生成了一个全球海洋参考基因目录,并探讨了它们在生物地理学和环境条件方面的表达方式。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xpJqdXiK-1584769876772)(https://ngs-docs.github.io/2018-cicese-metatranscriptomics/files/tara-station-map.jpg)]

在本次研讨会上,我们选择了东太平洋的TARA 135、136和137站,您可以在下面的地图上看到它们。我们分析了大小为5-20µm的mRNAseq样品(选择了poly-A,因此可能大部分包含真核序列)中的数据,因为该部分在我们选择的TARA工作站上具有良好的重复性。对于大多数教程,我们使用这些数据的一小部分,以使程序运行时在研讨会中可行。您可以通过开放式科学资源找到完整的数据,以发现和分析塔拉海洋数据(Pesant等,2015)。将向您展示如何从您的数据中获得与上述TARA论文相同的答案!

主要是教程中的样本测序数据,以及软件的数据库,文件较大,对于我们的网络,下载可能费时较长,可以使用多线程下载工具如axel、aria2等下载,加速明显。

#建立工作目录和数据目录
mkdir -p work/data
#转到工作目录
cd work/data
#wget下载测序数据, -c可以断点续传,如果支持的话,多线程工具下载耗时1小时左右
wget -c https://osf.io/76qm3/download -O tara135_1m.zip --no-check-certificate
wget -c https://osf.io/y5dfh/download -O tara136-137_1m.zip --no-check-certificate
#解压数据,并让数据不容易误删除
unzip tara135_1m.zip
unzip tara136-137_1m.zip
chmod u-w *fq.gz
#为了简单,定义一个PROJECT变量
 export PROJECT=~/work
 #查看文件
 ls $PROJECT/data/
TARA_135_DCM_5-20_rep1_1m_1.fq.gz       TARA_136_SRF_5-20_rep1_1m_2.fq.gz
TARA_135_DCM_5-20_rep1_1m_2.fq.gz       TARA_136_SRF_5-20_rep2_1m_1.fq.gz
TARA_135_DCM_5-20_rep2_1m_1.fq.gz       TARA_136_SRF_5-20_rep2_1m_2.fq.gz
TARA_135_DCM_5-20_rep2_1m_2.fq.gz       TARA_137_DCM_5-20_rep1_1m_1.fq.gz
TARA_135_SRF_5-20_rep1_1m_1.fq.gz       TARA_137_DCM_5-20_rep1_1m_2.fq.gz
TARA_135_SRF_5-20_rep1_1m_2.fq.gz       TARA_137_DCM_5-20_rep2_1m_1.fq.gz
TARA_135_SRF_5-20_rep2_1m_1.fq.gz       TARA_137_DCM_5-20_rep2_1m_2.fq.gz
TARA_135_SRF_5-20_rep2_1m_2.fq.gz       tara135_1m.zip
TARA_136_SRF_5-20_rep1_1m_1.fq.gz       tara136-137_1m.zip
#下载所需数据库文件,从名字可以看出是来自genbank的rna数据,还好数据不怎么大,一两G,三十分钟左右
wget -O genbank-rna-vertebrate_other-k31.tar.gz https://osf.io/qgyax/download
wget -O genbank-rna-vertebrate_mammalian-k31.tar.gz https://osf.io/6c9uy/download
wget -O genbank-rna-invertebrate-k31.tar.gz https://osf.io/7v8ck/download
wget -O genbank-rna-fungi-k31.tar.gz https://osf.io/g6mcr/download
wget -O genbank-rna-plant-k31.tar.gz https://osf.io/kctus/download
wget -O genbank-rna-protozoa-k31.tar.gz https://osf.io/fnu2q/download
wget -O mmetsp-k31-named.tar.gz https://osf.io/cdvqn/download
#使用一个for循环解压数据
for infile in *.tar.gz;do tar xf ${infile};done
#dammit数据库准备
dammit databases --install --busco-group metazoa  --quick

这样准备工作就基本结束了,可以愉快地进行学习了。

发表评论