宏转录组学习笔记（一）

前面提到，已经有家公司通过宏转录组(Metatranscriptomics)测序检测肠道微生物，面向消费者提供检测服务。对宏转录组充满了好奇，有这样的比方说，宏基因组可以告诉我们这个微生物群落可能有什么样的功能（潜能），宏转录组就是告诉我们群落正在做什么，相比宏基因组的眉毛胡子一把抓，宏转录组是更针对当下的结果。由于测序的目标序列少了很多，结果不是变态大，对计算机的配置要求也相对降低。苦于想学宏基因组暂时没有服务器的我，就退而求其次试试宏转录组了，相信不会让我失望。之前学习过单转录组数据的分析，一般的笔记本（双核，8g ram）扛了下来。鉴于中文网络上能找到的宏转录组教程基本没有，只在Github上搜索到两个，选其中一个学习下。

1.整体过程概览

整理了一个流程图放在这里，和普通转录组的区别在于多了个物种注释的过程。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ykUpVo3o-1584769876763)(https://jiawen.zd200572.com/wp-content/uploads/2020/03/%E8%B7%A8%E8%81%8C%E8%83%BD%E6%B5%81%E7%A8%8B%E5%9B%BE%EF%BC%88%E6%B0%B4%E5%B9%B3%EF%BC%89.png)]

2.软件环境准备

软件安装使用conda进行，需要几个G的空间，由于电脑配置有限，教程可能止步于某个对配置要求特别高的地方，后面如果运算时间不长，下载数据量不大，内存和核心数要求不太高，成本可以接受的话可以考虑使用腾讯云、vultr，aws等云服务完成。

#首先安装conda, 添加清华源加速，教程有很多，这里省略
#建立一个新的工作环境
conda create -n tara
#激活工作环境
source activate tara
#安装所需软件
conda install fastqc multiqc trimmomatic khmer \ 
busco megahit sourmash salmon r dammit cd-hit -y
#可选，如果后面要把环境打包，可以导出一个环境的软件安装列表，如果哪天可以整体打包文件就好了
#conda env export -n tara -f $PROJECT/tara_conda_environment.yaml
#安装conda中没有的其他软件
cd <location-to-put-transrate>
wget https://bintray.com/artifact/download/blahah/generic/transrate-1.0.3-linux-x86_64.tar.gz
tar zxvf transrate-1.0.3-linux-x86_64.tar.gz
#添加环境变量
echo 'export PATH=/LUSTRE/apps/workshop/transrate-1.0.3-linux-x86_64:$PATH' >> ~/.bashrc
source ~/.bashrc
#安装 hmmer
wget http://eddylab.org/software/hmmer/hmmer.tar.gz
tar zxvf hmmer.tar.gz

3.数据和数据库准备

数据来自塔拉海洋探险（2009-2013）采样对比世界海洋生态系统，利用现代测序和最先进的成像技术收集环境数据和浮游生物，从病毒到后生动物，用于以后的分析。它对20个生物地理省份中的210个生态系统进行了调查，收集了35,000多个海水和浮游生物样本。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hM2onCSm-1584769876770)(https://ngs-docs.github.io/2018-cicese-metatranscriptomics/files/TARAOCEANS-CARTE-1024×462.jpg)]

我们选择分析的数据是《全球海洋真核基因图集》的一部分（Carradec et al.2018）。本文使用跨转录组学的方法对TARA海洋数据进行了研究，从浮游性真核生物中生成了一个全球海洋参考基因目录，并探讨了它们在生物地理学和环境条件方面的表达方式。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xpJqdXiK-1584769876772)(https://ngs-docs.github.io/2018-cicese-metatranscriptomics/files/tara-station-map.jpg)]

在本次研讨会上，我们选择了东太平洋的TARA 135、136和137站，您可以在下面的地图上看到它们。我们分析了大小为5-20µm的mRNAseq样品（选择了poly-A，因此可能大部分包含真核序列）中的数据，因为该部分在我们选择的TARA工作站上具有良好的重复性。对于大多数教程，我们使用这些数据的一小部分，以使程序运行时在研讨会中可行。您可以通过开放式科学资源找到完整的数据，以发现和分析塔拉海洋数据（Pesant等，2015）。将向您展示如何从您的数据中获得与上述TARA论文相同的答案！

主要是教程中的样本测序数据，以及软件的数据库，文件较大，对于我们的网络，下载可能费时较长，可以使用多线程下载工具如axel、aria2等下载，加速明显。

#建立工作目录和数据目录
mkdir -p work/data
#转到工作目录
cd work/data
#wget下载测序数据, -c可以断点续传，如果支持的话，多线程工具下载耗时1小时左右
wget -c https://osf.io/76qm3/download -O tara135_1m.zip --no-check-certificate
wget -c https://osf.io/y5dfh/download -O tara136-137_1m.zip --no-check-certificate
#解压数据，并让数据不容易误删除
unzip tara135_1m.zip
unzip tara136-137_1m.zip
chmod u-w *fq.gz
#为了简单，定义一个PROJECT变量
 export PROJECT=~/work
 #查看文件
 ls $PROJECT/data/
TARA_135_DCM_5-20_rep1_1m_1.fq.gz       TARA_136_SRF_5-20_rep1_1m_2.fq.gz
TARA_135_DCM_5-20_rep1_1m_2.fq.gz       TARA_136_SRF_5-20_rep2_1m_1.fq.gz
TARA_135_DCM_5-20_rep2_1m_1.fq.gz       TARA_136_SRF_5-20_rep2_1m_2.fq.gz
TARA_135_DCM_5-20_rep2_1m_2.fq.gz       TARA_137_DCM_5-20_rep1_1m_1.fq.gz
TARA_135_SRF_5-20_rep1_1m_1.fq.gz       TARA_137_DCM_5-20_rep1_1m_2.fq.gz
TARA_135_SRF_5-20_rep1_1m_2.fq.gz       TARA_137_DCM_5-20_rep2_1m_1.fq.gz
TARA_135_SRF_5-20_rep2_1m_1.fq.gz       TARA_137_DCM_5-20_rep2_1m_2.fq.gz
TARA_135_SRF_5-20_rep2_1m_2.fq.gz       tara135_1m.zip
TARA_136_SRF_5-20_rep1_1m_1.fq.gz       tara136-137_1m.zip
#下载所需数据库文件，从名字可以看出是来自genbank的rna数据，还好数据不怎么大，一两G，三十分钟左右
wget -O genbank-rna-vertebrate_other-k31.tar.gz https://osf.io/qgyax/download
wget -O genbank-rna-vertebrate_mammalian-k31.tar.gz https://osf.io/6c9uy/download
wget -O genbank-rna-invertebrate-k31.tar.gz https://osf.io/7v8ck/download
wget -O genbank-rna-fungi-k31.tar.gz https://osf.io/g6mcr/download
wget -O genbank-rna-plant-k31.tar.gz https://osf.io/kctus/download
wget -O genbank-rna-protozoa-k31.tar.gz https://osf.io/fnu2q/download
wget -O mmetsp-k31-named.tar.gz https://osf.io/cdvqn/download
#使用一个for循环解压数据
for infile in *.tar.gz；do tar xf ${infile}；done
#dammit数据库准备
dammit databases --install --busco-group metazoa  --quick

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

文章

1.整体过程概览

2.软件环境准备

3.数据和数据库准备

发表回复取消回复

1.整体过程概览

2.软件环境准备

3.数据和数据库准备

发表回复 取消回复

发表回复取消回复