再学质控

纸上得来终觉浅呀!拿到真正的测序数据进行分析的时候才发现有各种各样的问题,不是简单的跑一下流程就能解决的。只有再次加强 学习。

  1. fastx_toolkit

这个软件有点过时了,应该是只能处理单端测序的数据,但是,比较傻瓜,用了一下发现,它会把双向测序的结果处理成不匹配的,导致软件报错,需要自己用脚本把没有配对的reads剔出来,再做后续分析。

1.1 fastx_trimmer

我用得的一个命令是fastx_trimmer, 用来截取质量不好的reads。参数是:

-f (from从哪开始截)

-l(last? 截取到哪)

-z 压缩结果,好像软件不能用压缩输入

-v 显示输入输出统计

1.2 fastx_quality_filter

另一个命令是fastx_quality_filter,过滤低质量的,参数-q是质量分数阀值,-p是质量符合的碱基的百分比阀值。

具体命令:

fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]从3’开始到5’哪些部分保留

fastx_trimmer -v -f 1 -l 27 -i BC54.clipped.fa -oBC54.trimmed.fa

1.3 发现这个全能型选手还能用来分barcode

cat s_2_100.txt |/usr/local/bin/fastx_barcode_splitter.pl –bcfile mybarcodes.txt –bol –mismatches 2 –prefix/tmp/bla_ –suffix “.txt”

Input:s_2_100.txt

Barcode file: mybarcodes.txt

参考自:http://blog.csdn.net/huangliangbo0805/article/details/39638109

2. trimmomatic

这个软件就好用多了,可以自行完成双向测序数据的质控并分离好。

trimmomatic PE -phred33 ../HLA-1_S82_L001_R1_001.fastq ../HLA-1_S82_L001_R2_001.fastq HLA-1_R1_clean.fastq HLA-1_R1_unpaired.fastq HLA-1_R2_clean.fastq HLA-1_R2_unpaired.fastq LEADING:20 TRAILING:20 SLIDINGWINDOW:4:15 -threads 4 MINLEN:100

3. trim_glore

trim_galore,这个软件综合了cutadpt和fastqc,好像是个神器,学习学习。

 nohup trim_galore -q 20 --phred33 --fastqc --stringency 1 --fastqc_args \"--outdir $CleanFastqcPath\" -e 0.1 --dont_gzip --length 35 -o $OutPath --paired $read1 $read2 >$Sample.trimgalore.log

4.其他

4.1 sickle(参考自http://www.bio-info-trainee.com/1914.html

sickle也可以实现平衡地处理正反 向的测序数据。

sickle pe -f test1.fastq -r test2.fastq -t sanger -o trimmed_output_file1.fastq -p trimmed_output_file2.fastq

#然后批量查看处理前后的fastqc质量报告:

ls *fastq |xargs -P 5 ~/biosoft/fastqc/FastQC/fastqc

4.2 cutadapt (参考自http://www.bio-info-trainee.com/1920.html)

cutadapt软件支持对PE 测序数据的处理,基本的用法是:
cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq
-a和-A是左右端测序数据的3端接头,-g和-G是左右端测序数据的5端接头。
支持fastq和fasta格式的gz压缩文件,必要时用-f参数指定测序文件数据格式即可。

5.数据拆分

以barcode,现查到的软件有:seqtk_demultiplex、fastq_multx和QIIME(16S的)。

用法学习:

5.1  seqtk_demultiplex

b barcodes.txt -1 I365.R1.fastq.gz  -2  I365.R2.fastq.gz -l 5  -d  I365

barcode文件格式

采用制表符分隔,三列, 第一列为样本名称,第二列为F端barcode, 第三列是R端barcode

F_1     CAATT   GCTGTGA

5.2 fastq-multx

time fastq-multx   -B mapping_file.txt  -m 0  -b   I365.R1.fastq.gz  I365.R2.fastq.gz    -o   I365/%.R1.fq.gz  -o I365/%.R2.fq.gz  >/dev/null

Using Barcode File: mapping_file.txt End used: start

但是作者说只切除了一端的.(R端序列的barcode没有被切除)。不支持gz压缩格式。

5.3 Flexbar

好像这个是最有名的呢,只有这个文档比较全,另外的推荐使用的人少呢。

flexbar -r reads [-b barcodes] [-a adapters] [options]

参考自公众号文章:

快速对扩增子序列进行数据拆分: seqtk_demultiplex

再学质控

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注