再学质控 – 赵加栋的个人博客——持续学习，用心生活！

纸上得来终觉浅呀！拿到真正的测序数据进行分析的时候才发现有各种各样的问题，不是简单的跑一下流程就能解决的。只有再次加强学习。

fastx_toolkit

这个软件有点过时了，应该是只能处理单端测序的数据，但是，比较傻瓜，用了一下发现，它会把双向测序的结果处理成不匹配的，导致软件报错，需要自己用脚本把没有配对的reads剔出来，再做后续分析。

1.1 fastx_trimmer

我用得的一个命令是fastx_trimmer, 用来截取质量不好的reads。参数是：

-f (from从哪开始截）

-l(last? 截取到哪）

-z 压缩结果，好像软件不能用压缩输入

-v 显示输入输出统计

1.2 fastx_quality_filter

另一个命令是fastx_quality_filter，过滤低质量的，参数-q是质量分数阀值，-p是质量符合的碱基的百分比阀值。

具体命令：

fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]从3’开始到5’哪些部分保留

fastx_trimmer -v -f 1 -l 27 -i BC54.clipped.fa -oBC54.trimmed.fa

1.3 发现这个全能型选手还能用来分barcode

cat s_2_100.txt |/usr/local/bin/fastx_barcode_splitter.pl –bcfile mybarcodes.txt –bol –mismatches 2 –prefix/tmp/bla_ –suffix “.txt”

Input：s_2_100.txt

Barcode file: mybarcodes.txt

参考自：http://blog.csdn.net/huangliangbo0805/article/details/39638109

2. trimmomatic

这个软件就好用多了，可以自行完成双向测序数据的质控并分离好。

trimmomatic PE -phred33 ../HLA-1_S82_L001_R1_001.fastq ../HLA-1_S82_L001_R2_001.fastq HLA-1_R1_clean.fastq HLA-1_R1_unpaired.fastq HLA-1_R2_clean.fastq HLA-1_R2_unpaired.fastq LEADING:20 TRAILING:20 SLIDINGWINDOW:4:15 -threads 4 MINLEN:100

3. trim_glore

trim_galore，这个软件综合了cutadpt和fastqc,好像是个神器，学习学习。

nohup trim_galore -q 20 --phred33 --fastqc --stringency 1 --fastqc_args \"--outdir $CleanFastqcPath\" -e 0.1 --dont_gzip --length 35 -o $OutPath --paired $read1 $read2 >$Sample.trimgalore.log

4.其他

4.1 sickle（参考自http://www.bio-info-trainee.com/1914.html）

sickle也可以实现平衡地处理正反向的测序数据。

sickle pe -f test1.fastq -r test2.fastq -t sanger -o trimmed_output_file1.fastq -p trimmed_output_file2.fastq

#然后批量查看处理前后的fastqc质量报告：

ls *fastq |xargs -P 5 ~/biosoft/fastqc/FastQC/fastqc

4.2 cutadapt （参考自http://www.bio-info-trainee.com/1920.html）

cutadapt软件支持对PE 测序数据的处理，基本的用法是：

cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq

-a和-A是左右端测序数据的3端接头，-g和-G是左右端测序数据的5端接头。

支持fastq和fasta格式的gz压缩文件，必要时用-f参数指定测序文件数据格式即可。

5.数据拆分

以barcode，现查到的软件有：seqtk_demultiplex、fastq_multx和QIIME（16S的）。

用法学习：

5.1 seqtk_demultiplex

b barcodes.txt -1 I365.R1.fastq.gz -2 I365.R2.fastq.gz -l 5 -d I365

barcode文件格式

采用制表符分隔，三列，第一列为样本名称，第二列为F端barcode，第三列是R端barcode

F_1     CAATT   GCTGTGA

5.2 fastq-multx

time fastq-multx -B mapping_file.txt -m 0 -b I365.R1.fastq.gz I365.R2.fastq.gz -o I365/%.R1.fq.gz -o I365/%.R2.fq.gz >/dev/null

Using Barcode File: mapping_file.txt End used: start

但是作者说只切除了一端的.(R端序列的barcode没有被切除)。不支持gz压缩格式。

5.3 Flexbar

好像这个是最有名的呢，只有这个文档比较全，另外的推荐使用的人少呢。

flexbar -r reads [-b barcodes] [-a adapters] [options]

参考自公众号文章：

快速对扩增子序列进行数据拆分: seqtk_demultiplex

再学质控

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

快速对扩增子序列进行数据拆分: seqtk_demultiplex

发表回复 取消回复

发表回复取消回复