纸上得来终觉浅呀!拿到真正的测序数据进行分析的时候才发现有各种各样的问题,不是简单的跑一下流程就能解决的。只有再次加强 学习。
- fastx_toolkit
这个软件有点过时了,应该是只能处理单端测序的数据,但是,比较傻瓜,用了一下发现,它会把双向测序的结果处理成不匹配的,导致软件报错,需要自己用脚本把没有配对的reads剔出来,再做后续分析。
1.1 fastx_trimmer
我用得的一个命令是fastx_trimmer, 用来截取质量不好的reads。参数是:
-f (from从哪开始截)
-l(last? 截取到哪)
-z 压缩结果,好像软件不能用压缩输入
-v 显示输入输出统计
1.2 fastx_quality_filter
另一个命令是fastx_quality_filter,过滤低质量的,参数-q是质量分数阀值,-p是质量符合的碱基的百分比阀值。
具体命令:
fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]从3’开始到5’哪些部分保留
fastx_trimmer -v -f 1 -l 27 -i BC54.clipped.fa -oBC54.trimmed.fa
1.3 发现这个全能型选手还能用来分barcode
cat s_2_100.txt |/usr/local/bin/fastx_barcode_splitter.pl –bcfile mybarcodes.txt –bol –mismatches 2 –prefix/tmp/bla_ –suffix “.txt”
Input:s_2_100.txt
Barcode file: mybarcodes.txt
参考自:http://blog.csdn.net/huangliangbo0805/article/details/39638109
2. trimmomatic
这个软件就好用多了,可以自行完成双向测序数据的质控并分离好。
trimmomatic PE -phred33 ../HLA-1_S82_L001_R1_001.fastq ../HLA-1_S82_L001_R2_001.fastq HLA-1_R1_clean.fastq HLA-1_R1_unpaired.fastq HLA-1_R2_clean.fastq HLA-1_R2_unpaired.fastq LEADING:20 TRAILING:20 SLIDINGWINDOW:4:15 -threads 4 MINLEN:100
3. trim_glore
trim_galore,这个软件综合了cutadpt和fastqc,好像是个神器,学习学习。
nohup trim_galore -q 20 --phred33 --fastqc --stringency 1 --fastqc_args \"--outdir
$CleanFastqcPath
\" -e 0.1 --dont_gzip --
length
35 -o
$OutPath
--paired
$read1
$read2
>
$Sample
.trimgalore.
log
4.其他
4.1 sickle(参考自http://www.bio-info-trainee.com/1914.html)
sickle也可以实现平衡地处理正反 向的测序数据。
sickle pe -f test1.fastq -r test2.fastq -t sanger -o trimmed_output_file1.fastq -p trimmed_output_file2.fastq
#然后批量查看处理前后的fastqc质量报告:
ls *fastq |xargs -P 5 ~/biosoft/fastqc/FastQC/fastqc
4.2 cutadapt (参考自http://www.bio-info-trainee.com/1920.html)
5.数据拆分
以barcode,现查到的软件有:seqtk_demultiplex、fastq_multx和QIIME(16S的)。
用法学习:
5.1 seqtk_demultiplex
b barcodes.txt -1 I365.R1.fastq.gz -2 I365.R2.fastq.gz -l 5 -d I365
barcode文件格式
采用制表符分隔,三列, 第一列为样本名称,第二列为F端barcode, 第三列是R端barcode
F_1 CAATT GCTGTGA
5.2 fastq-multx
time fastq-multx -B mapping_file.txt -m 0 -b I365.R1.fastq.gz I365.R2.fastq.gz -o I365/%.R1.fq.gz -o I365/%.R2.fq.gz >/dev/null
Using Barcode File: mapping_file.txt End used: start
但是作者说只切除了一端的.(R端序列的barcode没有被切除)。不支持gz压缩格式。
5.3 Flexbar
好像这个是最有名的呢,只有这个文档比较全,另外的推荐使用的人少呢。
flexbar -r reads [-b barcodes] [-a adapters] [options]
参考自公众号文章: