GPU加速生信分析–序列比对Arioc – 赵加栋的个人博客—

最近偶尔探索下GPU生信软件，虽然方兴未艾，发现多数软件已经是古董，比如GPU版本的Blast，使用CUDA7，10.1这样的版本已经是最新的，软件依赖复杂，编译较难成功（亲测失败）。当然，服务器的软件版本一般是相对稳定的，可能用起来问题也不大。

我想这里面一个是硬件原因，只有事实垄断的英伟达拥有CUDA生态，而且像苹果一样拒绝开源，兼容性差，另外就是软件开发人员一般只是为了做个课题，没有持续的软件更新，软件也不会有很多人使用啦。相信未来，国产的GPU算力卡生态的崛起，以及开源社区的努力，会让这种情况得到改观，未来不能在一家公司身上，未来，需要一个联盟。

书归正传，今天分享一个早在2015年就发表的短reads比对软件Arioc，由大名鼎鼎的约翰霍普金斯大学计算生物学中心开发，BSD证书上，值得分享的一点是它是持续更新的，相对好安装，能适应今天的软硬件环境。下面，我们来看下软件的一些情况：

软件简介

Arioc是一个GPU加速的DNA短读比对器，用于WGS和WGBS的reads，具有高通量（4 GPU计算机上150 – 200万人类参考基因组测序reads/s），非常适合大规模的NGS数据处理。软件是用C++编写的，支持Nvidia CUDA环境，无论是Windows还是Linux系统都能运行。只要你的电脑有足够的内存和至少一块Nvidia GPU，就能轻松安装Arioc。

精准与高效：Arioc使用了Smith-Waterman算法，在处理含有多个插入和删除的读序列时，能够找到更好的映射。而且在保持功能性和准确性的同时，速度提升很大！

灵活性与可调性：Arioc提供了多种用户可配置参数，可以根据具体的硬件和数据分析需求来优化性能。无论是追求速度还是灵敏度，Arioc都能满足。

软件的表现（10.1093/bioinformatics/btad480）

特色功能

AriocE、AriocU和AriocP：分别负责编码序列数据、比对未配对读序列和比配对端读序列。
支持多种格式：接受FASTA格式的参考基因组序列和FASTQ格式的reads序列，生成SAM格式的输出。
数据库友好：Arioc还能创建适用于Microsoft SQL Server高速“批量”输入的二进制数据格式文件。

最初注意到这个软件是看到一个甲基化的GPU分析流程，这个软件最初2015年发表于PeerJ，2018年在Bioinformatics上发表了甲基化的版本，2020年在PLOS COMPUTATIONAL BIOLOGY发表了使用多GPU分析的成果。

软件github地址是：https://github.com/RWilton/Arioc

软件安装

以WSL2的Ubuntu 22.04系统为例，

# 使用加速镜像下载软件源码
wget ghgo.xyz/https://github.com/RWilton/Arioc/releases/download/v1.52/Arioc.x.152.zip
# 解压
unzip Arioc.x.152.zip
# 清理
make clean
# 编译前准备，使用gcc9，因为gcc10+报错
sudo apt install gcc-9 g++-9-y
# 修改默认gcc, g++链接
sudomv /usr/bin/gcc /usr/bin/gcc.bak
sudoln-s /usr/bin/gcc-9 /usr/local/bin/gcc
sudomv /usr/bin/g++ /usr/bin/g++.bak
sudoln-s /usr/bin/g++-9 /usr/local/bin/g++
# 编译
make AriocP releaseCUDA_CC=80CUDA_PATH=/usr/local/cuda-11.3/-j17
make AriocE releaseCUDA_CC=80CUDA_PATH=/usr/local/cuda-11.3/-j17
make AriocU releaseCUDA_CC=80CUDA_PATH=/usr/local/cuda-11.3/-j17

好啦，这样就安装完成啦！

软件测试

这里就使用官方的示例数据进行啦！编码这步主要是CPU进行的，大概需要32G RAM，我用swap扛的，速度还算可以。

# 测试下来需要的显存应该是在10G+的，否则会报错，感谢师兄友情赞助的显卡
# 下载示例数据
wget https://github.com/RWilton/Arioc/releases/download/v1.52/Arioc.RQA.152.zip
# 解压
unzip Arioc.RQA.152.zip
# 编码参考基因组
cd R/S_cerevisiae/
../../AriocE AriocE.gapped.cfg
../../AriocE AriocE.nongapped.cfg
cd ../../Q/S_cerevisiae/
# 编码fastq
../../AriocE AriocE.paired.cfg
../../AriocE AriocE.unpaired.cfg
cd ../../A/S_cerevisiae/
# 比对
../../AriocP AriocP.paired.cfg
../../AriocU AriocU.unpaired.cfg

AriocBase::releaseGpuResources: GPU LUT unload complete in 3336ms

配置文件指定了GPU设备、批处理大小、种子类型、评分参数以及输入输出文件路径,配置文件示例：

<?xmlversion="1.0" encoding="utf-8"?>

<!-- AriocE.paired.cfg
-->

<AriocE>
   <dataInsequenceType="Q"srcId="1"QNAME="(*.*) */*">
       <filesubId="1"mate="1">./raw/SRR3203167_1.250k.fastq</file>
       <filesubId="1"mate="2">./raw/SRR3203167_2.250k.fastq</file>
   </dataIn>
   <dataOut>
       <path>./enc.paired</path>
   </dataOut>
</AriocE>

总结，属于建索引3分钟，比对比建索引时间还短的体会，学习曲线还是有一点的，需要一些适应。

如果需要cuda11.*版本的二进制文件，可以后台回复“Arioc”，分享给大家。

展望

相信随着大模型及Agent的发展，近期可以是生信分析员的agent可以解放许多烦索的工作，人更多地可以花时间进行监督已有流程的运行，错误的改正。远期是类似AutoBA的全自动生信agent，自动流程构建和数据分析。当然不排除可以部分流程的一步到位，或许未来一段时间还是人和AI相互配合解决具体问题。

本篇文章来源于微信公众号:微因

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

软件简介

软件安装

软件测试

展望

发表回复 取消回复

发表回复取消回复