SNP2HLA学习笔记2

HLA基因,位于6号染色体上短臂上,长约4000Kb。HLA是目前所知人体最复杂的遗传多态性系统,有几十个基因座位,每个基因座位又有几十个等位基因,且呈共显性表达。由于MHC基因位于同一条染色体上,其多基因座位上的基因型组合相对稳定,很少发生同源染色体间交换,这就构成了以单元型(HAPLOTYPE,即在同一条染色体上紧密连锁的一系列等位基因的特殊组合)为特征的遗传。按中国人常见的A座位基因有13个,B座位基因有30个计算,可组成的单元型约有13×30=390种之多。

snp2hla是大名鼎鼎的Broad研究所开发的,通过snp分型数据来获得HLA分型信息的软件。它的准确度主要依赖于一个尽可能大的,针对特定民族人群的参考数据集。

涉及中国人的软件的几个参考数据集的情况

  • CHB+JP:是Hapmap计划中中国人群的数据,中国人54人。
  • Pan-Asia:530人,其中,中国人100多人。HLA区域:2142 SNPs
  • HAN.MHC:100869人,全部为中国人。HLA区域:3756 SNPs

能使用最后一个参考数据集进行分型是最好的,但是,最后一个数据公开不全,我的知识水平难以解决。

1.软件下载

SNP2HLA主软件包:http://software.broadinstitute.org/mpg/snp2hla/data/SNP2HLA_package_v1.0.3.tar.gz

plink v1.07  http://zzz.bwh.harvard.edu/plink/dist/plink-1.07-x86_64.zip

BEAGlE v3.04 http://faculty.washington.edu/browning/beagle/recent.versions/beagle_3.0.4_05May09.zip

beagle2linkage.jar  http://faculty.washington.edu/browning/beagle_utilities/beagle2linkage.jar

第二个以后的软件放在SNP2HLA_package_v1.0.3/SNP2HLA这个文件夹里,而且是运行的文件(plink、beagle.jar、linkage2beagle.jar和beagle2linkage.jar)。当然,beagle依赖java运行环境,也是必须安装的。

2.软件使用

我是使用的一个txt格式的数据,首先转换成vcf格式,然后转换成plink兼容格式,有点绕,但是是我找到的两个解决方案之一。另一个是C#程序,一步到位,但是我不会编译C#,只好做罢,估计是windows程序员开发的,github地址放在这:https://github.com/arrogantrobot/23andme2vcf

2.1 txt2vcf

用的一个github上的脚本,地址在这:https://github.com/arrogantrobot/23andme2vcf

运行命令为:

perl 23andme2vcf.pl /path/to/23andme_raw.txt /path/to/output.vcf

2.2 vcf2ped

使用vcftools搞定,这个软件一直安装报错(make install),那就make直接使用了,正常完成了任务。

wget https://sourceforge.net/projects/vcftools/files/vcftools_0.1.13.tar.gz 
tar zxvf vcftools_0.1.13.tar.gz
cd  vcftools_0.1.13
make

使用命令为:

./vcftools --vcf ~/ywc.vcf --out ./cyw --plink

2.3 ped等2bed等

使用上面下载的那个plink,命令很简单,

 plink --file FILENAME --make-bed --out FILENAME

2.4 SNP2HLA得到结果

./SNP2HLA.csh ~/y/y ../Pan-Asian/Pan-Asian_REF ~/y/yc- ./plink 1000 1000

使用的建站gcloud进行的,配置只有单核1.6G,所以内存只分配了1000M。几分钟后得到了结果文件,大概是这么几个。

2.5 使用我的脚本,提取结果

一个666的结果就出来了,当然,准确度比那个网页版是提高了不是一点半点,毕竟这是专业的,而且是ClassI + ClassII,当然准确度文献报道的是60-80%多,依旧是仅供娱乐。

HLA的临床意义:

1.器官移植:HLA配型能改善移植物的存活率。供体和受体的HLA-A,B.DR完全相同者的存活率显然高于不同者。在尸肾移植中,HLA-DR配型效果更甚于HLA-A,B配型。HLA配型的作用可以归纳为: ①在肾移植中,供受双方共有的DR抗原越多,或已检查出的DR错配抗原数越少,移植存活率就越高; ②在移植前输血的患者中,DR配型能提高存活率; ③骨髓移植前不宜输血,以防止受体被免疫。且因经过射线或药物处理,供受双方HLA型相合比ABO血型相合更为重要。 其它如心、肝、肺等器官的移植,多用于生命垂危的患者,脏器来源稀少,可供选掺的器官有限,实际很难达到HLA配型相同,主要要求ABO血型相同。 自身骨髓移植虽不存在HLA配型问题,但只能用于白血病、肿瘤等医学/教育/网编辑整理,而不适用于原发性骨髓功能不全的疾病,如再生性障碍性贫血等。 2.输血:为了全理使用血液,现在提倡成分输血疗法,命名如输入血小板、白细胞等,血液制品,如HLA同型血液,当能提高疗效。因皮血站应建立在有关献血员的HLA信息系统,以便于查询应用。 临床输血的发热反应中,有些是由HLA抗体引起的,尤其是多次输血的患者,HLA抗体可以破坏白细胞,为避免HLA引起输血反应,可在输血前帮做交叉淋巴细胞毒试验。 3.亲子鉴定:HLA是至今所知人最复杂的一个遗传多态性系统。如前所述,其表型之多难计数,这个特点是其客观存在,其它血型系统难与相比。因此由于HLA系统的高度多态性;新生儿出生时HLA抗原就忆完整表达;以及HLA的遗传规律已阐明等原因,而使其成为亲子鉴定中的一个有力工具,能肯定某些亲子关系。这在法医学中具有重在意义。 4、疾病的诊断:经过多年研究调查,发现许多疾病与HLA有关,例如我国的强直性脊椎炎患者中,91%带有B27抗原者只占6.6%因此检查B27抗原诊断意义。不过大多数疾病的HLA分型意义有限。

参考:

1.生物信息学常见1000个软件的安装代码

2.Zhu M, Dai J, Wang C, et al. Fine mapping the MHC region identified four independent variants modifying susceptibility to chronic hepatitis B in Han Chinese[J]. Human molecular genetics, 2016, 25(6): 1225-1232.

 

关于 “SNP2HLA学习笔记2” 的 6 个意见

  1. 请教博主,HLA-B*5801型和HLA-B*1502型别中国人群检测哪几个SNP位点就可以判型了呢?或者有没有相关资料可以提供呢?非常感谢!

    1. 抱歉,我没有涉及到这方面的知识,snp2hla是用一个参考数据集去判断的。关于你的问题,是不是可以把这两个型的序列找出来,用IGV浏览器去和参考基因组比对,然后找到snp,然后去掉连锁不平衡的,就应试是能决定的snp了吧。只是我的粗浅想法,见谅。

    2. 可以参考https://www.snpedia.com/index.php/HLA里的CHB人种(北京人)。
      来源应该是broad研究所的tagger软件算出来的,可能是基于连锁不平衡。

  2. 最近在学习扩增子,搜到博主的文章,对我帮助很大。非常感谢!
    关于HLA分型,有一款叫seq2hla的软件,我个人觉得挺好用的,博主有时间可以评测一下

发表评论

电子邮件地址不会被公开。 必填项已用*标注