最近又搜索了下SNP imputation,发现随着中国人多个万人基因组项目的完成,我们自己的参考也已经建立,但是一般只局限在课题组内部,不公开,只提供了在线填充服务。不过,这也是极好的,如果样本不多可以考虑用一下,暂时发现有3个,基本上都类似于Michigan Imputation Server的模式。
1、ChinaMap项目(http://www.mbiobank.com/)
参考是ChinaMAP.phase1.v1,位点59,010,860,没错,是5900万(hg38版本),比1000G要好,不过是不是为了follow以前的研究,还得继续使用1000G?上个月刚刚低调上线的,是目前发现的最全、最好用的参考。
2020年4月30日,ChinaMAP联盟携全国29家研究机构和医院,在中科院上海生命科学研究院主办的Cell Research杂志发表了长文章“The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals”,首次报道了ChinaMAP一期研究对覆盖全国27个省份和直辖市,8个民族,超过1万人的高深度(40X)全基因组测序数据和表型的系统性分析[3]。上海交通大学医学院附属瑞金医院、国家代谢性疾病临床医学研究中心的宁光院士,王卫庆教授和毕宇芳教授是论文的共同通讯作者,曹亚南研究员、李林研究员和徐敏研究员等为共同第一作者。(测序中国)
2.西湖大学中国生物银行项目(https://imputationserver.westlake.edu.cn/)
起初搜索到这个网页,我有点犯晕的,感觉是个国外的大学,但是遗传资源管理如此严格的今天,怎么可能有国外研究团队研究中国人的数据呢?仔细一看才发现,是企业家们共同创建的西湖大学。hg38版本,35,616,674位点,8,960Haplotypes,4500个样本做全基因组测序,6000个样本做全基因芯片,数据也还不错!这个团队对中国人的基因型填充有独到见解,PI郑厚峰和他的团队还开通了一个名叫“基因姑娘GeneGirl”的微信公众号,在做医学知识科普和用户教育的同时,希望可以持续关注用户的健康情况。
3.10万人汉族基因组计划(The Han100K Initiative)
https://www.hanchinesegenomes.org/HCGD/analysis/imputation/introduction这个网站包含多个参考,最好的参考是Han100K:Reference panel of pure Han Chinese genomes, the combination of high coverage WGS of 319 Han individuals, low coverage WGS of 11,878 Han individuals, and 102,586 individuals with 8,056,973 variants genotyped or partially imputed. 除此之外,还有CONVERGE计划,由于只有极低深度测序,可用性一般。
2020年1月8日,国际学术期刊Nucleic Acids Research正式发表了中国科学院上海营养与健康研究所/马普计算生物学研究所徐书华课题组与生物医学大数据中心的研究成果“PGG.Han: the Han Chinese genome database and analysis platform”。该研究作为十万人汉族基因组计划一期成果,收集并分析了11万汉族人基因组单核苷酸变异数据,并发布了汉族人群的遗传数据库及在线分析平台 – “PGG.Han”, http://www.pgghan.org,此举填补了中国人群在大规模可用参考基因组数据集上的空白、并提供了免费在线计算分析平台。你还知道哪些中国人的参考呢,欢迎分享!
本篇文章来源于微信公众号: 微因