Biobanks生物银行知多少

随着一批国家的生物银行的完成和结果公布,多个 Biobank 的 GWAS summary statistics 文件已经公开,这里列下不同国家的相关资源,这些资源基本是使用开源的pheweb工具进行数据公开的,多数开放数据下载。 

当然,对我们来说最有用的是国人的或者是东亚的。不得不承认,国外在数据开放方面走在了我们前面,即使我们台湾省,也没有提供 GWAS summary statistics 文件的下载,只是公布了结果。关于之前的国人的相关数据集,基本没有开放的,除了发表的文章和附件。之前列过几个可以用来进行基因型填充的参考:

UKB 英国生物银行

这个大名鼎鼎的想必大家都是知道的,在这里不多赘述了,它是相关研究的标杆和典范,第一个,不得不说大英在科技领域做得不错的。据我所知,几代测序技术都是发源于英国,当然多数发财的是美国公司。科技行业龙头也能列出一大把,ARM 等,不过有些帝国余晖的感觉,总是听美国哥哥的。把相关资源列在这,有多个填充参考的选择PheWeb Datasets[2]

FinnGen 芬兰基因组研究

由赫尔辛基大学领导,FinnGen 集成了 500,000 个人的基因组和医疗登记信息,为芬兰人口的 10%。北欧国家,对民众福利的投入还是舍得的,不过最近的国际形势,他们好像不怎么淡定了。FinnGen results[3]

BBJ 日本生物银行

这个也应该是大家相对熟悉的一个项目,去年正式发表的,其主要采用了 bolt-lmm 这个软件进行的分析。BioBank Japan Project (BBJ) 号称是非欧洲人群最大的一个 biobank 项目。PheWeb.jp[4]

KoGES 韩国基因组和流行病学研究

  • 来自 KoGES(韩国国家生物银行)的 76 种表型的全基因组关联
  • 日本生物样本库(BBJ)对 32 种表型的荟萃分析
  • 使用 SPACox 对 14 种表型进行生存分析
  • 使用 TAPE 对 10 种有家族史的表型进行关联分析

总共使用了 72,298 个具有韩国芯片基因分型和插补的个体(总共 8,056,211 个变体)。使用 SAIGE 对连续和二元表型进行了分析,调整了遗传相关性,性别,年龄,前 10 个主要组成部分和评估细节(队列和检查年份)。对于分类表型,我们使用 POLMM(比例赔率逻辑混合模型),在 SAIGE 中针对相同的协变量进行调整。KoGES PheWeb (leelabsg.org)[5]

中国台湾 biobank

128,775 名参与者的全基因组关联。所有个体均在 Axiom 全基因组 TWB 阵列或 Axiom 全基因组 TWB2.0 阵列上进行基因分型。然后用 IMPUTE2 软件输入由来自 1000 个基因组第三阶段(n=504)的东亚人群和来自台湾生物库(n=1,451)的全基因组测序数据组成的合并参考小组。

使用 Saige 软件对年龄、性别、BMI、基因分型排列和前 5 个主成分进行调整(根据年龄、性别、基因分型排列和前 5 个主成分调整身高、体重和 BMI 表型)。我们处理了一组 194 个表型,包括 121 个数量性状和 73 个二元性状,至少 100 例。LDSC 使用 1000 基因组计划第三阶段的东亚 LD 分数来估计遗传度 z 分数>2 的表型之间的遗传相关性。比较遗憾地是,只提供结果查询,不提供下载,还有甲基化和 HLA 分型的数据库供查询。BioBank::v3 (twbiobank.org.tw)[6]

汇总暂时到这里,期待我们国家其他省份和国家级别的 Biobank 数据的发布。如有错误,欢迎指正!

参考资料

[1]

SNP2HLA HAN.MHC参考的使用: https://www.jianshu.com/p/c444fe97369c

[2]

PheWeb Datasets: https://pheweb.org/

[3]

FinnGen results: https://r7.finngen.fi/

[4]

PheWeb.jp: https://pheweb.jp/

[5]

KoGES PheWeb (leelabsg.org): https://koges.leelabsg.org/

[6]

BioBank::v3 (twbiobank.org.tw): https://taiwanview.twbiobank.org.tw/pheweb


本篇文章来源于微信公众号: 微因

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注