之前体验了一下impute.me的基因检测分析服务,其内容之丰富和详尽让我感到吃惊。基本上涵盖了几乎所有有影响的GWAS研究结果(GWAS-Catalog等来源),于是我感到很好奇,他的评估计算方法,于是再次打开其开源的github地址,找到了一些内容,学习一下。再次为这个项目点赞!
三种多基因风险评分方法
1.Basic count score 基本计数分数
基本上只是计算影响等位基因。这是多基因风险评分最简单的设置。直观理解-等位基因风险越高,得分越高。主要缺点是,它不能区分影响大小不同的SNP。
得分=Σ等位基因计数snp(I)
Weighted-score 加权分数
由每个SNP的效应大小加权的得分。与具有较小效果大小的SNP相比,这具有对具有较大效果大小的SNP加权的额外好处。请注意,适用于二元特征的log(OR)的beta已更改。这种得分类型的唯一缺点是,它的规模是任意的,与其他人群相比,它几乎没有提供有关风险的信息。
加权分数= ΣBeta snp *效应等位基因计数snp(II)
Z得分
以标准偏差给出的高于或低于该人群平均风险得分的得分。Z分数的此特定实现可在此处找到。的频率SNP是从1000个基因组数据的相关超群体获得。效果等位基因计数和Beta与以前的评分相同。该标准偏差的人口是根据计算出这个代码。在许多模块中,增加了一个额外的步骤,其中Z得分被转换为分数较低的总体百分比。这是通过标准pnorm完成的函数,即我们假设一切都呈正态分布。为了检查此假设的有效性,某些模块可以选择与实际分布进行比较。
总体 得分snp =频率snp * 2 * beta snp(III)
零中心得分= ΣBeta snp *效应等位基因计数snp-总体得分snp(IV)
Z分数=零中心分数/标准偏差总体(V)
这些分数被广泛使用,如每个模块中所述。为了进一步了解每个模块,请参阅该模块的源代码。此pdf文件包含PRS派生的进一步示例说明。寻求输入SNP的设置尽可能完整,例如使用LDpred info。但是,更多情况下,它是基于必要性最高的(修剪)命中率。这也在每个模块的基础上指出。
简介先说到这,后面该学习下他的具体算法啦!