Precision medicine integrating whole-genome sequencing, comprehensive metabolomics, and advanced imaging
意义
为了调查全基因组水平的致病基因和变异的价值和临床影响,我们使用了一项前瞻性队列研究设计,招募了同意对其全基因组进行测序并使用临床实验室测试、代谢组学技术和先进的非侵入性成像参与深度表型分析的志愿者。基因组结果与表型结果相结合。约有1/6(17.3%)的成年人有遗传发现,当与深层表型数据(包括带有遗传发现的家族/病史)结合时,1/9(11.5%)具有基因型和表型关联。基因组学和代谢组学关联分析显示5.1%的杂合子具有影响血清代谢物水平的表型表现。我们报告了我们的研究中没有测量健康结果和益处的观察结果。
基因组测序为罕见疾病的诊断奠定了临床价值。虽然越来越多的人接受了选择性基因组测序,但具有深****度****表型****和****成人全基因组疾病相关基因的综合研究尚未见报道。在这里,我们报告了一项历时3年的精准医学研究的结果,目的是将全基因组测序与深层表型相结合。一组1190名成年参与者(402名女性[33.8%];平均年龄,54岁[范围20至89+];70.6%欧洲人)进行了全基因组测序,并使用代谢组学、高级成像和临床实验室检测以及家族/病史进行了深入的表型分析。在1190名成人中,206名(17.3%)至少有1个遗传变异,评估表明其遗传风险为致病(P)或可能致病性(LP),具有易感性。一个多学科的临床小组审查了所有可报告的结果,以评估基因型和表型关联,137例(11.5%)具有相关关联。在血脂异常(n=24)、心肌病、心律失常和其他心脏病(n=42)以及糖尿病和内分泌疾病(n=17)中观察到高比例的基因型和表型关联(>75%)。在69例(5.8%)P/LP变异个体中观察到缺乏基因型和表型关联,这是患者护理的潜在负担。基因组学和代谢组学关联鉴定出61个(5.1%)杂合子,其表型表现影响血清氨基酸、脂质和辅助因子以及维生素途径中的代谢物水平。我们的描述性分析为成人临床评估提供了全基因组测序和深层表型的整合结果。
基因组学|高级成像|精密医学|深层表型|代谢组学
人类基因组计划的完成是一个利用个人遗传变异进行个性化诊断、疾病预测和护理的机会。全外显体或基因组测序(WES/WGS)已被用作医学上的诊断工具,在各种未能诊断疾病的成人患者中,分子诊断率已达到17.5-32%。健康成人的易感性基因组测序已经证明了其在健康成人中的医学,行为和经济效果。以人群为基础的研究来看,在具有纵向电子健康记录(EHR)的卫生系统中实施WES,能够评估各种疾病的遗传风险。DiscovEHR研究的初步结果表明,3.5%的个体在76个基因上具有临床可操作的遗传变异,而~****2.3%的携带致病变异的个体在其病历中观察到相关表型。英国生物银行(UK Biobank)对49,960名具有广泛表型数据的个体进行了前瞻性研究,其最新结果表明,通过调查美国医学遗传学和基因组学(ACMG)59个基因,2%的人口具有需要医疗保健监测的致病或可能致病变异。基因组测序在医学中的价值正在显现;然而,同时调查具有深层表型和成人全基因组疾病相关基因的综合研究尚未见报道。整合基因组和表型信息的见解,可以在我们制定精确医学实践蓝图时提供有用的见解。
理解基因组变异的功能后果是具有挑战性的,并且已经采用了许多方法。分子技术,包括代谢组学(代谢产物),转录组学(RNA),蛋白质组学(蛋白质)和表观基因组学,已经被用于解释基因组变异的功能后果。特别是,儿科病例中单基因条件的诊断,已经允许通过生化和遗传数据结合,以发现代谢紊乱和基因之间的新关联。从大规模基因组研究来看,EHR中广泛的表型数据的使用和来自外显子测序数据的功能丧失(LoF)变体的鉴定提高了我们对以前未发现的基因生物学功能和治疗靶点开发的理解。
为了了解全基因组致病基因和变异与深层表型相结合的价值和影响,我们采用了一项前瞻性队列设计,在一项研究方案下招募志愿者。深层表型包括家族史,过去和现在的个人病史,临床实验室测试,先进的非侵入性成像和代谢组学技术。研究目标为四个方面。首先,我们评估了不同疾病领域的成人参与者的基因型和表型关联,包括癌症、心肌病、心律失常和其他心脏病、血脂异常、糖尿病和内分泌、慢性肝脏、血液学、先天代谢错误和其他疾病。其次,我们展示了一些病例,如果缺乏基因型和表型的关联,通过测序获得全基因组的致病变异,提供给患者护理的建议可能是不明确的。第三,我们询问观察到的病例,常染色体隐性携带者在影像学或代谢组中具有显性表型。最后,我们使用具有深层表型数据的WGS进行研究活动。我们研究了与血清代谢物变化和胆固醇稳态相关的基因。
Results(结果)
Phenotype Test Findings(表型测试结果)
研究队列由1190名志愿者组成,年龄中位数为54岁(年龄范围从20岁到89岁以上,33.8%是女性,70.6%是欧洲人)。队列的人口统计信息如Table 1所示,既往确定的疾病(%)包括癌症(11.0%)、冠心病(4.8%)、糖尿病(3.8%)、慢性肝病(5.1%)和神经系统疾病(10.2%)。与美国国民健康和营养检查调查(NHANES)的成人样本相比,我们的队列中没有发现常见的成人慢性病。这项研究是对209名研究参与者的先导研究的扩展。我们增加了心脏的无创性计算机断层扫描(CT)来测量冠状动脉钙化斑块的数量,作为评估冠心病风险的一种手段。取消双能X线吸收试验。用于全身MRI的详细方案参考SI Appendix, Table S1。心血管可报告结果的标准参考SI Appendix, Table S2,临床试验的参考范围参考SI Appendix, Table S3。每项测试都由认证医师进行评估。MRI、超声心动图(ECHO)、心电图(ECG)、持续心脏监测(CCM)和CT的可报告结果详见SI Appendix, Tables S4–S7。
Fig. 1B按时间顺序提供了来自每个研究参与者的定量表型测量的报告结果热图。除了在先导研究之后增加的CT检测,研究参与者可以根据医疗决定或个人偏好选择省略某些检测;省略的在Fig. 1B中以灰色突出显示。表型检测显示,407人(34.2%)存在胰岛素抵抗和/或糖耐受功能受损;343人(29.2%)存在肝脏脂肪升高(>4%);193人(16.2%)存在心脏结构或功能异常;136人(11.4%)存在冠心病风险(Agatston评分>100,相对风险[RR] 4.3);104人(9.3%)存在肝脏铁含量升高(R2*>80);73人(6.1%)心律失常;57人(4.8%)有心脏传导障碍;23例(2.0%)表现为低海马占有率(≤0.65)。我们确定有20例(1.7%)患有早期肿瘤、前列腺癌、肾癌、淋巴瘤、移行细胞癌、乳头状甲状腺癌、胰腺癌、神经纤维瘤病和纵隔胸腺瘤。其中活检确诊12例,CT确诊4例,手术切除3例,1例经基因检测发现(SI Appendix, Table S4)。评估癌症和肝、肾、血液学、内分泌、免疫学和脂质功能的临床实验测试如图SI Appendix, Fig. S1。我们还计算了在每项测试中有报告结果的和没有可报告结果的参与者的年龄分布。每项测试的年龄分布见SI Appendix, Fig. S2.。有遗传发现和极端代谢物发现的参与者与没有发现的参与者的中位年龄相似(P>0.05)。在ECHO、CT和CCM测试中有报告结果的参与者的中位年龄(四分位数范围)分别为:62岁(55-70);65岁(57-70);64岁(57-70)。在本研究中诊断出MRI-body、MRI-brain和MRI-cancer参与者的中位年龄分别为:55岁(47-64岁);70岁(52-76岁);64.5岁(56-71岁)。
Identification of Sequence Variants with Pathogenicity(致病变异的鉴定)
为了了解调查全基因组致病基因和变异的价值和影响,我们使用了材料和方法中描述的两步过程来筛选和手动解释参与者的每个致病变异。我们遵循美国医学遗传学和基因组学学院/分子病理学协会对序列变异的解释指南(ACMG)。我们的两步过程评估了ClinVar、人类基因突变数据库(HGMD)和人类在线孟德尔遗传(OMIM)中存在的30,281个独特基因的变异。在本队列中,206名(17.3%)参与者至少有一项医学上有意义的基因发现(MSF),其临床意义为致病(P)、疑似致病(LP)或意义不明的可报告变异(VUS-R)。医学上有意义的发现包括常染色体显性或X连锁隐性条件下的杂合子,或常染色体隐性条件下的纯合子或复合杂合子。常染色体显性遗传病最常见的影响基因(例数)包括CHEK2(17例)、MYBPC3(8例)、BRCA2(7例)、ATM(6例)、HOXB13(6例)和LDLR(6例)。在常染色体隐性遗传条件下,最常受影响的基因有HFE(15例)、BTD(5例)和GJB2(2例)。对于X连锁隐性遗传,我们在G6PD基因中发现了2例。在ACMG 59基因中,29例(2.4%)存在P或LP变异。在该队列中有83人(7%)观察到常见的风险等位基因,包括F2 c.*97G>A、F5 Leiden c.1601G>A和ALDH2 c.1510G>A变异。
基因组序列变异的致病性评估并不等同于遗传病的临床诊断。我们的多学科团队整合了基因组研究结果,并评估了参与者的临床特征和家族/个人病史是否为临床诊断遗传疾病提供了足够的证据来支持。OMIM临床概要或出版物(如GeneReviews或primary studies)中列出的临床特征被用来评估基因型与表型的相关性。例如,对于在LDLR基因中观察到致病变异的参与者,研究小组将审查他/她在临床实验室检测结果和代谢组的血脂谱结果,以及钙化斑块的CT扫描结果和家族/个人病史。对于在HNF1B基因中观察到致病变异的参与者,研究小组将审查他/她在临床实验室检测结果和代谢组中的结果,以确定是否有糖耐量受损或胰岛素敏感性受损的指标,以及肾囊肿的MRI检测。在206名至少有1个MSF的参与者中,137名(11.5%)参与者被鉴定出基因型与表型相关(Fig. 2)。血脂异常、心肌病和心律失常、糖尿病和内分泌疾病的基因型与表型的相关性分别高于75%(分别为24/24[100%]、36/42[85.7%]和13/17[76.5%])。在Dataset S1(MSF和表型相关性)中提供了206名携带MSFs参与者的基因、变异和相关表型的详细信息。
先进的成像和基因组测序的结合导致了以前没有建立的遗传性疾病的临床诊断(Fig. 3)。在具有HNF1B、PKD1、PCSK9、MYH7、NF1和CFTR变异的个体中(Fig.3 A-G),全身(WB)-MRI、CT和具有致病变异的遗传学结果为遗传病的诊断提供了证据。无家族/个人病史的HNF1B基因可能存在致病变异的参与者被诊断为肾囊肿和糖尿病综合征。影像学发现双侧肾内有多个亚厘米长的囊肿(Fig. 3A)。基于代谢组的临床检测显示糖耐量和胰岛素敏感性受损。在一名患有视神经胶质瘤、白质病变、大脑中动脉狭窄和Moyamoya综合征的患者中检测到NF1基因(de novo)的致病变异(Fig. 3 E and F)。一名55岁左右的男性被诊断为囊性纤维化。他有消化系统症状和慢性鼻窦感染病史,影像学发现右肺中上区有树芽状结节,并有轻度支气管壁增厚(Fig. 3G)。在CFTR基因中发现了两个突变,c.3846G>A(p.Trp1282*)和c.3454G>C(p.Asp1152His)。遗传学和临床表现的结果与不典型囊性纤维化一致。我们选择了12个案例来说明我们的临床评估检测的数据集成(Fig. 3I)。基因组数据的整合有助于新的遗传疾病的临床诊断。
Prevalence of P/LP Variants without Disease Symptoms or Family History(无疾病症状或家族史的P/LP突变患病率)
对致病性评估的基因组变异的鉴定并不意味着相关遗传疾病的临床诊断。将基因组数据与深度表型分析相结合,提供了进一步了解缺乏基因型和表型相关的机会,这可能会导致患者护理的不确定性。我们报告了每个疾病类别的P/LP变异的患病率(Table 2)。例如,在仔细检查了家族史、既往病史和高级影像学检查的数据后,69名与癌症易感性相关的P/LP变异参与者中,有30名在评估时没有相应的家族史和表型。最常见的癌症变异(病例数)是HOXB13 c.251G>A(6例),CHEK2 c.470T>C(5例),CHEK2 c.1283C>T(2例),以及FH c.1431_1433dupAAA(2例)。BTD基因中3个纯合突变和2个具有P/LP变异的复合杂合突变没有预期的β-羟基异戊酸和乳酸表型升高。在HFE基因中有P/LP变异的4个复合杂合突变也没有预期的肝铁(R2*)、铁蛋白和铁表型升高。
Autosomal Recessive Genetic Variants with Phenotype Manifestations(具有表型表现的常染色体隐性遗传变异)
使用全基因组方法,1027人(86.3%)在680个基因中至少有1个常染色体隐性变异(Dataset S1,常染色体隐性条件和常染色体隐性变异)。最常见的检出基因(病例数)是SERPINA1(99例)、FLG(95例)、BTD(84例)、HFE(84例)和GJB2(71例)(SI Appendix, Table S8)。在产前携带者筛查的基因panel中不常见的基因中,鉴定出18个基因(>1%的观察频率)(SI Appendix, Table S8)。我们观察到常染色体隐性遗传的携带者有表型表现。PKDH1(Fig. 3H)(常染色体隐性遗传性多囊肾病)、ALPL(低磷症)和LMBRD1(甲基丙二酸尿和同型半胱氨酸尿)的结果如Table 3所示。对于血色素沉着症,18%(12/68)的HFE p.Cys282Tyr杂合突变具有高R2(肝铁含量的标志),而在正常基因型的个体中只有8%(87/1034)的人有高R2,这表明铁的调节被破坏。在动脉粥样硬化的多种族研究中,一名低10-y风险Framingham评分(<5%)的参与者的Agatston评分为2963分(RR 10.8),位于同一年龄、性别和种族/民族的第99百分位。在这位参与者的WGS中,我们发现了LMBRD1基因c.63dupA(p.Leu22fs)杂合突变,为功能缺失型(LoF)变异,其表型表现为同型半胱氨酸升高。同型半胱氨酸升高与血管钙化有关。在我们的队列中,我们观察到高同型半胱氨酸(>15 mmolL)的个体发生冠状动脉钙化(CAC>1)的风险增加了近3倍(OR2.7695% CI [1.4001~5.4413];P=0.03)。在检测到相同变异三位二级亲属中,有2名亲属的CAC评分高(>400, 分别为89%和91%),其中1个同型半胱氨酸升高,另一位没有完成同型半胱氨酸检测。甲基丙二酸尿和同型半胱氨酸尿、cblF型(MIM 277380),包括发育迟缓、口炎和皮疹在内的表型在LMBRD1基因杂合突变中未观察到。其他未知因素也可能导致该家族的冠状动脉钙化。
代谢组学分析
1007种代谢物的非靶向代谢组学分析在Metabolon,Inc.(Durham,North Carolina,USA)平台上进行,该平台由四种独立的超高效液相色谱-串联质谱(UPLC-MS/MS)方法组成。有关该平台的详细说明,请参阅我们以前的出版物。血浆用于分析,多个实验批次的数值根据42名(n=457)或300名(n=176)自报健康个体的参考队列,标准化为Z-score。42和300个标准化批次根据7次运行(包括42和300个对照)获得的值,使用线性变换转换为相同的比例。代谢物测量值低于检测阈值的样品被算作代谢物的最小值。使用missForest R软件包估算其他缺失的代谢物水平。临床试验,如定量糖耐量受损(IGT)试验和胰岛素抵抗(IR)试验也在Metabolon,Inc.进行。IR、IGT和非靶向代谢试验均在禁食至少8小时后测量。建议参与者避免服用补充剂或非处方药。
对于极端代谢物(±6 S.D.)的基因组学和代谢组学关联,使用四个标准鉴定罕见的功能性遗传变异:1)在临床上被注释为致病性,2)在HGMD中被注释为疾病突变(DM),或在临床上具有未知意义的变异,其等位基因频率(MAF)<0.025,3)注释为MAF<0.01 CADD>15的基因编码区,或4)注释为CDTS评分<0.01和MAF<0.01的基因非编码区。除非另有说明,否则变异体处于杂合子状态。
基因型和代谢组关联分析。为了了解1007种被测代谢物中与健康状况的生理状态相关的异常水平,我们研究了功能性遗传变异与代谢物水平之间的关系。我们在17.3%的个体中检测到极端代谢物(±6sd)。导致极端代谢物(±6sd)的部分潜在机制是由于激素异常和药物/补充剂摄入。利用《京都基因与基因组百科全书》(KEGG)数据库、人类代谢组数据库(HMDB)和Metabolon,Inc.建立的专有通路数据库中列出的基因与代谢产物关系的整理数据,导出感兴趣的生物功能与代谢产物调节有关的候选基因列表。我们还考虑了酶反应的方向性效应。然后,对基因组数据进行研究,以确定功能性遗传变异。我们确定了31个个体(2.6%)的功能遗传变异与极端代谢物水平之间的关联,这些个体大多富含氨基酸、脂类和核苷酸途径(SI附录,表S9)。根据ACMG指南,DMGDH c.1300A>T和1747G>T和TTPA c.13C>T和c.513_514insTT被归类为LP。SI附录表S9中列出的其他变体被归类为VUS。我们还利用OMIM概要中列出的代谢特征和实验室异常评估了携带与代谢紊乱相关的P/LP变异个体的表型表现。该方法在34名(2.9%)个体中建立了富含氨基酸、辅酶和维生素的代谢产物(95%CI)升高/降低(SI附录,表S10)和脂质途径之间的关联。鉴定了某些代谢产物变异的遗传基础。一个有趣的案例说明了这种方法的价值是一个关联的LoF无意义变异,C.13C> T(P.Ag5*),在TTPA基因与共济失调与维生素E缺乏症(MIM 277460)。三个家庭成员有母系分离变异,并且所有成员的维生素E水平都显著降低,范围从-3.6到-6sd。在这些参与者中没有观察到临床共济失调。
与代谢产物相关的基因以及胆固醇/羟基-3-甲基戊二酸的比例分析。深层表型数据的收集使我们可以寻求更多的研究途径。为了扩展我们的样本集进行这些分析,我们还包括1969年登记在TwinsUK登记处的欧洲祖先双胞胎的代谢组数据,TwinsUK登记处是英国国家成年双胞胎登记处。我们使用基于基因的折叠分析来确定稀有功能变异与1007种被测代谢物水平的统计显著差异相关的基因。我们发现苯丙酮尿症基因PAH与代谢物苯丙氨酸和γ-谷丙戊基苯丙氨酸之间,以及戊二酸血症基因ETFDH与辛烷基肉碱、癸酰基肉碱和壬酰基肉碱之间存在显著关联(图4)。我们确定了19个与其他11个基因的显著关联(SI附录,表S11)。所确定的关联在很大程度上反映了已知的情况,如二甲基甘氨酸脱氢酶缺乏和组氨酸血症。然而,确定了5种关联:1,5-脱水葡萄糖醇和SLC5A10之间;α-羟基异戊酸和2-羟基-3-甲基戊酸和HAO2之间;5-羟基赖氨酸和HYKK之间;N-乙酰-β-丙氨酸和PTER之间;α-酮戊二酸和NIT2之间。已知NIT2能分解α-酮戊二酸,我们已经鉴定出LoF变体。
为了测定羟基-3-甲基戊二酰辅酶A(HMG-CoA)还原酶抑制剂如他汀类药物的疗效,我们测定了前体羟基-3-甲基戊二酸(HMG)和产物胆固醇。我们计算了胆固醇和HMG(CHO:HMG)的比值作为HMG-CoA还原酶抑制剂疗效的指标。他汀类药物被用于降低低密度脂蛋白(LDLs),LDLs是冠心病的主要危险因素之一。接受他汀类药物治疗(n=52)和依西替米治疗(n=9)的患者的CHO:HMG比值(t-test,平均值分别为0.85,P=0.001和0.80,P=0.02)低于未接受任何降胆固醇治疗(平均值为1.17)的603名患者(SI附录,图S3A)。用PCSK9单克隆抑制剂治疗的两个人分别在第1和第5百分位具有较低的CHO:HMG比率。两个LDLR P/LP变异的未治疗参与者分别在第94和96个百分位具有高CHO:HMG比率(SI附录,图S3B)。为了扩展我们的分析,我们纳入了来自TwinsUK登记处的代谢组数据;我们观察到,在控制基线体重指数(BMI)、性别和年龄后,HMG与纵向心血管事件(P=0.01)相关。为了确定基因与CHO:HMG比值之间的关系,我们还使用了基于基因的折叠分析。全基因组分析确定了18个与高CHO:HMG比率相关的基因(P<0.01,至少5个独立携带者),以及9个与低CHO:HMG比率相关的基因(SI附录,表S12)。
表S9 极端代谢物(±6 S.D.)和相关罕见功能性遗传变异
注:使用材料和方法中列出的四个标准来鉴定罕见的功能性遗传变异。除非另有说明,否则变异体处于
杂合子状态。根据ACMG指南*,具有(可能)致病性临床意义的变体。从类别2到类别4的变体被视
为具有未知意义的变体。
#:潜在的复合杂合子,但变异体的阶段尚不确定。
表S10 影响血清代谢物水平的致病性/可能致病性变体
注:除非另有说明,否则变异体处于杂合子状态。
*:报告为VUS-R。
#:潜在的复合杂合子,但变异体的阶段尚不确定。
表S11 基因组和代谢组关联的全基因组基因折叠分析
图S3 个性化测量结果。(A&B)胆固醇稳态:接受他汀类药物治疗(n=52,浅蓝色圆点)和依西替米治疗(n=9)的患者的CHO:HMG比率较低(分别为平均值=0.85,p=0.001,平均值=0.80,p=0.02)。接受PCKS9抑制剂治疗的个体表现出较低的比率(深蓝色点,p=0.002),LDLR携带者表现出较高的比率(红色点,p<0.03)。(C) 与对照组相比,服用别嘌呤醇(n=12,蓝色显示)的个体黄嘌呤和黄嘌呤水平升高。服用高剂量别嘌呤醇(200-300毫克,红色圆圈)的个体与服用低剂量别嘌呤醇(50-100毫克,黑色圆圈)的个体相比,黄嘌呤和口苷水平升高。
表S12 基于全基因组基因的CHO/HMG基因折叠分析
讨论
我们的结果表明,当我们遵循ACMG指南评估全基因组范围内致病基因和变异体的致病性时,6个成人中(206[17.3%])至少有1个具有致病性的变异。当我们将遗传分析与深层表型分析(使用代谢组学和高级成像以及既往病史和家族史)结合时,137名(11.5%)参与者具有基因型和表型关联,支持临床医生对我们成人自荐队列中的遗传性疾病进行诊断的能力。根据疾病类别,基因型和表型关联的百分比从37.5%到100%不等。在疾病类别中,血脂异常、心肌病和心律失常,以及糖尿病和内分泌疾病的关联百分比高于75%。此外,我们证明了先进的成像在检测早期生理测量(如动脉粥样硬化性疾病和成人遗传病的心肌病)中发挥了重要作用,为医生在将基因组发现与深层表型相结合时对遗传病的鉴别诊断提供了证据。与使用EHR的大规模基因小组方法(如DiscovEHR(12)和UK Biobank Study(13)相比,我们的全基因组分析与前瞻性的深层表型评估相结合提高了灵敏度(分别为10.9%和2.3%,约为5倍),以识别先前未诊断出遗传疾病的成人。
全基因组的方法也导致缺乏基因型和表型关联的变异检出,这可能会给基于可能的诊断造成大量结果的负担。基因检测检出的P/LP变异并不等同于诊断患者患有相关的遗传疾病。医生需要正确地将基因发现的预测能力与患者的医疗数据相结合,以进行不同的诊断(34)。在我们的队列中,69个(5.8%)个体具有P/LP变异,但没有相关的家族史、病史或在测试中检测到的表型。在这个人群中没有疾病症状有3种可能的解释。首先,非致病性的概率(可能的致病性变异,1%到10%)(34,35),外显性降低,可变的表现性,或疾病表现的迟发性可能是缺乏基因型和表型关联的原因。例如,一个从大型荟萃分析中得到的结果,CHEK2基因中的c.470T>C和c.1283C>T变体已被报道导致癌症风险增加,但与其他CHEK2致病突变相比,风险(外显率降低)要低得多(36)。其次,家族和病史的可能不够全面,不足以用于建立遗传病的临床诊断。可能需要获得更多与变异相关的潜在表型关联的其他个人和家族史,以便进行进一步评估。有HOXB13 c.251G>A突变的6个体中没有报告前列腺癌家族史或病史。心血管疾病,高血压和糖尿病是卫生系统中最常见的家族病史(37)。根据我们的数据,在血脂异常、心肌病和心律失常、糖尿病和内分泌疾病中,来自家族史的基因型和表型关联的比例从24%到57%不等,我们的深层表型检测发现了临床和临床前表现,进一步增强了成人遗传疾病的临床诊断(图2B)。第三,保护性(即恢复力)等位基因可能存在于这些无症状个体的基因组中,尚未被发现。
通过深层表型,我们发现常染色体隐性疾病的杂合携带者表现出可检测到的表型变化。常染色体隐性遗传病的杂合子携带者通常是健康的,没有相关的疾病症状。一些携带者可能有轻微或较轻的疾病症状。我们从WB-MRI结果中鉴定出8个PKDH1杂合子(平均年龄53.1岁)有肝和/或肾囊肿。其余5名PKDH1携带者(平均年龄35.6岁)在评估时没有可检测到的囊肿。从基因组学和代谢组学的关联中,我们确定了61个(5.1%)具有影响血清代谢物水平表现的杂合子。特别是,30名PAH携带者中的10名(33%)通过代谢组学检测到偏高的苯丙氨酸,类似于使用苯丙氨酸耐受性试验(38)进行的观察,进一步证实了遗传变异的致病性。我们的数据尚未被广泛探讨,以评估常染色体隐性条件的杂合子携带者的长期表型表现是否会对健康造成影响。例如,HFE C282Y杂合子携带者已被证明具有轻度铁超载表型,导致肝癌风险增加(39)。需要对这些个体进行纵向评估,以确定未定义发现的临床意义。
一部分可报告的代谢组学结果与葡萄糖和胰岛素调节失调有关。这些个性化的测量可以使个体在个性化血糖反应的基础上优化饮食和调整生活方式。例如,使用代谢组学的个性化测量促进了成年发病的糖尿病的临床诊断,其中精确的诊断可以提供适当的治疗,如低剂量磺脲类药物,而不使用胰岛素进行不正确的治疗。至于胆固醇稳态,我们发现测量CHO:HMG的比率和使用降胆固醇药物观察到的变化相一致。我们的研究还鉴定了几个与CHO:HMG比率相关的候选基因,提示了调节胆固醇内稳态的可能机制和途径。此外,使用TwinsUK计划数据,发现HMG与心血管事件相关。需要进一步的研究来确定HMG或CHO:HMG比率是否是衡量胆固醇控制和管理效率的有用生物标志物。其他例子是黄嘌呤氧化酶抑制剂,如别嘌呤醇,用于治疗与高尿酸(即尿酸盐)相关的疾病,包括痛风和肿瘤溶解综合征。黄嘌呤、次黄嘌呤、奥罗替丁、乳酸酐(即甲酸)和尿酸盐的代谢物水平可用于监测药物疗效(SI附录,图2,S3C)。
医学传统上是在已经有症状的人身上进行的。临床医生综合筒仓测试结果进行不同的诊断,并相应地设计治疗方案。我们的组学和先进成像相结合的方法,在识别和诊断成人临床评估未诊断的遗传疾病的方面,近期取得了一些显著的成功。此外,我们的数据也为个体分析水平上的异常生理测量提供了合理的遗传原因。我们的研究没有衡量健康结果,效益和成本效益。需要对这些个体内试验进行重复评估,以确定这些发现的临床意义。总体而言,我们的研究可以在精确药物初始的方法学背景下进行评估,并且有可能改变随后的基因组测序的临床评估。
附录方法:
全基因组测序鉴定与人类血液代谢物相关的从常见到罕见的遗传变异
通过对常见遗传变异的全基因组关联研究(GWAS)和外显子组测序,研究了改变血液代谢组的遗传因素。我们对1960名成人的常见、低频和罕见变异进行了全基因组测序研究,利用全面的代谢物谱分析将遗传变异与血液代谢物水平联系起来。我们集中分析了三个纵向数据收集中644种代谢产物的一致水平。101个位点的遗传序列变异与246种代谢物(38%)水平相关(P≤1.9×0-11)。我们在队列中1054个无关个体中鉴定出113个(0.7%)携带可能影响7个基因功能的杂合子罕见变异。7个基因中有13个与先天性代谢缺陷或其他儿童遗传条件有关。这项研究扩展了影响代谢组的基因座图谱,并强调了杂合子罕见变异在确定成人血液代谢异常表型中的重要性。
血液代谢物在个体间差异很大。这种个体间的差异是由许多因素造成的,例如个体间的遗传和环境暴露差异。事实上,血液代谢物剖面可以作为个体的唯一标识符。这一特征表明,大量代谢产物具有高度的遗传适应性,这一特性反过来反映了编码酶、代谢转运体和代谢调节器的基因遗传多样性。
许多研究人员试图找出影响代谢物水平的个体遗传变异,以深入了解影响疾病发病的分子过程。事实上,由于代谢特性的定量和精确测量,成功地定位了影响许多代谢产物的基因座和因果基因。最近的综合GWAS分别鉴定了145个、31个和8个代谢位点。最近,郭等人对80名健康志愿者的575种代谢物进行了外显子序列分析和代谢谱分析,确定了少量与代谢途径相关的罕见变异,这些变异可能在临床上很重要。最近的三项研究使用了外显子组或全基因组测序数据,并确定了五个含有影响五种代谢物血液水平的罕见变异的基因。
为了确定影响人类血液代谢的常见和罕见变异,我们对1960个个体进行了全基因组测序鉴定的遗传变异进行了分析。许多参与者已被纳入先前的研究(TwinsUK队列)。然而,我们能够利用最新一代代谢组分析技术的改进和深层全基因组测序方法的进展来寻找影响代谢物水平(mQTLs,或代谢定量特征位点)的个体变异。我们专注于mQTL信号的识别,以及与非常偏远的代谢物水平相关的罕见变异的定位。我们的研究最终强调了杂合子罕见变异引起的成人代谢物水平异常的普遍性。
图1 644种血液代谢物的遗传力。极条图描述了基于8条代谢超途径(中央插入)着色的遗传力(h2)。由独立的GWAS变量解释的方差以黄色显示。常见的环境成分显示为浅绿色。从2049名受试者(包括413对单卵双胞胎和552对双卵双胞胎)中,在长达18年的三个不同时间点采集血清样本。
结果
血清代谢物水平的遗传力
在长达18年的三次临床访问中收集了1960名患者的血清样本,并在非靶向代谢组学平台(在线方法)上进行分析。共鉴定和量化了901种代谢产物,包括8种生化超途径:氨基酸、碳水化合物、辅助因子和维生素、能量、脂质、核苷酸、肽和外源物质。利用413对单卵双生子和552对双卵双生子的ACE双生子模型估计血清代谢物水平的遗传度,并将其作为遗传关联分析中个体代谢物优先排序的方法(在线方法)。在Metabolon平台测量的901种代谢物中,644种既稳定(由三次访问的稳定水平定义,变异系数小于50%;在线方法和补充表1)又显示出可测量的遗传力。这644种代谢物的遗传力范围从10.5%(蛋氨酸亚砜)到93.2%(乙基丙二酸),中值为48.8%(图1)。估计的环境成分范围从0%(141代谢物)到75.1%(蛋氨酸亚砜),中值为10.8%。在644种稳定代谢物中,158种(24.5%)化学结构未知。总的来说,高遗传力和值的一致性表明代谢物作为中间表型是遗传关联分析的最佳选择。
常见和低频变异的代谢组GWAS整个基因组的平均深度为30-40×覆盖(在线方法)。我们用加性模型对644种代谢物的669万个常见(次要等位基因频率≥5%)和466万个低频(0.5%≤MAF<5%)变异及其对数相对丰度进行了全基因组关联试验。利用保守性的Bonferroni校正代谢组全基因组显著P值为1.9×10-11(=1.2×10-8/644代谢物;全基因组显著P值为1.2×10-8说明所有MAF≥0.5%的独立变异;参考文献15),我们鉴定了223个与246个代谢物中的一个或多个独立相关的变异通过统计显著性阈值(图2,在线方法和补充表2)。P值小于1×10-5的所有GWAS关联的汇总统计包括在补充表3中。我们在所有8个超级途径中发现188种代谢物的相关变异,以及58种未知代谢物,与之前的发现5,6一致,ACADS和NAT8的变异P<1×10-200。由相应遗传变异解释的变异年龄百分比从1.8%(肾上腺)到高达62.9%(丙二酸乙酯),中值为8.3%(图1)。在具有显著GWAS变异体的246种代谢物中,解释的方差与遗传力之间的相关性(r2)为0.23(补充图1)。解释的方差可能在GWAS中被夸大,因此需要来自独立数据集的确认数据。利用基因本体注释(在线方法)将223个全基因组显著独立变异定位到125个基因。这125个基因进一步聚集成101个基因座,其中一个基因座包含一个或几个基因,每个基因座之间的距离在500kb以内。定位后,135个变异也可以通过GTEx数据库联盟的顺式表达数量性状位点(cis-eQTL)数据与基因连接。
除了先前研究中报告的117个变异体和GWAS目录中报告的16个额外变异体外,我们在60个位点中确定了与85种代谢物相关的90个变异体(补充表4)。其中48个位点是完全新的,12个位点包含先前报道的代谢变异(mQTLs)。其中5个新变种与GWAS目录中的疾病有关,如炎症性皮肤病、慢性肾病和类风湿关节炎,但与代谢产物水平无关。在先前研究中报告但在我们的分析中未被确定为显著的代谢变异中,143个变异与代谢产物分析未发现的代谢产物相关,6个变异在参考构建38中被剔除。其余96个变异体的P值略高,但与先前GWAS相比,与相同代谢物相关(补充图2)。
图2 代谢物水平和遗传位点关联的曼哈顿图。对常见(MAF>5%)和低频(0.5%<MAF≤5%)变异的GWAS分析确定了所有超级途径中246种代谢物的101个位点(颜色见插图)。GWAS显著P值阈值为1.9×10-11。
未知代谢物与已知功能基因的关联
总的来说,有31个位点含有多个(n≥3)变异和/或与多个(n≥3)代谢物相关。在许多情况下,多个高度相关的变体显示出与多种代谢物的优先关联,包括未知代谢物(补充图3)。共有58种未知代谢物被定位到51个基因(补充表2)。我们开始评估是否有可能通过利用遗传信息来识别未知代谢物的性质。
在液相色谱和质谱(LC-MS)数据中,其精确化学特性尚未确定的化合物具有其独特的质量、保留和脆化特性,通常允许进行初步的结构分配或鉴定。本研究中发现的未知代谢物与已知功能基因的关联为更可靠的结构分配提供了额外的信息。例如,未知的X-12511与NAT8(N-乙酰转移酶 8)相关,我们确认其为2-氨基辛酸的乙酰化产物,即N-乙酰-2-氨基辛酸(补充图4)。与硫转移酶基因(SULT1A4)相关的X-12206被确定为硫酸化抗坏血酸(补充图5)。
但是,并非所有基因关联都总是显而易见的。 例如,X-12844与醛基酮还原酶基因(AKR1D1)相关,后者负责催化将含有delta(4)-3-one结构的胆汁酸或类固醇还原为5-beta形式。 X-12844的质谱数据表明存在葡糖苷酸修饰。 利用该基因编码类固醇加工酶的信息,我们将注意力集中在可能的葡萄糖醛酸苷修饰的类固醇骨架上。 因此确定X-12844为四氢可的松葡糖醛酸苷(补充图6)。 该基因缔合可能是醛酮还原酶对前体可的松形成四氢可的松的催化作用的结果,四氢可的松随后被糖醛酸化,作为类固醇加工的一部分。 有趣的是,一系列三个未知的代谢物(X-11530,X-16946和X-21448)都与同一基因关联,即UGT1A(UDP葡萄糖醛酸糖基转移酶家族1成员A复杂基因座)。 考虑到基因的功能,最初假设这些代谢产物是葡萄糖醛酸化产物。 但是,质谱数据不支持该假设,因为代谢物的分子式没有适当的原子组成。 在进一步检查基因功能后,我们确定该基因突变的个体可能会影响胆红素代谢。 胆红素的分子式为C33H36N4O6,三种代谢物是C17H18N2O4和C16H18N2O5的两个异构体。 根据分子式,这些代谢物似乎是胆红素可能的氧化分解产物。 该假说的进一步支持是在胆红素和这些代谢物之间检测到的碎片离子高度相似(补充图7)。
鉴定罕见变体。 我们首先使用负担测试(序列内核关联测试,SKAT)来识别推定的编码区和启动子区,这些区会呈现出功能上显着的稀有变异。 该方法确定了347个独特区域与17种代谢物的紧密关联(P <4.2×10-10),这些代谢物具有严格的基因组控制(0.95≤λ≤1.05;补充图8和补充表5)。 但是,要解释这些基因区域与受影响的代谢物之间的SKAT关联具有挑战性。
鉴于这些结果,我们采用正交方法,重点关注研究人群中的极端离群值。 在整个队列中某些代谢物的变化很大,尾巴比正常分布更长。 我们确定了151个个体(122个无关),其中69种代谢产物中的一种或多种的水平持续超过4s.d。 从总体平均值(任意严格的阈值;在线方法和补充表1)中得出。 然后,我们试图在那些“异常”个体中找出罕见的(MAF <1%)功能变异,这些变异可以解释观察到的极端代谢物值。 为此,我们使用了双重策略(在线方法和补充图9),该策略在当前和先前GWAS中确定的基因座内以及相关代谢途径的基因中进行搜索。 在个别异常值中识别出的23种罕见编码变体(缺失,终止增益或缺失,框内或框外插入缺失)中,我们排除了代谢水平正常的其他人共享的9种变体(在线方法)。 总的来说,我们在10个基因中鉴定出14个候选稀有变体:GWAS基因座中8个基因中的12个变体和相关途径中2个基因中的2个变体(表1)。 其中,由1,5-脱水葡萄糖醇的异常值携带的2个编码变体(等位基因频率分别为0.51%和0.56%)在低频GWAS变体中也很重要(补充表2)。
为了评估14种稀有变体在观察到的异常代谢产物水平中可能的因果作用,采用了五个标准:(1)携带相同变体的无关个体异常的存在; (2)使用蛋白质结构分析预测功能作用; (3)鉴定同一基因中与代谢物水平变化相关的其他和独立的罕见变体; (4)据报道,带有稀有变体的基因被认为是先天性代谢缺陷的决定因素; (5)该基因在负荷测试中的意义(表2)。
在14个罕见变体中有5个在具有极高代谢产物水平的多个无关个体异常中观察到,这具有因果关系(标准1;表2)。 可以在蛋白质结构信息的背景下合理考虑13个变异的因果关系(标准2;表2和补充图10-15)。 我们进一步搜索了表2中描述的10个候选基因在所有1,960个基因组中的稀有功能变异。此搜索有助于鉴定7种与代谢物的统计差异相关的基因中的14个稀有变异(标准3;在线方法,补充图)。 16和补充表6)。 此外,以前有10个基因中的7个与先天性代谢或儿科遗传状况有关(标准4)。 ACADS c.596C> T | p.Ala199Val变体和ETFDH c.1001T> C | p.Leu334Pro变体已被鉴定为致病性。 在SKAT负荷测试中,两个基因很重要:DMDGH和HYKK(标准5)。 根据上述特定条件,我们对基因的稀有变异可能具有因果作用进行了排序,其中对DMGDH中变异的因果关系的支持最大。
图3 效应大小与次要等位基因频率的关系。描述了在GWAS中鉴定的294个常见(蓝色)和43个低频(绿色)变异以及在极端代谢物值研究中鉴定的13个罕见变异(橙色;杂合子)的绝对效应大小(以z值为单位)。红色异常点描述了唯一一个罕见的复合杂合子变异。误差条表示效果大小的标准误差。黑色曲线是y~x–0.39的拟合幂律函数,确定系数r2=0.75。
我们研究了效应大小与等位基因频率的关系。正如预期的那样,频率较低的变异具有更大的绝对效应大小(在线性模型中定义为标准化系数,在每个效应等位基因拷贝中以z分数为单位),与普通变异相比,中值为1.14,中值为0.40。稀有变异的效应大小最大,中值为4.48。效应大小与等位基因频率之间的关系可用y~x–0.39定义的一般模型表示,其中y表示绝对效应大小,x表示次要等位基因频率(图3)。然而,很难从研究的统计能力中分离出效应大小;也就是说,只有通过大的效应大小才能识别出罕见的变异。考虑到这一点,本研究记录了普通变异中没有大效应量的变异。
图4具有极端血液代谢物水平的个别异常值中罕见变异的映射。对151个异常值(代谢产物水平超过平均值4 s.d.的个体)的遗传分析支持了在10个基因中为27个异常值和66个额外个体定位罕见变异。每个子图中的X轴上标注了变体。Y轴显示血清代谢物水平的Log10转化值。一种代表性代谢物被描述为ETFDH或ACADS。每个方框图中的三组(绿色、橙色、紫色)表示在长达18年的时间内三次访问的值。每个方块图的晶须显示从较低和较高的四分位数到四分位数范围(IQR)的1.5倍内的最低和最高值。
由于这项研究采用了全基因组测序方法,我们还寻找了对代谢酶水平有重大影响的罕见调节变异。我们使用以下步骤对基因组进行评分:(1)从平均值中识别代谢产物水平超过4 s.d.的离群受试者;(2)通过GWAS或途径分析识别携带离群中稀有启动子变异的基因;(3)寻找携带相同稀有变异和过量代谢产物水平的额外个体,筛选特征值大于10的稀有启动子变异体。该方法在三对双胞胎和一对无关个体中鉴定出四个启动子变体(补充表7)。在稀有变异体SKAT分析中,启动子区均不显著。鉴于携带这些启动子变体的个体数量有限,我们只能怀疑这些变体在代谢水平上的因果作用。在未来,识别具有相同变体的其他个体将提供这些变体功能影响的更多证据。
图5 ACADS的结构可视化。该结构描述了在本研究中发现的两个变异体(蓝色)和与先天性代谢缺陷(短链酰基辅酶A脱氢酶缺乏症,SCADD)相关的变异体(红色)。ACADS显示为单体,辅因子黄素-腺嘌呤二核苷酸显示为球体。新发现的变异集中在先前与孟德尔病相关的区域内。顶部插图,Ala199Val预计会与Phe213和/或Ala170发生冲突,导致功能丧失。在相同的空间邻域中,OMIM变异体Trp177Arg可能由于失去与Phe213的芳香族堆积相互作用而失稳。底部插入,Ala356Thr变体预计与螺旋束中的残留Ala279、Ile282和/或Ala385发生碰撞。在与Ser356相同的螺旋上,Ser353Leu变体可能由于与Thr388和/或Lys349的可能空间冲突而导致功能丧失。PDB:2VIG。
与先天性代谢缺陷的相关性
我们确定了93名代谢物水平异常的个体,他们携带10个基因中的14个罕见变异,其中27名个体的代谢物水平始终高于平均值(图4)。在93名受试者中发现的所有罕见变异都是杂合子。因此,我们有兴趣探索这些在本研究中发现的罕见变异与已知的先天性代谢缺陷之间的联系,这些先天性代谢缺陷是典型的常染色体隐性疾病。与先天性代谢缺陷相关的5个基因是:与口腔酸尿相关的UMPS(MIM 258900)、与二甲基甘氨酸脱氢酶缺乏相关的DMGDH(MIM 605850)、与短链酰基辅酶a脱氢酶缺乏相关的ACADS(MIM 201470)、与戊二酸血症II型相关的ETFDH(MIM 231680),与肉碱乙酰转移酶缺乏症相关的CRAT(MIM 606175)(表2)。短链酰基辅酶A脱氢酶缺乏症(SCADD)和戊二酸血症II型(GA-II)是当前新生儿筛查的一部分,并被纳入美国许多州要求的次要指标。
为了说明新变异体与已知变异体在与先天性代谢缺陷相关的比较中可能的功能作用,我们在图5中展示了ACADS结构以及与短链酰基辅酶a脱氢酶缺陷相关的新变异体和已知变异体。本研究中的两个罕见变异体与先前描述的变异体聚集在一起:c.596C>T | p.Ala199Val变异体在β-片状结构域中接近孟德尔c.529T>c | p.Trp177Arg变异体,c-末端α-螺旋结构域中的c.1066G>A | p.Ala356Thr变异体在几个孟德尔变异体附近。这两个新变体可能导致与相邻残基的空间位阻碰撞,导致功能降低。
与其他代谢途径的联系
LCT(编码乳糖酶)的罕见变异与先天性乳糖酶缺乏症(MIM 223000)有关,导致新生儿腹泻。编码变异体的机制不同于导致成人型低乳症的调节元件变异体。我们发现在LCT中携带罕见功能变异的受试者有异常的1,5-脱水葡萄糖醇水平。先前的研究表明,血清中1,5-脱水葡萄糖醇水平与高血糖和习惯性摄入乳制品有关;然而,与乳糖或半乳糖(乳糖酶催化乳糖水解的产物)的关系尚不清楚。SLC5A10中编码肾脏特异性钠依赖性糖转运蛋白的罕见变异也导致1,5-脱水葡萄糖醇水平的变化。众所周知,血液中1,5-脱水葡萄糖醇的水平在一定程度上是由肾脏的主动摄取维持的。
我们在SULT2B1中发现了与提高和降低硫酸雄酮水平相关的罕见变异。结果2B1编码两种催化类固醇激素硫酸盐结合的酶。在HYKK中发现的稀有变异体可能会破坏编码的羟赖氨酸激酶将5-羟基正弦转化为5-磷酸氧基赖氨酸的能力。
这些基因与先天性代谢缺陷无关。我们搜索了外显子聚集联合体(ExAC)数据库,该数据库可能代表了表1所列罕见变异纯合子个体的一般群体。对于LCT、SLC6A3或SULT2B1,未发现此类事件。相反,在ExAC数据库中,HYKK和SLC5A10中的变体可以在纯合状态下找到。
图6脂肪酸代谢和β-氧化。(a)四个携带罕见变异的基因被强调。代谢物显示在灰色框中。(b)对应异常值中代谢物水平z值的热图。异常值的恒等式表示为家族ID、合子性(MZ,单合子;DZ,双合子)、孪生子数、基因名和异常值携带的变体的连锁。
脂肪酸代谢和β-氧化
在四个基因(ACADs、CRAT、DMGDH和ETFDH)中,有27个携带七个罕见变异体中的一个或两个,涉及脂肪酸代谢和β-氧化(图6)。4个ACADS杂合子变异个体(一对单卵双胞胎,2MZ1和2MZ2,一对双卵双胞胎,3DZ1和3DZ2)的脂肪酸(琥珀酸甲酯和丙二酸乙酯)和脂肪酰肉碱(丁酰肉碱)水平升高。四个个体均为c.625G>A | p.Gly209Ser变异的纯合子。这一观察结果与SCADD33患者的乙基丙二酸尿和乙基琥珀酸尿的主要生化特征以及血清丁酰肉碱升高相一致。其他脂肪酰肉碱也与阻断肉碱酰基转移酶活性(CRAT)或下游电子转移(EFTDH)反应的变体有关。有趣的是,具有复合杂合子DMGDH变体的个体(一对单卵双胞胎,5MZ1和5MZ2,以及6DZ1;经家庭成员全基因组分析证实的复合杂合子)具有最高的二甲基甘氨酸累积量(平均z得分>10)(图3)。除了高水平的二甲基甘氨酸外,一些DMGDH变异株(c.898C>T | p.Leu300Phe或c.1300A>T | p.Lsy434*)的个体脂肪酸或脂肪酰肉碱也有中度升高。
SLC6A3罕见变异的临床相关性。
我们在一名帕金森氏病患者(64岁时确诊)的SLC6A中发现了一种罕见的变异(c.70G>a | p.Val24Met),编码钠依赖性多巴胺转运体。SLC6A中的纯合子和复合杂合子变体已被证明可导致婴儿帕金森病肌张力障碍(MIM 613135)。该基因的疾病变异减少多巴胺的再摄取。研究中的这个个体体内硫酸多巴胺水平的升高可能是由这个主要缺陷引起的,也可能反映了外源性使用左旋多巴治疗帕金森病。
总的来说,我们观察到有相当比例的成年人有罕见的杂合子变异,这些变异与各种代谢物的正常水平有显著的偏差。一些携带罕见变异的基因与已知的常染色体隐性遗传疾病有关。我们无法获得更详细的临床信息,因为这将需要对受试者进行身份识别和联系,这与我们机构审查委员会的伦理批准相矛盾。因此,偶然的发现没有返回给研究参与者。
评估先前报告的罕见变异和群体意义
我们评估了当前研究中与代谢表型相关的罕见变异的影响(n=32,等位基因频率<1%)(补充表8和9)。其中,在研究人群中可观察到19个变异,其中9个变异具有显著的P值(小于等于2.6×10-3=0.05/19;补充表8)。它们对应于以下三种代谢产物:组氨酸(HAL)、苯丙氨酸(PAH)和3-脲基丙酸(UPB1)。与这些基因相关的潜在常染色体隐性遗传疾病包括组氨酸血症/组氨酸尿、高苯丙氨酸血症/苯丙酮尿症和β-尿毒症丙酸酶缺乏症。然而,在最初的出版物和当前的研究中杂合子变异体的效应大小一般是适度的(补充表8)。
总的来说,通过结合在基因编码区和启动子的离群点中发现的罕见变异以及上述已验证的变异,我们总共确定了175个个体(其中113个是无关的,占队列中所有无关个体的10.7%)具有可能影响17个基因功能的罕见变异。在这些个体中,35个(26个无关,占所有无关个体的2.5%)的代谢产物水平超过平均值的4 s.d。17个基因中有13个与先天代谢缺陷或已知的儿童遗传条件有关。
讨论
这项工作代表了对血液中代谢物的全基因组序列分析。它建立在以前由不同群体进行的大规模全基因组、共同变异关联分析的基础上。它证实了许多代谢物数量性状与包括同源基因在内的遗传位点的关联是成功的。一个重要的结果是,通过与常见和低频变异的关联,在基因组位点内识别出具有大效应的罕见变异。第二个观察是从先天代谢缺陷的极端到成人异常的异常异常分布,再到群体水平上代谢物分布的广泛差异的连续性。这些数据支持罕见基因变异在常见疾病中的重要作用。
我们使用纵向测量来评估值随时间的一致性,并减少存储和测量的误差。分析将年龄作为协变量,因为认识到代谢物水平在生命中可能发生变化。例如,循环血中类固醇脱氢雄酮硫酸盐(DHEA-S)和4-雄甾-3β,17β-二醇单硫酸盐的水平随着年龄的增长而降低。我们的研究扩展了先前的分析,包括更多的代谢物遗传连锁(246个代谢物)和定位的位点数量(101个位点)。总的来说,60个位点的90个变异是新的mQTLs,从而阐明了血液代谢组的新的遗传决定因素。在本研究所鉴定的223个独立的GWAS变异中,只有12个在外显子区,其余的变异在非编码基因组中被发现。先前的研究报告中报告的额外的基因座通常得到了确认,尽管由于提交全基因组测序的队列规模较小,统计关联度较低。此外,研究还调查了158种身份不明的代谢物。其中,58个被成功定位到遗传位点。这些遗传关联使得结合质谱数据成功地鉴定了一些未知特性的代谢物。
我们通过研究特定代谢物水平一致异常的个体来确定罕见的变异。对这些定位位点的后续分析发现了与统计异常(尽管不太极端)代谢物水平相关的其他罕见变异。稀有变异的鉴定也突出了杂合性在未被识别的异常表型中的作用。郭等人最近的研究。通过分析80名健康志愿者的全部外显子,探讨了导致极端代谢物水平的罕见变异。
对于7个个体,他们在11个基因中提出了11个罕见的变异,以及与代谢水平异常相关的相关途径。因此,研究杂合性的临床后果是非常有意义的。
具有罕见变异的个体中,似乎有助于血液中代谢物水平的比例是显著的:研究人群中10.7%的无关个体。我们发现的17个基因中,有13个与代谢产物水平异常相关的罕见变异是已知的,它们在常染色体隐性遗传的先天性代谢缺陷或其他儿童遗传疾病中起作用。这些基因中的杂合度被广泛认为是无症状的;然而,有个别报告显示,其中三个基因的杂合度对临床或代谢的影响:UMPS、ACADS和ETFDH。我们鉴定了一个成年帕金森病患者,他是SLC6A3中一个罕见变异的杂合子。该基因与婴儿帕金森病肌张力障碍和多巴胺再摄取不足有关。最后,对启动子区域的分析表明,非编码的稀有变异可以调节与孟德尔病相关的基因。我们的数据强调了多种罕见变异的代谢结果,并为它们可能转化为成人发病的临床症状提供了可能性。
我们将分析扩展到包括负荷试验,其中基因或启动子可能具有比预期的更有害的罕见变异与异常代谢水平。尽管测试提供了额外的候选基因,但结果证明难以解释。此外,我们还验证了先前报道的杂合子罕见变异体,如HAL(组氨酸)、PAH(苯丙氨酸)、UPB1(3-脲基丙酸)、FGF8(赖氨酸)和MDGA2(顺-4-癸酰肉碱),这些变异体与相关代谢物的适度升高有关。
全基因组测序方法通过基因分型阵列和外显子组测序分别获得信息。GWAS在很大程度上评估了常见的变体,而忽略了罕见的变体。外显子组分析遗漏了大多数GWAS变体,因为它们位于非编码区域。全基因组测序方法的使用定义了一种以GWAS位点为特征的代谢组遗传结构,包括相关基因、eQTL/mQTL信号和大效应的罕见变异。
在线方法
队列描述。研究对象是登记在TwinsUK登记处的双胞胎,TwinsUK登记处是英国国家成年双胞胎登记处。双胞胎在连续的媒体宣传中被招募为志愿者,没有针对特定疾病或叛徒进行选择。在这项研究中,从2049名欧洲血统的受试者中收集血清样本,其中女性最多(96.6%)(包括413个单卵双生对和552对双卵对),在三年的临床访视期间,最大18年。血清采集年龄32~87岁(中位数58岁)。其中三分之一的受试者已经被Shin等人利用早期基因分型阵列和代谢组分型技术纳入研究。这项研究得到了圣托马斯医院研究伦理委员会的批准,所有双胞胎都提供了书面知情同意书。
代谢物分析。非靶向代谢组学分析在四个独立的超高效液相色谱-串联质谱(UPLC-MS/MS)仪器组成的平台上在代谢组学(美国北卡罗来纳州达勒姆)进行。
样品是用汉密尔顿公司的自动化微实验室恒星系统制备的。在萃取过程的第一步之前添加了一些回收标准,以进行质量控制。为了去除蛋白质,分离与蛋白质结合或困在沉淀蛋白质基质中的小分子,并回收化学上不同的代谢物,用甲醇在剧烈摇动下沉淀蛋白质2分钟(Glen Mills GenoGrinder 2000),然后离心。所得提取物分为五个部分:两个部分用两个分离的反相(RP)/UPLC-MS/MS法进行正离子电喷雾电离(ESI)分析,一个部分用RP/UPLC-MS/MS法进行负离子电喷雾电离(ESI)分析,一个部分用HILIC/UPLC-MS/MS法进行负离子电喷雾电离(ESI)分析,还有一个部分留作备用。将样品短暂放置在TurboVap(Zymark)上以去除有机溶剂。样品提取物在制备分析前在氮气下保存一夜。
与实验样品一致分析了几种类型的对照品:从每个实验样品中抽取少量样品(或者,一池特征良好的人血浆)生成的混合基质样品作为整个数据集的技术复制品;提取的水样作为过程空白;并在每一个分析样品中加入一种精心挑选的质量控制标准混合物,该混合物不会干扰内源性化合物的测量,允许仪器性能监测和辅助色谱校准。通过计算注入质谱仪前添加到每个样品的标准品的中位相对标准偏差(RSD)来确定仪器的可变性。通过计算所有内源性代谢物(即,非仪器标准品)在100%的混合基质样品中的平均相对标准偏差来确定整个过程的可变性。实验样品在整个平台上随机分配,质量控制样品均匀分布在注射剂之间。
所有方法均使用Waters ACQUITY超性能液相色谱仪和热科学Q-精确高分辨率质谱仪,该质谱仪与加热电喷雾电离(HEI-II)源和轨道质谱仪连接,在35000质量分辨率下工作。将样品提取物干燥,然后在与四种方法兼容的溶剂中重组。每种重组溶剂都含有一系列固定浓度的标准品,以确保进样和色谱的一致性。利用酸性正离子条件分析了一份小份样品,色谱优化为更亲水的化合物。在该方法中,用水和甲醇从C18柱(Waters UPLC BEH C18–2.1×100 mm,1.7μm)中梯度洗脱提取物,其中含有0.05%全氟戊酸(PFPA)和0.1%甲酸(FA)。另一小份样品也用酸性正离子条件进行了分析;但是,它的色谱优化为更疏水的化合物。在该方法中,用甲醇、乙腈、水、0.05%PFPA和0.01%FA从上述C18柱中梯度洗脱提取物,并在总有机物含量较高的情况下操作。另一小份样品在单独的专用C18柱上用碱性负离子优化条件进行分析。用甲醇和水梯度洗脱柱中的碱性提取物,然而,在pH 8下用6.5mm的碳酸氢铵洗脱。从HILIC柱(Waters-UPLC-BEH-Amide 2.1×150 mm,1.7μm)中用10 mm甲酸铵(pH 10.8)和水和乙腈组成的梯度洗脱后,通过负电离分析第四份等分样品。MS分析使用动态排除在MS和依赖数据的MSn扫描之间改变。扫描范围在不同方法之间略有不同,但涵盖70–1000 m/z。原始数据文件存档和提取如下所述。
使用Metabolon的硬件和软件提取原始数据,确定峰值并进行质量控制。这些系统是使用Microsoft.NET技术构建在web服务平台上的,这些技术运行在高性能应用服务器和群集中的光纤通道存储阵列上,以提供主动故障转移和负载平衡。通过与纯化标准品或反复出现的未知实体的文库条目进行比较,确定化合物。Metabolon根据经认证的标准维护一个库,其中包含库中所有分子的保留时间/指数(RI)、质量电荷比(m/z)和色谱数据(包括MS/MS光谱数据)。此外,生化鉴定基于三个标准:在所提出鉴定的窄RI窗口内的保留指数、与文库的精确质量匹配度±10ppm、实验数据与真实标准之间的MS/MS正向和反向得分。MS/MS分数是基于实验光谱中的离子与库光谱中的离子的比较。虽然基于其中一个因素,这些分子之间可能有相似之处,但使用所有三个数据点可以区分和区分生化物质。已获得3300多种市售纯化标准化合物,并登记到LIMS中,以便在所有平台上进行分析,以确定其分析特性。已为结构上未命名的生化物质创建了额外的质谱条目,这些化学物质因其循环性质(色谱和质谱)而被识别。这些化合物有可能通过未来获得匹配的纯化标准或通过经典结构分析来鉴定。
为了确保高质量的数据集可用于统计分析和数据解释,采取了各种各样的收集程序。质量控制和固化过程旨在确保准确和一致地识别真实的化学实体,并去除那些代表系统伪影、错误分配和背景噪声的实体。Metabolon数据分析员使用专有的可视化和解释软件来确认不同样本之间峰值识别的一致性。对每个样品的每个化合物的库匹配项进行检查,并在必要时进行更正。
代谢物遗传力的估计。利用ACE模型推断了代谢物水平变异的遗传和环境因素,将性状变异模型化为加性遗传、共同环境和独特环境效应的函数。遗传力估计为加性遗传效应解释的总方差的比例。使用“TWILM”函数在R包METS中应用性别和年龄作为协变量的最大似然模型(参考文献44)。中位数标准化丰度值转化为log10作为性状值。对于每种代谢物,从平均值中剔除缺失值和异常值超过4 s.d.的样本。仅对100对单卵双胞胎和100对双卵双胞胎的代谢物进行遗传力计算,以确保准确估计43。对每种代谢物分别计算每次访视的遗传力。如果三次访问估计的遗传力值的变异系数(即标准差和平均值的比率)小于0.5,则声称代谢物具有一致的遗传力。只有分析具有一致遗传力的代谢物,我们才能避免代谢物水平量化中系统的批量和收集日期依赖性错误。对于644种具有一致遗传力的代谢物中的每一种代谢物,平均遗传力用三次访视的标准化中值的log10转换平均值作为性状值,用三次访视的血清采集的性别和平均年龄作为协变量重新计算。
个别异常值的识别。为了评估代谢物水平的分布并识别样本异常值,通过从平均值和所有缺失值中去除超过3 s.d.的值,为每次就诊的代谢物构建一个过滤样本集。然后使用该过滤样本集计算关于正态分布的分位数-分位数图的平均值、标准差、偏度、峰度和相关系数。所有未缺失样本的z分数使用从过滤样本集中获得的平均值和标准偏差计算。绝对z值大于4的样本被确定为样本离群值。一名受试者的血清样本被确定为所有三次就诊的异常值,并被称为一致的受试异常值。通过使用所有三次访问的代谢物数据,我们将因环境变化或测量误差而识别偶然异常值的机会降到最低。
全基因组测序与质量控制。所有DNA样本在Illumina HiSeqX测序仪上采用150碱基对端单索引读取格式进行测序。读取被映射到人类参考序列构建hg38(GenBank accessing GCA_000001405.15),并使用ISIS分析软件调用变体(v.2.5.26.13;Illumina)。关于样品制备、文库制备、聚类和测序的具体细节已在其他地方报告。共获得2377个全基因组30倍以上的测序数据,其中包括324个双亲。只有欧洲血统的双胞胎被留作基因组数据分析。排除所有“通过”单核苷酸变异(SNV)大于2.5的het/hom比值(杂合子与纯合子变异基因型的比值)的基因组(17个基因组)。祖先是在五大洲的监督模式下,通过混合验证的,所有剩余的基因组必须是至少70%的欧洲46。使用RelateAdmix预测家庭关系,包括双亲关系和亲子关系。自我报告和预测的家庭关系不一致的基因组被删除。总的来说,1960名受试者,包括383对单卵双胞胎和522对双卵双胞胎,通过了上述质量控制筛选。所有“PASS”变体,包括snv和indels,都来自这些高质量基因组的VCF文件中的常染色体,然后使用bcftools合并到一个二进制文件中。多等位基因变异被分为多个双等位基因变异,indel保持正常。缺失的基因型被分配为参考纯合子呼叫。利用来自三组100个随机选择的基因组的gVCF(genomic vcf)文件,以大于90%的“通过”呼叫率连接位置,构建了基于队列的基因组高置信度区域。当文件转换为一组PLINK格式文件时,将删除高置信度区域以外的变量和重复的变量。
常见和低频变异的全基因组关联研究。
采用线性混合模型解释队列中的家庭结构,同时测试遗传变异和代谢物水平50之间的关联。对于644种持续遗传的代谢物,三次访视的中位数标准化值的log10转化平均值被用作一个数量性状。缺失值和平均值超过4 s.d.的样本被排除在共同变异相关分析之外。血清采集时的性别和平均年龄作为协变量。用遗传相似矩阵(GSM)模拟线性混合模型中的随机效应,由283000个变异组成,这些变异由20%随机选择的连锁不平衡(LD)-剪枝(r2<0.6)普通(MAF≥5%)变异组成。669万个普通和466万个低频(0.5%≤MAF<5%)变体中的每一个都是使用包装快速LMM包51的定制Python脚本独立测试的。基因组控制(λGC)值在0.996到1.141之间,表明没有由于种群分层或相关而引起的膨胀或通缩。
独立变体。所有显著相关的变异(P≤1.2×10-8/644)都被进一步剪除,为每个代谢物选择独立的变异。对每个染色体的每个代谢物的所有显著变异体进行逐步选择,如下所示:(1)除了血清采集时的性别和平均年龄外,还将P值最小的铅变异体作为协变量,(2) 使用相同的线性混合模型(FaST LMM)对同一染色体上的每个非LD(绝对r<0.8)变异体进行检测,条件是选择变异体以获得条件P值,(3)选择被测变异体中具有最小显著条件P值的变异体作为另一个协变量,(4)重复步骤(2)和(3),直到没有变量的条件P值小于显著性阈值。以性别、血清收集时的平均年龄和基因型的替代等位基因计数为解释变量,用线性回归法估计由相应的独立变异解释的代谢物水平的变异。对1054名无关个体进行了线性回归分析。从线性回归模型的β系数(包括血清采集时的性别和平均年龄作为协变量)中,分别估计各独立变量对中间标准化代谢物水平log10转化平均值z得分的影响大小。
基因定位和顺式eQTL搜索。所有独立的变体都用SnpEff v4.2(参考文献52)和规范的转录设置进行注释。所有独立变异及其对应的高LD变异(| r |>0.9)与GTEx的顺式eQTL单组织数据交叉,以通过eQTL识别与这些变异相关的基因。当多个组织有显著相关性时,选择P值最低的相关性。使用基因本体(GO)注释将每个变异定位到一个局部基因:(1)以该变异为中心的1-Mb区域内的所有局部基因都用GO数据库注释;(2)保留至少一个GO功能属于“催化活性”(GO:0003824)或“转运体活性”(GO:0005215)的基因;(3) 通过eQTL数据选择与该变异相关的最接近的基因;当没有eQTL基因时,选择最接近的基因;以及(4)对于不存在属于GO催化或转运体活性组的局部基因的变异,选择最接近的基因。对于上述所有映射的代谢物-基因关联,我们进行了启发式评估,以评估基因是否可能影响代谢物水平,从而在基因和通路功能之间建立一种拟议的联系。在500 kb范围内的基因彼此聚集成一个位点。
稀有变异体的序列核聚集试验。利用人类参考构建物hg38的GENCODE v25(参考文献53)外显子坐标,筛选出罕见的(MAF<1%)编码变异,并将其聚合成基因集。稀有的(MAF<0.5%)启动子区变异被选择,并使用来自hg38的Ensembl 85(参考文献54)启动子区坐标聚集成启动子集。启动子集由染色体数目和起始和终止坐标命名。根据GENCODE注释,如果一个基因(i)位于启动子下游小于2000 bp,并且(ii)不是假基因,并且不编码反义RNA,则将其分配给启动子。编码和非编码变体的特征短语得分从人类参考构建hg19提升到hg38。只有在外显子基因集合中具有特征编码分数和在启动子集合中具有特征非编码分数的变体被保留以供测试。共构建了18725个外显子基因集和18504个启动子集,其中每个基因集包含1到1026个变异,平均26个变异。对644种代谢物中的每一种进行SKAT,共37229套。特征短语得分的平方根被用作每个罕见变异的权重。在R中实现SKAT时,使用了“线性加权”核和“Davies”方法。利用P值的分布和R包GenABEL中的estlambda功能,对每种代谢物的检测进行基因组控制估计。补充图9显示了17种代谢物的曼哈顿区图,基因组控制值约为1(0.95≤λ≤1.05)。稀有变异体集和代谢物之间的所有显著关联(P≤4.2×10-10=0.05/644/37119)的汇总统计见补充表5。
异常值中罕见的变量搜索。在受试者异常群体的基因组中,在候选基因中搜索罕见的(MAF<1%)编码变异。编码变体被定义为带有SnpEff注释的变体,其中包含诸如“missense”、“stop”和“frame”等关键字。从两个来源收集候选基因列表:第一,来自本研究和先前研究中确定的与69个受试者异常值的36种代谢物相关的GWAS位点的基因,第二,根据KEGG和Thompson-Reuters MetaCore提供的途径信息,包含直接影响38种代谢物水平的蛋白质编码基因。未被单卵双胞胎共享的罕见变异被移除。进一步研究了受试者异常值以外的个体中存在的罕见变异:如果携带该罕见变异值的所有个体的代谢物水平异常,则该变异值被确认为可能具有功能性;否则,该变异值被移除。单一无关个体中存在的罕见变异被保留为“候选”功能变异(补充图5)。
稀有功能变异的验证。在所有1960个基因组中,在表1的10个基因中搜索了其他罕见的编码变体。使用Wilcoxon秩和检验对三次就诊的受试者的代谢产物水平进行分组比较。与代谢物水平差异相关的罕见变异(多试验校正P≤2.1×10-4=0.05/242,Mann-Whitney U试验)作为额外的罕见功能变异保留。报告的OMIM变异、异常值中的稀有变异和10个基因中的其他稀有变异被映射到用于功能预测的编码蛋白质的模拟三级结构。蛋白质结构(CRAT、UMPS、SULT2B1(参考文献58)、DMGDH、ACADS、ETFDH、LCT)使用开源PyMOL v.1.7.6.0(PyMOL分子图形系统,版本1.7.6.0,Schródinger)可视化。优先选择具有最高分辨率和/或配体结合的结构。在结构不可用的情况下,使用SWISSMODEL或MODBASE的同源模型。使用内置突变向导模拟变异体。
数据可用性。GWAS摘要统计信息可从http://www.hli-opendata.com/Metabolome 下载。此外,有关扩展访问的信息,请参阅数据可访问性语句(补充说明)。