肺癌新易感位点的发现及多基因遗传评分在肺癌风险预测中的应用–基于中国超大型前瞻性队列研究

这是一篇值得学习的文章,基本上全文翻译了这篇文章,觉得重要的地方进行了突出显示。

我认为重要的内容

  • 1.处于高遗传风险的轻度吸烟者与处于中等遗传风险的重度吸烟者显示出相当的风险在每个遗传风险类别中,吸烟的程度与肺癌相对风险的增加相关
  • 2.处于低遗传风险的好处可能在很大程度上被吸烟所抵消,支持公共卫生努力不吸烟,强调每个人都有健康的无烟生活方式,即使对那些遗传风险较低的人也是如此。
  • 遗传得分在前20%,甚至是前10%的人,可以通过终生不吸烟来抵消他们患肺癌的大部分风险

研究亮点

这项研究之前的证据

我们系统检索PubMed在2018年8月23日之前发表的研究论文,检索词为“多基因风险评分”和“GWAS”。近几十年来,使用全基因组关联研究(GWAS)策略已经确定了数百个复杂疾病的易感基因位点,该策略表明,来自先前GWAS的这些遗传风险位点可以作为多基因风险评分(PRS)来识别疾病风险增加的个体,以进行精确预防,例如阿尔茨海默氏病、心血管疾病和乳腺癌。对于肺癌,在不同人群中确定了45个风险位点,并进行了几项病例对照研究以评估PRS,但此类PRS在预测肺癌风险方面的区分能力较差,主要是因为在前瞻性研究中缺乏验证。此外,大多数已发表的研究都是在欧洲血统的人群中进行的,很少有研究包括其他种族群体。

本研究的附加价值

我们鉴定了6个新的易感基因位点与非小细胞肺癌(NSCLC)的风险显着相关。我们使用19个GWAS衍生的风险位点产生了PRS,然后我们在一个独立的、大规模的前瞻性中国队列中,首次评估了它在预测肺癌风险方面的有效性。PRS成功地预测了中国研究人群中的肺癌病例。具体地说,我们观察到低、中、高遗传风险的个体肺癌事件的风险曲线一致分离,并且这个PRS是区别于年龄和吸烟包年的独立有效的风险分层指标。

所有现有证据的含义

本研究中确定的风险位点为肺癌风险的遗传基础提供了额外的见解。我们的PRS预测结果表明,PRS可以有效地用于区分肺癌高危人群,他们可以从基于PRS的肺癌筛查计划中受益,从而在中国人群中进行精确预防。

总览

背景

基因变异在非小细胞肺癌(NSCLC)的发生发展中起重要作用。然而,尤其是在中国人群中,肺癌的遗传因素尚未完全确定,这限制了使用现有的多基因风险评分(PRS)来确定肺癌高危亚群以进行预防。因此,我们的目的是识别与NSCLC风险相关的新位点,并建立一个PRS,评估其在预测中国人群肺癌风险中的效用

方法

为系统地识别NSCLC风险的基因变异,我们从南京医科大学全球筛查项目中新纳入19 546中国NSCLC病例的样本和对照并做了一个27120个NSCLC患者和27355例非NSCLC的全基因组相关研究的meta分析 (13327例病例和13 328对照为中国血统;13793例和14027对照为欧洲血统)。

然后,我们根据所有报道的单核苷酸多态性建立了中国人群的PRS,这些单核苷酸多态性在全基因组水平上与肺癌风险相关。我们对来自中国Kadoorie生物银行 (CKB) 登记的95408人进行了10年以上的随访,评估了建立的PRS在预测肺癌高危亚群中的效用。

发现

我们确定了19个易感性位点与NSCLC风险显著相关(p≤5.0×10⁸,包括六个新位点。当应用于CKB队列时,风险位点的PRS成功地预测了高遗传风险(前10%)的参与者与低遗传风险(后10%)的参与者的肺癌发病率。调整危险比为1.96,95% CI 1.53-2.51;p = 2.02×10 ⁹)。尤其要指出的是,我们在低、中、高遗传风险个体中分别观察到肺癌事件的一致分离曲线,PRS是在年龄和吸烟年限之外的一个独立有效的风险分层指标

意义

我们首次证明,基于GWAS的PRS可以有效地用于鉴别肺癌高危亚群,这些亚群可能会受益于基于PRS的肺癌筛查项目,从而在中国人群中进行精确预防。

简介

肺癌是中国和世界上发病率和死亡率最高的癌症。据估计,2018年新发肺癌病例将超过209万例,约占全球癌症确诊总数的11.6%。非小细胞肺癌(NSCLC)约占肺癌病例总数的85%虽然环境风险因素(如吸烟)贡献最大,但遗传变异可以解释12-21%的肺癌遗传度。在过去十年中,基因组关联研究(GWAS)已经在不同种族人群中确定了45个肺癌风险位点;然而,与肺癌风险相关的遗传因素尚未完全确定或验证,特别是在中国人群中。

最近的大规模人群研究表明,常见遗传变异的组合效应可能成为区分复杂疾病高危人群的有效工具。先前GWAS确定的遗传风险位点可以进行多基因风险评分(PRS),应用于识别疾病风险增加的个体,如阿尔茨海默病,心血管疾病和乳腺癌。对于肺癌,已经进行了几项病例对照研究,使用的PRS在预测肺癌风险方面的辨别能力很差,主要是因为在前瞻性研究中缺乏随后的验证。此外,大多数研究都是在欧洲血统的人群中进行的,很少有研究包括其他种族群体。

我们的目标是识别与非小细胞肺癌风险相关的新基因位点,并生成非小细胞肺癌的PRS,并评估其在预测肺癌风险中的效用和有效性,这些个体是从独立的大规模前瞻性中国人群队列中随机选择的子集。

方法

分型和质控

所用芯片为GSA芯片和Affmetrix Axiom芯片。对于本研究中使用的所有数据集,我们根据文献在样本水平和变异水平进行了标准质量控制。每个数据集中的合格样本和基因型数据用SHAPEIT(版本2)phase,并使用默认参数和INPUTE(版本2)进行基因型填充,以1000基因组项目第3阶段数据库(2014年10月发布)作为参考。附录(pp3,4)中描述了有关质量控制和填充过程的详细信息。

PRS的实用性和有效性

我们从所有单核苷酸多态性(SNP;即81个SNP)中推导出专门适用于中国人群的PRS,这些多态性在当前和以前的研究中都报告与肺癌风险相关。为了确保模型的效率,我们应用了几个标准来排除冗余变异:中国人群中的次要等位基因频率小于0.00125,连锁不平衡的SNP(R2≥0·1),以及与肺癌相关的p>0·00125(在0·05/40的多次比较之后,保留了19个风险SNP用于PRS计算。详细过程如图1所示。

在本研究中,我们通过在中国人群中将每个变异的每个风险等位基因的基因型剂量按其各自的权重(即比值比[OR]的Ln)相乘后合计来生成PRS。在本研究中,所有变异的效应大小都来自于中国NSCLC患者的关联,为了一致性,在适当的情况下,所有这些都被转向危险等位基因。由统计学家(JD和MZ)计算PRS,这些统计学家在CKB队列中对端点进行掩蔽,然后在CKB队列中独立评估PRS与肺癌风险之间的关联。

统计分析

对于GWAS数据集,我们使用基于概率剂量模型的SNPTEST软件(版本2.5.4)使用Logistic回归分析计算每个等位基因的ORs和Se。使用METAL软件(版本2011-03-25.24)组合来自每个GWAS数据集的个体关联估计,为了满足固定效应Meta分析的统计要求,我们排除了I2为75%或更高的变体或Coch值为p≤1∙0×10-4的变体,这表明了七个GWAS数据集之间的高度异质性。我们还使用Cochran‘s Q检验评估了中国和欧洲人群之间关联的异质性,采用了从两个群体估计的log-ORs和Se。我们还将I2设置为75%或更多,或将Cochran的Q统计量设置为p≤1∙0×10-4,以表示高度的异质性。我们应用相同的标准来评估不同亚组之间的异质性,例如吸烟状况和性别。统计分析的细节见附录(P4)。

对于CKB队列,我们使用Cox比例风险回归模型来检验PRS与肺癌事件之间的关联,调整了年龄、性别、区域来源和吸烟状况。根据PRS的分布,参与者被分为十个相等的组,我们将每组的危险比(HR)与最低的十分之一进行比较。PRS前5%内的个体被认为是高遗传风险的群体,5%-95%为中等风险,而最低5%为低风险群体。重度吸烟者定义为30包年或更多,其他人则为轻度吸烟者(<30包年)。27我们使用Cox回归计算到2016年底每个亚组的累积事件发生率,将其标准化为上述调整的平均值。我们使用R软件(版本3.5.1)进行了所有分析。

结果

为了确定非小细胞肺癌风险位点,我们在分析中包括了27120例非小细胞肺癌病例和27355例对照。无论是总体样本还是特定亚组样本,都没有观察到明显的群体分层(即各亚群之间等位基因频率的系统差异)(附录p 5)。病例组和对照组个体的年龄和性别很好地平衡,其中15581例(57.5%)为肺腺癌,8350例(30.8%)为肺鳞癌(附录p15)。

19个位点在GWAS的Meta分析中(即p≤5·0×10−8)在整个NSCLC与组织学亚型的关联分析中达到统计学意义。在19个基因座中,有6个是新的,包括3个与非小细胞肺癌总体风险相关的基因座(2q33.1[rs3769821:or 1·08,p=4·45×10−8],3q26.2[rs2293607:or 1·10,p=1·82×10−10]和14q13.1[rs1200399:or 1·11,p=3·05×10−9]),2个肺腺癌(2p14)肺鳞癌1例(9q33.2[rs4573350:or 1·13,p=3·23×10−9];图2和表)。我们还验证了13个先前报道的GWAS显著水平的位点,包括12个NSCLC总风险位点(例如,3q28,5p15.33和6p22.1)和一个肺腺癌(15q21.1;图2和表)。值得注意的是,先前在欧洲人群中报道的两个危险位点(即8p12[rs4236709]和11q23.3[rs55768116])也首次在中国人群中被鉴定。这19个风险位点的区域图被用来说明每个区域的连锁不平衡模式和相关基因(附录pp6-9)。

如图2A和2B所示,我们确定了四个新的肺腺癌风险位点:2p14和9p13.3在肺腺癌亚组中特别显着,而3q26.2和14q13.1在总体NSCLC风险和肺腺癌风险中都检测到。如图2B和2C所示,肺癌风险的遗传结构在肺腺癌和肺鳞癌之间有显着差异。肺鳞状细胞癌的信号较少,并且只有一个信号是肺鳞状细胞癌的特异性信号(9q33.2)。我们还按性别、吸烟和组织学状态对六个新的危险位点进行了亚组分析(附录pp10,20-25)。如附录(P10)所示,6个基因座中的5个在肺腺癌和鳞状细胞癌之间表现出高度的异质性(即,3q26.2[rs2293607],14q13.1[rs1200399],2p14[rs17038564],9p13.3[rs35201538]和9q33.2[rs4573350]),而在不同吸烟状况或性别的亚组中没有表现出明显的异质性。

为了比较中国和欧洲人群中19个确定的风险位点的遗传差异,用带气泡的森林地块显示了非小细胞肺癌、肺腺癌和肺鳞癌中每个风险位点的铅SNP的效应估计和效应等位基因频率(图3)。如图3A所示,15个已鉴定的风险位点中的6个在不同群体(即3q28,5p15.33,6p21.1,8p12,15q25.1和19q13.2)之间表现出高度的异质性(即,I2≥75%或p≤1∙0×10-4)。对于组织学亚组,四个风险位点(即3q28,5p15.33,6p21.1和15q25.1)显示出中国和欧洲人群中肺腺癌的高度异质性(图3B),一个风险位点(即9q33.2)显示这些人群之间的肺鳞癌高度异质性(图3C)。

在PRS应用阶段,来自CKB队列的总共95 408名中国参与者被纳入预测分析。在随访期间,1316例患者确诊为肺癌,中位随访时间为10·44年(IQR 9·41-11·33;附录p19)。我们使用19个SNP推导出特定于中国人群的PRS计算模型,这些SNP选自以前报道的81个SNP和与肺癌风险相关的新SNP(图1和附录pp26-37)。19个风险位点解释了肺癌遗传度的0·99%,该遗传度采用易感性阈值法计算。PRS的计算过程在附录中提供(第38页)。患有肺癌的个体比其他参与者具有更高的PRS(附录p11)。在本研究中,探索了不同的临界值,然后使用PRSs的前5%、5%-95%和底层5%来定义高、中、低遗传风险群体(附录p12)。

总体而言,数据显示GWAS衍生的PRS在CKB队列中显著预测肺癌风险。具体地说,观察到每一级遗传风险的风险梯度,使得高遗传风险的参与者(即位于PRS前10%的参与者)患肺癌的风险明显高于低遗传风险的参与者(即,在最低的10%遗传风险中),调整后的危险比(HR)为1·96(95%CI 1·53-2·51;p=2·02×10-9;图4A)。在不同类别的趋势遗传风险人群中(前5%,5-95%和最低5%),在随访期间的CKB队列中观察到CKB队列中肺癌事件的持续分离曲线,高遗传风险参与者的肺癌相对风险高于低遗传风险参与者(HR 2·37,95%CI 1·64-3·44;图4C)。在非吸烟者与吸烟者以及女性与男性中观察到类似的预测结果,即使我们将高危人群的定义扩展到PRS的前10%(附录p13)。

根据CKB队列分析的结果,观察到PRS和吸烟对发生肺癌事件的联合累积效应。例如,图4B显示,低遗传风险的轻度吸烟者(包年<30)的癌症风险与不吸烟者相似(HR 1·17,95%CI 0·64-2·15),而观察到中等遗传风险的轻度吸烟者(HR 1·79,95%CI 1·49-2·14),重度吸烟者(包年≥30)在低遗传风险(HR 2·08,95%CI 1·18-3·67)中的癌症风险逐渐增加,轻度吸烟者(HR 2·08,95%CI 1·18-3·67)95%CI 1·92-4·49,中等遗传风险的重度吸烟者(HR3·27,95%CI 2·71-3·94),以及经过年龄、性别和地区调整后的高遗传风险的重度吸烟者(HR 3·98,95%CI 2·64-5·99)(图4B)。尽管吸烟(特别是包年)随着年龄在CKB队列中显示出高预测性能(附录p14),但处于高遗传风险的轻度吸烟者与处于中等遗传风险的重度吸烟者显示出相当的风险在每个遗传风险类别中,吸烟的程度与肺癌相对风险的增加相关(图4D)。与遗传风险较高的轻度吸烟者(每100000人年337.6人年)相比,在遗传风险较低的情况下大量吸烟的参与者患肺癌的比率较低(244.7/100000人年)。此外,低遗传风险在很大程度上被吸烟所抵消。在遗传风险较低的重度吸烟者中观察到更高的标准化累积肺癌风险,而在遗传风险较高的从不吸烟者中观察到更高的标准化累积肺癌风险(244·7vs155·3/10万人年)。

讨论

在本研究中,我们对NSCLC的GWAS进行了大规模的荟萃分析。我们发现了6个新的基因座,并确认了之前报道的13个与NSCLC风险相关的基因座。重要的是,GWAS衍生的PRS使用独立的前瞻性队列研究以剂量-反应方式显著预测肺癌事件病例,在低、中、高遗传风险人群的随访期间观察到肺癌事件的一致分离曲线。这些结果表明,PRS具有预测中国人群肺癌风险的能力,并且它潜在地优化了可持续肺癌预防中高风险亚群的定义,超出了吸烟包年和其他已知预测因子。因此,我们首次表明,PRS是预测肺癌风险的有效工具,并可潜在地应用于中国人群中肺癌的精确预防

我们还观察到肺腺癌和肺鳞癌之间的组织学异质性。在我们鉴定的19个位点中,有16个位点(如2p14,9p13.3和15q21.1)在肺腺癌亚组中有显著意义,而在肺鳞癌中只有4个位点显著(即5p15.33,6p21.32-6p22.1,9q33.2和15q25.1)。这一发现进一步支持了先前的研究,即肺腺癌和肺鳞癌是非常不同的疾病,因为它们在胚系变异或体细胞改变方面存在不同的生物学和基因组异常。此外,吸烟与肺鳞癌的相关性比肺腺癌更强,表明这些组织学亚型的致癌机制不同。在中国和欧洲人群之间确定的19个风险位点中,19个已鉴定的风险位点中的7个显示出群体之间的高度异质性。例如,3q28和5p15.33处的铅SNP的效应大小在中国人群中大于欧洲人群,而15q25.1显示相反;这些结果与先前的报道一致。这些发现扩展了我们对中国人和欧洲人后裔之间NSCLC风险的遗传差异的认识

PRS的有效性评估通常通过它们是否可以帮助将人群分层为具有不同绝对风险程度的亚组,推动临床或个人决策来确定。虽然有几项研究评估了PRS在肺癌中的预测性能,但它们采用病例对照设计的小样本量往往导致结果并不预期。在本研究中,我们验证了来自GWAS的PRS在全国范围的CKB前瞻性队列研究中显著预测了中国人群的肺癌风险,这是本研究的优势所在。PRS定义的具有不同遗传风险的人群中NSCLC发病率的差异提供了证据,表明它可用于肺癌筛查,以识别高风险亚组,以进行精确预防或个性化干预

PRS的临床使用大致可分为三大类干预措施:基于PRS信息的疾病筛查、基于PRS信息的生活规划和基于PRS信息的治疗干预。在本研究中,我们观察到基于GWAS的PRS是超过年龄和吸烟包年的肺癌风险的潜在预测因子,这是美国预防服务工作组和国家综合癌症网络临床实践指南在当前指南中使用的主要筛查资格标准。我们观察到重度肺癌的不同累积事件发生率此外,目前的研究结果显示,遗传风险高的轻度吸烟者的肺癌发病率与CKB队列中的重度吸烟者相似,表明这些参与者可能包括在任何肺癌筛查计划中。综上所述,本研究为个体化筛查计划提供了证据和潜在数据。例如,国家肺部筛查试验中肺癌筛查方案的选择标准或间隔可能会根据个别PRS进行修改,以减少CT扫描造成的辐射潜在危险。

本研究的另一个重要发现是,处于低遗传风险的好处可能在很大程度上被吸烟所抵消,支持公共卫生努力不吸烟,强调每个人都有健康的无烟生活方式,即使对那些遗传风险较低的人也是如此。此外,即使在没有或个人希望避免预防性筛查肺癌的情况下,PRS也可能是有用的。与最近关于冠心病的研究类似,遗传得分在前20%,甚至是前10%的人,可以通过终生不吸烟来抵消他们患肺癌的大部分风险,导致他们的肺癌风险降低近60%。关于基因测试的潜在成本,只有19个肺癌风险位点会被考虑用于PRS建设;因此,如果PRS被实施到一个大型的以人群为基础的筛查计划中,这类测试的成本将会相当低。

此外,为了阐明19种变异的贡献,我们使用责任阈值方法评估了这些SNP的遗传性。尽管19个变异所贡献的遗传力相对较低(约0·99%),但这一估计并不直接与PRS对任何特定个体的使用有关。先前的研究表明,即使常见变异解释的总遗传力较低,PRS中这些变异的累积效应对于复杂疾病的风险分层可能是有效的。这一建议得到了遗传研究的支持,而Mega和他的同事开发的27个CHD相关SNPs的PRS 39能够识别CHD事件风险增加的个体,随后的随机对照试验表明,具有高PRS的个体使用他汀类药物显示出数字上最大的相对和绝对风险降低。

我们研究的局限性在于,我们只评估了中国前瞻性队列中由GWASs确定的19个风险位点,这限制了我们的研究结果可推广到其他具有不同等位基因频率、连锁不平衡模式和变异效应大小的人群。另一个限制是在NSCLC中确定危险位点和各自的效应,而PRS的效用在前瞻性队列中评估整体肺癌。第三个限制是,PRS在肺癌筛查中的真正效用无法在我们的前瞻性队列中进行评估,而应在实际的基于人群的筛查计划中进行进一步评估,例如美国的国家肺筛查试验。

总之,本研究中确定的风险位点为肺癌风险的遗传基础提供了额外的洞察力,进一步推进了对肺癌易感性和致癌机制的理解。我们还首次验证了,据我们所知,PRS可以有效地用于肺癌风险预测,潜在地导致一种可行的肺癌筛查计划,用于精确预防和个体化干预。

发表评论