精读分享│【Nature】:对494例肝细胞癌进行深度全基因组分析
英文题目:Deep whole-genome analysis of 494 hepatocellular carcinomas
中文题目:对494例肝细胞癌进行深度全基因组分析
期刊:Nature(IF:64.8)
单位:
1.国家肝癌中心/东方肝胆外科医院,上海
2.北京大学生命科学学院生物医学创新中心(BIOPIC),北京基因组学高级创新中心(ICG)
3.北京大学-云南白药国际医学研究中心、北京大学国际癌症研究院、基础医学院医学生物信息系
4.北京大学第一医院肿瘤转化研究中心
5.杜克-新加坡国立大学医学院计算生物学和癌症与干细胞生物学项目中心
6.北京贝瑞基因
7.南京大学医学院模型动物研究中心
发表时间:2024年03月
摘要:
全球诊断出的肝细胞癌(HCC)病例中有一半以上发生在中国。然而,中国人对乙型肝炎病毒(HBV)相关HCC的全基因组分析是有限的,目前对HCC的分析主要来自非HBV富集人群。在这里,我们启动了中国肝癌图谱(CLCA)项目,并对494个HCC肿瘤进行了深度全基因组测序(平均深度,120×)。我们确定了 6 个以前未描述的候选编码驱动和28个以前未描述的候选非编码驱动因素。发现了五个以前未描述的突变特征,包括马兜铃酸相关的插入缺失和双碱基特征,以及我们称之为SBS_H8的单碱基取代特征。五核苷酸背景分析和实验验证证实,SBS_H8与马兜铃酸相关的 SBS22 不同。值得注意的是,HBV整合可能采取染色体外环状DNA(ecDNA)的形式,导致拷贝数和基因表达升高。我们的高深度数据还使我们能够表征亚克隆簇状改变,包括染色体碎裂(chromothripsis),染色体重排(chromoplexy)和局部基因组重复(kataegis),这表明这些灾难性事件也可能发生在肝癌发生的晚期阶段。所有类别改变的通路分析进一步将非编码突变与肝脏代谢失调联系起来。最后,我们进行了体外和体内测定,以表明纤维蛋白原α链(FGA)被确定为候选的编码和非编码驱动因素,可调节HCC的进展和转移。我们的CLCA研究描绘了中国人HCC的详细基因组图景和进化历史,提供了重要的临床意义。
研究背景:
1.全球确诊的肝细胞癌(HCC)病例中有一半以上在中国。然而,中国人乙型肝炎病毒(HBV)相关肝癌的全基因组分析是有限的。目前对HCC的分析主要来自非HBV富集人群 。
2.以往对中国人肝癌的基因组分析在队列规模上是有限的,主要集中在外显子组上,缺少了在全基因组水平上的详细研究。
3.最近,全基因组泛癌分析(PCAWG)联盟在相当大的规模上分析了癌症的基因组复杂性。然而,相对较浅的测序深度并不能完全解析HCC基因组的亚克隆结构。
研究人群及测序:
1.研究人群:(来自CLCA队列)2017-2020年,东方肝胆外科医院和上海中山医院494名初治肝癌患者。对494 名 HCC患者的样本进行测序分析。
2.测序方法:WGS(n = 494):原发肿瘤(平均深度,120×),匹配的外周血(平均深度,36×);RNA-seq(n = 239)。
3.CLCA与PCAWG对比:CLCA队列中HBV的比例更高,Edmondson–Steiner III级及IV级占比(85.6%vs12.1%)更高。丙型肝炎病毒(HCV)感染(2.6%vs55.6%)、饮酒(26.7%vs58.1%)和吸烟(36.8%对53.6%)的比例较低。(Extended Fig 1)
主要方法及结果:
1、候选编码及非编码候选驱动
使用生物信息学方法鉴定(编码区域:MutSigCV、dndsCV、OncodriveFML。非编码区:MutSigCV-NC、NBR、ActiveDriverWGS 、OncodriveFML。手动排除假阳性“驱动”位点。具体参考原文methods)
候选驱动:①发现了23个候选编码驱动基因:包括TP53、CTNNB1、ALB(以前已知)。与PCAWG-HCC 或 TCGA-HCC 相比,发现了六个以前未描述的候选编码驱动基因,包括FGA、HNF1A、PRDM11、CDKN1B、BMP5和ECHS1 。与PCAWG-HCC 或 TCGA-HCC 相比,TP53 在 CLCA 中的突变频率显着更高。六个以前未描述的候选编码驱动因素的突变频率在三个队列中具有可比性,表明这些候选驱动因素的普遍性。(Fig.1,extended Fig:1d-g)
②使用the DISCOVER mutual exclusivity test检测驱动基因之间的关系:CTNNB1 突变与 TP53 或 AXIN1 突变相互排斥(extended Fig 1c)
③共鉴定出31个候选非编码驱动因子:包括6个启动子、8个长链非编码RNA(lncRNAs)、4个lncRNA启动子、5个5’UTRs(非翻译区)和8个3’UTRs。5个基因被确定为不同形式的驱动事件,表明了趋同进化。除了PCAWG-HCC报道的三个非编码驱动因子,包括RMRP的TERT启动子、lncRNA NEAT1和RMRP的lncRNA启动子外,所有其他28个(90.3%)都是之前未描述过的候选非编码驱动因子。这些结果为研究非编码突变在肝癌发生过程中的贡献提供了丰富的资源。FGA(编码纤维蛋白原α链)被确定为一个候选编码和非编码(3‘UTR)驱动因素。
2、候选驱动的克隆性
①根据体细胞点突变的等位基因频率(VAF)、肿瘤纯度等来推断克隆性:10个候选驱动(包括2个编码驱动和8个非编码驱动)显示了突变显著的克隆性富集。其中2个编码驱动基因(TP53 和 ALB)富集克隆突变。62.5%(5 / 8)的非编码驱动子(ZNF595、KCNJ12、OR2A7的启动子、和Z95704.4的lncRNA和lncRNA启动子)富集亚克隆突变。(Fig.1)
②在23个编码驱动基因中行克隆和亚克隆突变的dN/dS 分析评估癌症基因组中的选择:结果显示其dN/dS均大于1,表明这些驱动因子是由正向选择形成的。(Extended Fig. 1i)
③ 探究克隆分析是否受肿瘤纯度的影响:有观察到肿瘤纯度和克隆驱动因子百分比之间的显著关联。表明我们的克隆分析不受肿瘤纯度的影响。(Extended Fig. 1h)
3、SBS_H8是一个新的特征
①Extended Fig. 1j展示了突变特征分析整个流程。
② 突变特征分析发现了:17 个单碱基替换(SBS)、3 个双峰碱基替换(DBS)和 8 个小插入和删除(ID)特征。与COSMICv3.2相比,有5个突变特征是以前未在肝癌队列中发现的的(SBS_H8、DBS_H1 和 DBS_H2、ID_H3 和 ID_H8)(Extended Fig 2-4).
③对其中5个突变特征分别进行研究:
DBS_H1:[C/G/T]C>NN 突变。在大多数肿瘤中都被发现,并与年龄以及其他与年龄相关的特征相关(Extended Fig. 3d、f)。
ID_H8:显示 1 bp 胞嘧啶缺失和胸腺嘧啶插入。仅在 SBS_H3阳性(COSMIC SBS24)肿瘤中发现,并与 SBS24 相关,表明它与黄曲霉毒素暴露有关。(Extended Fig. 3e、g)
SBS_H8:以 T>[A/C] 突变为主,具有显著的转录链偏倚(Fig2a-c)。494例CLCA病例中,有57.1%(282例)存在SBS_H8,表明这种特征在中国个体中普遍存在。SBS_H8和SBS_H2 (SBS22)的高共发率表明SBS_H8的致病因素可能经常与马兜铃酸(AA)共存。326例PCAWG-HCC病例中仅有1例(0.31%)存在SBS_H8,并可能存在于慢性肝病中。
这些结果支持该特征的存在及其在中国人HCC中的富集。
支持SBS_H8是新特征的证据:
■SBS_H8的T>A突变模式与马兜铃酸(AA)相关的COSMIC SBS22相似,但SBS_H8也含有相当比例的T>C突变(21.3%)
■SBS_H8与SBS22之间的总体余弦相似度为0.71。
■其五核苷酸背景(The pentanucleotide context)的余弦相似度低到0.61(Extended Fig 3b)
DBS_H2和ID_H3:均与AA(马兜铃酸)有关。DBS_H2主要由TA>NT、TC>AA、TG>AN和TT>AA突变组成。ID_H3在短重复序列中主要出现1 bp和2 bp的缺失(Fig. 2d,e)。既往研究发现了与AA有关的SBS_H2(COSMIC SBS22),探索三者之间的相关性发现:DBS_H2和ID_H3几乎只存在于SBS_H2阳性(SBS22)肿瘤中,并且与SBS_H2活性高度相关(Fig. 2f)。
④ 对怀疑与AA有关新特征的验证:用亚致死浓度的AA1 (AA的主要成分)处理MCF-10A和HepG2两种癌细胞系并检测SBS_H2、DBS_H2和ID_H3及SBS_H8是否直接由AA暴露引起:每个克隆的突变谱显示存在SBS_H2、DBS_H2和ID_H3, 证实这些突变特征可能是由AA暴露引起的。——补充了AA特征谱,揭示了AA诱变的多种途径。
在AA1处理的细胞克隆的突变谱中没有发现SBS_H8(Fig2a-c)——进一步支持了SBS_H8与AA暴露无关。
⑤ 基于SBS、DBS和ID突变比例对肿瘤进行无监督聚类分为5类(Extended Fig 3h)并结合临床特征进行分析:SBS_H8对clusterV贡献最大,clusterV富含 CTNNB1突变(Extended Fig 3i、j)。再根据SBS_H8中位数分为low及high组进行生存分析发现:较高的SBS_H8百分比与较差的预后显著相关(Extended Fig3K,5a )—— 这意味着SBS_H8的潜在病因可能是肝脏致癌物。
⑥分析了突变过程对驱动基因和热点突变的贡献 (Extended Fig. 4):关注SBS_H8,发现JAK1和CTNNB1是主要编码驱动因素,ALB启动子是主要非编码驱动因素。CTNNB1,JAK1S729C and TP53H193R受到SBS_H8的影响。TP53的多个热点与黄曲霉毒素有关,而TP53 H179L热点与AA暴露有关。
⑦基于克隆亚克隆推断突变特征时间:与亚克隆突变相比,SBS_H8以及与外源性因素相关的其他特征,如SBS_H2(AA)、SBS_H3(黄曲霉毒素)、DBS_H2(AA)、ID_H3(AA)、SBS_H10(烟草)和ID_H8(黄曲霉毒素),在克隆突变中富集。—— 表明它们发生在肿瘤发生的早期阶段。
我们的深度WGS数据能够对基因组重排进行全面分析(Extended Figs5,6),包括拷贝数改变(CNA)、结构变异(SV)、HBV整合、染色体外环状DNA(ecDNA)三种形式的簇状改变—染色体碎裂,染色体重排和局部基因组重复。
4、ecDNA中HBV整合
①使用AmpliconArchitect检测ecDNA:扩增子分为四类:(1)环形扩增;(2)断裂-融合-桥扩增;(3)大量重排扩增;(4)线性扩增。环状扩增子亦被认为是ecDNA(ecDNA的扩增已被认为是肿瘤细胞增加癌基因拷贝数的一种方法)。
在27.3%的CLCA肿瘤中检测到ecDNA,显著高于PCAWG-HCC中报告的ecDNA(Fig3a)。
②比较ecDNA与非 ecDNA的癌基因、拷贝数及基因表达:在ecDNA中共检测到76个致癌基因,包括HCC驱动基因,如MYC(Fig3b,Extended Fig5d)。与非 ecDNA 中的癌基因相比,ecDNA 中的癌基因具有更高的拷贝数和更高的基因表达(Extended Fig5e、f)。
③比较有无ecDNA患者的无进展生存期,结果显示ecDNA的存在与不良预后有关。(Fig3c)
④在七名患者中发现了含有HBV片段的ecDNA(HBV-ecDNA),这些患者影响了众所周知的致癌基因,如TERT。ecDNA相比其他扩增子中的HBV片段,显示出拷贝数增加,表达水平增加(Fig. 3d-f)。(尽管在HCC中已经确定了HBV-TERT整合),我们的研究表明,这些整合可以利用ecDNA的环状结构,从而扩增到数百个拷贝。
⑤使用CIRCLE-seq验证了ecDNA的存在(Fig 3g)。
结果表明,基于ecDNA的扩增可能在HBV相关HCC中发挥重要作用。
5、亚克隆灾难事件
成簇突变过程(包括染色体碎裂,染色体重排和局部基因组重复)通常是在单一灾难性事件中产生的基因组改变。这些改变通常被描述为克隆事件,并推进肿瘤的间断进化。
①定义:局部基因组重复是一种局灶性超突变过程,可导致局部聚集性点突变,其被定义为包含六个或更多连续突变的基因组片段,平均突变距离小于或等于100 bp。染色体碎裂:是大量基因组重排,在两个拷贝数状态之间表现出振荡。染色体重排:是由于几条染色体中同时发生的几条双链 DNA 断裂,这些染色体被错误地重新连接,导致重排链平衡。这些成簇的改变是否可能是亚克隆事件,并且发生在肿瘤进化的后期,目前尚缺乏研究。
②使用以下工具:局部基因组重复:R包Maftools (v.2.6.05)。染色体碎裂:R包ShatterSeek (v.0.4)。染色体重排:ChainFinder (v.1.0.1))。发现:
染色体碎裂:30.2% 的病例中观察到染色体碎裂,与 PCAWG-HCC(32.2%)相当。影响多条染色体(即高置信度事件)的病例占比为61%,仅影响一条染色体的病例占比为22%(Fig4a)。
染色体重排:10.1%的病例中观察到染色体重排。影响1条染色体的病人占比为8.3%,影响多条染色体的病人占比为1.8%(Fig. 4b)。
局部基因组重复:在33.6%的CLCA病例中,共发现364个局部基因组重复,14.6%的病例具有多个局部基因组重复事件。局部基因组重复及其相关SVs及 CNAs分析显示:在拷贝数状态下出现局部基因组重复和振荡,表明局部超突变可能与区域SV和染色体碎裂有关(Fig. 4c)。比较有无APOBEC基因突变的病例的局部基因组重复事件的结果显示在具有APOBEC基因突变的病例中,局部基因组重复事件高度丰富(ExtendedFig5g)。测序深度对其测量的影响:测到的局部基因组重复事件的数量随着测序深度的增加而增加(Fig.4e)。
③克隆性分析及时间推断:
在32名病人(6.5%)中发生的46个(13%)局部基因组重复事件是亚克隆事件(与PCAWG-HCC结果对比,PCAWG-HCC报告的所有局部基因组重复事件都是克隆事件),表明局部基因组重复可能是亚克隆的,并且在肝癌发生期间发生较晚。(Fig 4d)
克隆时间分析显示:15.1%的局部基因组重复,67.2%的染色体碎裂和62.7%的染色体重排属于亚克隆事件。(Fig. 4f)
比较成簇性改变的克隆或亚克隆的OR:其广泛分布表明这些事件可能在肿瘤发生过程中的不同时间发生。(Fig. 4g)
6、无处不在的非编码驱动因素
①通过整合494名患者的以下数据,即拷贝数增益和点突变的时间、体细胞驱动事件时间、突变特征时间来推断CLCA队列的突变史:
CLCA进化史的重建将44.98%的点突变归类为亚克隆,而PCAWG-HCC中该类突变占比为8%。(ExtendedFig7b)
与候选编码驱动因子相比,候选非编码驱动因子在亚克隆类别中更丰富,这表明候选非编码驱动因子可能对亚克隆多样化做出更多贡献。(ExtendedFig 7c)
在CLCA中,最早的突变事件是PPP1R12B 3′ UTR突变和17p缺失,其次是TP53、ARID2和ADH1B 3′ UTR突变。但是,TERT启动子突变是发生在较晚阶段的事件,这与在欧洲个体的肝细胞癌(HCC)中观察到的TERT启动子是早期事件的情况不同。(ExtendedFig 7d)
与烟草、黄曲霉毒素和AA暴露相关的SBS特征(SBS_H10、SBS_H3和SBS_H2)以及以前未描述的特征SBS_H8,往往在所有病例中都发生得很早。(ExtendedFig7e)
这些结果揭示了中国CLCA肝细胞癌队列的不同进化历史,并强调了在肝细胞癌发展过程中非编码突变的早期和普遍作用。
②根据cluster V(SBS_H8)及病因因素(如吸烟和饮酒)对这些患者进行了分类,并比较了不同群体的进化史。
在cluster V的患者、饮酒的患者以及吸烟的患者中,FGA突变是最早期的驱动因素之一。(ExtendedFig 7f)
7、代谢失调(Extended Fig8)
①行信号通路分析并比较编码及非编码突变中的信号通路结果显示:与编码突变相比,非编码突变在RTK-RAS-MAPK中(22.1% vs 6.5%)、端粒维持(34% vs 1.4%)和肝脏代谢(23.1% vs 18.2%)等通路的贡献更高。
②关注肝脏代谢的信号通路:总共包括15个潜在的驱动基因,这些基因突变影响了各种代谢程序,包括肝脏基本代谢(APOB、ALB和HNF1A)、氧化应激(KEAP1和NFE2L2)、尿素代谢(CPS1)、酒精代谢(ADH1B和ADH4)、脂肪酸代谢(SERPINA1和SERBP1)和缺氧(ARNT)。JAK-STAT通路中的FGA在肝脏代谢中也起着一定作用。
这一结果强调了增加非编码改变的权重对研究HCC代谢状态的必要性。
为了研究候选非编码驱动子是否具有致瘤功能,研究人员选择了三个具有代表性的驱动子进行功能测定,包括 KCNJ12(钾向内整流通道亚家族J成员12)、PPP1R12B(蛋白磷酸酶1调节亚基12B)和FGA。
选择这三个的原因如下:
PPP1R12B是最早的驱动程序事件之一。
KCNJ12是HCC进化史上最晚的驱动程序事件之一。
FGA被独立确定为候选编码和非编码驱动因素(3′UTR)。
8、KCNJ12和PPP1R12B
①构建特定基因敲除的细胞系,比较敲除细胞系及未敲除的细胞系中的肿瘤迁移、侵袭、自我更新和细胞增殖能力:PPP1R12B的低表达显著增强了肿瘤迁移、侵袭、自我更新和细胞增殖(Extended Fig. 9a)。KCNJ12 的敲除显著损害了肿瘤迁移、侵袭、自我更新和细胞增殖(Extended Fig.9f)
②在 HepG2 细胞系中使用基因编辑(Prime Editing-PE)技术引入内源性点突变体(PPP1R12B 和 KCNJ12),再通过RT-qPCR发现在CLCA中鉴定出的点突变导致的mRNA表达,发现在CLCA中鉴定出的PPP1R12B点突变导致mRNA表达降低,并足以引起表型变化(Extended Fig. 9b-e)。KCNJ12 中的点突变导致更高水平的 mRNA 表达和随后的表型变化(Extended Fig. 9g–j)。
这些数据验证了 PPP1R12B 和 KCNJ12 是 HCC 的非编码驱动因素。
9、FGA的功能缺失促进HCC进展
比较发生变异的肿瘤与野生型(WT)肿瘤间的FGA表达情况发现:在CLCA中,FGA改变,包括点突变、杂合性缺失和拷贝数丢失都可能导致表达水平降低(Fig5a)
使用WB和免疫组化分析比较了配对的肿瘤样本和正常样本中的FGA蛋白,结果显示与正常组织相比,肿瘤中FGA的mRNA和蛋白质水平较低(Fig5b-d)。
FGA的双等位基因失活率与CLCA中HCC的其他复发性突变肿瘤抑制基因突变率相当。
综上,研究人员推测FGA是一种肿瘤抑制基因,并探讨了FGA功能缺失在 HCC 进展中的潜在作用。
①诱导FGA点突变,比较突变前后的细胞系中该基因mRNA和蛋白质表达及肿瘤增殖/迁移、侵袭和自我更新能力,结果显示FGA点突变的诱导导致mRNA和蛋白质表达降低,肿瘤进展增强(Fig5e-i)。
②在FGA敲除的细胞系中得到了一致的表型(Extended Fig. 10i,j)
③体内实验:在体内细胞增殖实验中,将对照组(shCtrl,n=6)和针对FGA沉默处理的(shFGA,n=7)PLC/PRF/5肿瘤细胞的进行异种移植,发现:与注射 shCtrl细胞的小鼠相比,通过皮下注射shFGA细胞系的 BALB/c 裸鼠其肿瘤更大、更具侵袭性(Fig. 5j,k)。
④在PLC/PRF/5-sh-Ctrl和sh-FGA细胞系之间进行的特定磷酸化抗体阵列分析发现:磷酸化酪氨酸激酶 2(pTYK2)及其靶蛋白信号转导和转录激活因子 3(STAT3,Tyr705)被鉴定为 FGA 的主要下游信号(Extended10i-n),并发现pTYK2在细胞质中的积累比在细胞核中积累的要多(Fig5i)。pTYK2 的特异性抑制剂(BMS-986165)减弱了shFGA 细胞的迁移能力(Extended10o)。这些结果表明,FGA功能障碍可能不会激活HCC中的AKT信号传导。
⑤进一步检查了白细胞介素-6(IL-6)的表达(IL-6 是 STAT3 的下游信号)发现:与shCtrl细胞相比,shFGA细胞中的IL6 mRNA和细胞IL-6蛋白的水平显著更高(Fig 5m)。
⑥在独立队列中验证FGA 和 TYK2 磷酸化之间以及 FGA 和 IL-6 浓度的关系发现:FGA和TYK2磷酸化之间以及FGA和IL-6浓度之间的显着负相关在独立的HCC队列中得到证实(Fig 5n 和Extended10r)
我们的研究结果支持FGA是一种肿瘤抑制因子,FGA突变可以通过激活TYK2-STAT3-IL6通路来促进肝癌发生,这可能是HCC干预和临床治疗的潜在靶点
讨论:
在这里,我们描述了在中国个体中富集HBV感染的HCC患者的全面全基因组景观。我们的高深度WGS数据能够识别以前未描述的候选非编码驱动因素、突变特征和亚克隆灾难性事件,以及在HCC进化过程中非编码事件的普遍贡献。我们报道了一个全面的中国个体的HCC基因组景观,涵盖了多个类别的体细胞改变。这些不同的基因改变如何与肿瘤微环境中不同的免疫和基质细胞类型合作值得深入研究。总的来说,我们的CLCA研究是一个有价值的资源,为HCC的癌变和HCC的诊断和治疗提供了重要的生物学见解。
汇报人: 李朔
导师:任建君
审核:任建君、冯兰