NAR:基于人工智能技术在非编码DNA中发现新型癌症驱动突变

2024-08-02 测序中国 测序中国 发表于上海

这项研究颠覆了人们对DNA的传统认识,将研究视角扩展到了之前被忽视的非编码区域。

近日,澳大利亚Garvan医学研究所的Amanda Khoury&Susan J Clark团队运用人工智能技术,在DNA序列中被认为无用的“垃圾”区域——非编码DNA中发现了若干潜在的癌症驱动因素,这项研究颠覆了人们对DNA的传统认识,将研究视角扩展到了之前被忽视的非编码区域。这项最新研究成果以“Machine learning enables pan-cancer identification of mutational hotspots at persistent CTCF binding sites” 为题发表在Nucleic Acids Research上。

图片

据悉,该研究揭示了一类以前未被充分研究的基因组区域的突变现象,这些突变可能参与了至少12种不同类型癌症的发生与发展过程,包括常见前列腺癌、乳腺癌和结直肠癌等,这一重大突破预示着有望在癌症早期诊断和治疗领域发现有效的新方法和途

CCCTC结合因子(CTCF)是一种绝缘体蛋白,普遍存在于真核生物中,可与高度保守的DNA基序结合并促进三维(3D)核结构和转录的调节。CTCF结合位点(CTCF-BSs)位于在非编码DNA中,其数量庞大且具有显著异质性,经常在癌症中发生突变。

已知CTCF敲低可导致CTCF-BSs的广泛丧失,称为丢失性CTCF结合位点(L-CTCF-BSs);先前研究还确定了一小类对CTCF敲低具有抗性的CTCF-BSs,称为持久性CTCF结合位点(P-CTCF-BSs)。与L-CTCF-BSs相比,P-CTCF-BSs表现出不同的遗传和表观遗传特性,具有高度结合保守性,并可能调控细胞型的构成性3D染色质结构。但L-CTCF-BSs的突变频率,以及其能否导致目前仍不清楚。

为解决上述难题,研究团队开发了一种名为“CTCF-INSITE”的复杂人工智能(AI)工具,可基于实验定义的P-CTCF-BSs,预测CTCF在癌细胞中敲低后的结合持久性。值得注意的是,在所有12种癌症类型中,预测的P-CTCF-BSs显示出显著升高的突变负荷;对于预测会对CTCF结合和染色质环产生功能性影响的P-CTCF-BSs突变,其富集程度更加明显。使用体外结合实验,研究团队证实了预测具有破坏性的P-CTCF-BSs癌症突变确实降低了CTCF的结合。综上,该研究揭示了一类新的癌症特异性CTCF-BS DNA突变,并为其在泛癌症背景下对基因组组织的重要性提供了见解。

图片

图:研究概要

P-CTCF-BSs可从不同基因组和表观基因组特征中预测

研究团队首先评估了实验定义的P-CTCF-BSs的基因组和表观基因组特征,使用机器学习方法预测了CTCF敲低后的结合持久性(图1)。研究团队收集了从3,128名患者肺组织、乳癌和前列腺癌分离的LNCaP、MCF7和IMR90细胞系的综合分子数据集,这些数据包括全基因组测序(WGS)、CTCF ChIP-seq和RNAi介导的CTCF敲低ChIP-seq数据等,将P-CTCF-BSs定义为CTCF敲低后基本不变的CTCF ChIP-seq峰位置,而L-CTCF-BSs则是CTCF ChIP-seq峰丢失的位置。

研究团队依据LNCaP和MCF7细胞系的实验数据,量化了之前研究中的特征以及新特征(n=15)在区分P-CTCF-BSs/L-CTCF-BSs方面的能力。结果显示,排名前3的特征分别是:每个ChIP-seq峰reads的富集倍数(fold enrichment)、基序评分和组成性结合。研究团队还观察到,与L-CTCF-BS相比,更多的P-CTCF-BS位于染色质环锚点、TAD边界、晚期复制时序区域,并具有更高的保守性评分

随后,研究团队使用LNCaP数据作为训练集开发逻辑回归和随机森林模型,利用基因组和表观基因组数据预测P-CTCF-BS,并开发了一个名为CTCF-INSITE的工具

图片

图1.开发CTCF-INSITE以预测CTCF结合持久性

P-CTCF-BSs突变率升高 

研究团队通过将LNCaP和MCF7的CTCF-ChIP-seq峰区域与国际癌症基因组联盟(ICGC)WGS数据(前列腺癌和乳腺癌)中的所有突变进行交叉比对,探究了持久性和突变率之间的关系(图2)。结果显示,大部分CTCF-ChIP-seq峰区域包含≥1个突变;P-CTCF-BS比L-CTCF-BS具有更高的突变率,在LNCaP和MCF7中分别高1.34和1.25倍。特别地,P-CTCF-BS突变富集不是由位置特异性效应驱动,仅部分受到乘客突变的影响。

接下来,研究团队在LNCaP和MCF7细胞中评估了CTCF-INSITE的性能,发现其预测的P-CTCF-BS突变率与实验定义的P-CTCF-BS突变率相当,且稳健性较强。此外,染色质环锚点共定位和高CTCFChIP-seq结合强度这两个特征与高突变率相关。上述结果表明,乳腺癌和前列腺癌中的这些热点可能主要由P-CTCF-BS驱动。 

图片

图2.P-CTCF-BS是前列腺癌和乳腺癌的突变热点

P-CTCF-BSs突变在潜在3D基因组失调位点富集

为进一步了解P-CTCF-BSs在癌症中的功能重要性,研究团队检测了P-CTCF-BSs和L-CTCF-BSs中功能性突变的富集情况,并使用ChIP-seq数据或等位基因特异性基序评分差异(Δscore)评估了CTCF结合的变化(图3)。结果显示,|Δscore|≥2的突变是定义“破坏性”突变的适当临界值,如果ICGC突变导致|Δscore|≥2,就将其归类为“破坏性”突变。在P-CTCF-BSs亚群中,共鉴定出40.4%的破坏性突变,而在L-CTCF-BSs中仅鉴定出26.5%的破坏性突变。

为证明基序评分能准确预测CTCF结合亲和力的破坏,研究团队使用重组截短CTCF蛋白(编码DNA结合结构域)进行了荧光极化DNA结合(FPDB)体外实验。结果显示,与L-CTCF-BSs相比,P-CTCF-BSs在前列腺癌和乳腺癌中都富含破坏性突变和染色质环锚定位;27%被破坏的CTCF-BS具有潜在功能,其同样位于环锚上;预测具有破坏性的候选P-CTCF-BSs突变降低了CTCF结合。值得注意的是,相较L-CTCF-BSs,P-CTCF-BSs中功能性突变的富集程度更高,表明其在癌症的3D基因组失调中起着重要作用

研究团队汇编了乳腺癌和前列腺癌中突变P-CTCF-BS上下游1kb范围内的基因,并进行了基因集富集分析。结果显示,在乳腺癌中富集了紫外线照射(UV)后下调基因,而在前列腺癌中富集了与上皮细胞-间质转化相关的基因。这些结果表明,P-CTCF-BS突变导致CTCF结合缺失,从而导致癌症相关基因失调。

图片

图3.等位基因分析发现P-CTCF-BS处富集功能突变

P-CTCF-BSs突变在多种癌症类型中富集

最后,研究团队评估了所观察到的P-CTCF-BSs突变富集是否是一种泛癌现象;收集了来自ICGC不同癌症队列WGS的简单突变,进行质量控制排除微卫星不稳定的癌症数据,并根据起源组织将队列中的突变分为12种癌症类型。研究团队还整理了每种癌症类型的ENCODE CTCF ChIP-seq数据,并使用CTCF-INSITE预测前10%持久性最强的CTCF-BSs,用于泛癌症富集分析。

结果表明,不同癌症类型的CTCF-BSs内的突变率有很大差异,但所有癌症的P-CTCF-BS突变率均显著高于L-CTCF-BS。有趣的是,P-CTCF-BS突变的发生率与总体突变负荷无关。此外,在大多数癌症类型中,P-CTCF-BSs也显示出破坏性突变的显著富集,这与我们在乳腺癌和前列腺癌中的观察结果类似。上述发现证实,P-CTCF-BSs是泛癌背景下的突变热点

图片

图4.P-CTCF-BS是泛癌突变热点

综上所述,研究团队开发了一种机器学习工具CTCF-INSITE,可预测P-CTCF-BSs,提供有关癌症病因学的新生物学见解;并证实P-CTCF-BSs是癌症中的突变热点,这些突变可使癌细胞具有生存优势,使其能够增殖和扩散。这一重要研究发现有潜力引领癌症诊断和治疗领域的一次革命,或将为医生们提供早期发现癌症的新手段,并为多种癌症类型带来有效的新治疗方法,显著提高癌症患者的生存质量和生存率。

参考文献:

Chen W, Zeng YC, Achinger-Kawecka J, et al. Machine learning enables pan-cancer identification of mutational hotspots at persistent CTCF binding sites. Nucleic Acids Res. Published online July 2, 2024. doi:10.1093/nar/gkae530

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2218155, encodeId=3b01221815519, content=<a href='/topic/show?id=d8dbe130197' target=_blank style='color:#2F92EE;'>#癌症#</a> <a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a> <a href='/topic/show?id=995599619b6' target=_blank style='color:#2F92EE;'>#非编码DNA#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=76, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能), TopicDto(id=71301, encryptionId=d8dbe130197, topicName=癌症), TopicDto(id=99619, encryptionId=995599619b6, topicName=非编码DNA)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Fri Aug 02 15:53:54 CST 2024, time=2024-08-02, status=1, ipAttribution=上海)]

相关资讯

Nat Commun:基于长读长测序高分辨率解析完整端粒序列,揭示端粒与衰老、癌症等的新关联

研究团队利用ONT公司的原生长读长测序技术开发了一种突破性新技术Telo-seq,可解决端粒序列分析难题,以前所未有的分辨率研究发育、衰老和癌症过程中的端粒生物学。

IVD前沿丨便携式唾液酸检测技术推进癌症检测的挑战、机会和前景

文章介绍了唾液酸检测技术的最新研究,包括可穿戴传感器和小型化电化学传感器。

近10万例样本解析BRAF融合,跨越52种癌症类型,泛癌靶药治疗新突破口

在本文中,研究者报告了迄今为止描述BRAF融合的结构和对临床病程的影响的最大研究。BRAF融合有一系列不同的融合伴侣。

不仅降糖减肥,还有防癌潜力!JAMA子刊:GLP-1药物或降低10种癌症风险

对超过165万患者的分析表明,相比胰岛素治疗,接受GLP-1RA类药物治疗的2型糖尿病患者罹患10种肥胖相关癌症的风险更低。

论文解读| Shaoqing Ju / Yuejiao Huang教授团队总结tsRNAs在癌症中的多重调控作用

这篇综述全面总结了tsRNAs的分类、生物合成、作用机制以及在肿瘤中的生物学功能,为理解tsRNAs在癌症中的角色提供了深入的见解。

PLoS Med:Xa 直接因子抑制剂与癌症风险和癌症死亡率

该研究的发现对于指导房颤患者的抗凝治疗具有重要意义,有助于医生更好地平衡抗凝效果和潜在风险,为患者提供更安全、有效的治疗方案。未来,研究人员将继续关注这一领域的研究进展,为临床实践提供更多有价值的参考

中山大学,最新Nature系列综述:ROS癌症治疗最新进展!

本文综述了ROS在癌症治疗领域的最新研究进展,重点讨论了关键分子参与者、信号通路,以及针对ROS的癌症治疗的新策略和化合物。

癌症治疗的新靶点:IL-1RAP

该蛋白显示出巨大的治疗潜力,目前正在进行针对IL-1RAP两种疗法的临床试验,一种是CAR-T细胞疗法,另一种是激活抗体介导的细胞毒性(ADCC)或直接阻断IL-1RAP的抗体免疫疗法。

仅2位作者,最新Nature系列综述:染色质重塑剂,治疗新靶点!

综述介绍染色质重塑复合物,特别是SWI/SNF复合物与疾病的关联,包括癌症和神经系统疾病,讨论其治疗靶点和策略、进展及展望。

Cell:章冰/高强团队合作泛癌蛋白基因组学研究,揭示癌症治疗潜在新靶点

研究团队将CPTAC的10种癌症类型1043名患者的蛋白基因组学数据集与其他公共数据集,阐明了癌症治疗的蛋白质新靶点。