上海交大余祥课题组《自然·通讯》:基于纳米孔RNA单分子测序和可迁移深度学习鉴定多种类型的RNA化学修饰

2024-05-17 BioMed科技 BioMed科技 发表于上海

作者结合纳米孔RNA直接测序技术和深度学习方法开发了可同时检测多种类型RNA修饰的迁移学习模型TandemMod。

近日,上海交通大学生命科学技术学院余祥聘教轨副教授课题组和上海辰山植物园杨俊、王红霞团队合作在国际知名期刊《Nature Communications》发表题为“Transfer learning enables identification of multiple types of RNA modifications using nanopore direct RNA sequencing”的研究论文。作者结合纳米孔RNA直接测序技术和深度学习方法开发了可同时检测多种类型RNA修饰的迁移学习模型TandemMod(图1)。上海交通大学生命科学技术学院博士后吴优为论文第一作者,上海交通大学生命科学技术学院余祥长聘教轨副教授、辰山植物园王红霞副研究员和杨俊研究员为该论文通讯作者。

图片

图1. 基于纳米孔RNA直接测序数据搭建TandemMod深度学习框架的示意图。

自然界RNA中存在160种以上的修饰类型。近年的研究揭示mRNA上的m6A、m5C、m1A和Ψ等修饰具有重要的生物学功能。结合抗体捕获、化学突变和限制性酶切等方法的高通量测序技术被广泛用于对mRNA某一类型修饰位点的鉴定。然而,如何在同一条mRNA转录本中同时鉴定多种不同类型的修饰位点还存在巨大挑战。相较于二代测序技术,纳米孔RNA直接测序 (Direct RNA Sequencing, DRS)能够对带有polyA尾的全长mRNA进行直接测序,mRNA穿过纳米孔时产生的电信号差异可用于推断单条mRNA上每个碱基的类别及其修饰信息(图2)。因此,结合机器学习算法,理论上DRS可实现在单条mRNA水平、以单碱基分辨率检测多种不同类型的碱基修饰。但是,目前纳米孔的电信号特征与天然mRNA上的哪些修饰碱基相对应还缺乏准确的标签,这制约了在单分子水平检测多种类型的RNA修饰。

图片

图2. RNA通过纳米孔时产生电信号信息的示意图。

该研究中作者创新性地利用带有T7启动子的水稻cDNA文库体外转录出了具备不同修饰标签的数千种mRNA转录本,加polyA尾后通过DRS创建了分别带有未修饰碱基、m6A修饰、m5C修饰和m1A修饰等精准标签的体外表观转录组 (IVET)数据集(图3)。在此基础上,作者以每5个碱基分配到的电信号及其统计特征作为输入,训练并搭建了一个具备1维卷积神经网络 (1D CNN)、双向长短时记忆(Bi-LSTM)和注意力机制(Attention)的TandemMod深度学习框架(图1)。

图片

图3. 利用水稻cDNA文库体外转录带有m6A、m1A和m5C标签的转录本、并通过DRS创建体外表观转录组的示意图。

作者首先将TandemMod模型与目前基于DRS预测m6A和m5C的主流算法进行比较,验证了TandemMod模型在体外转录本及细胞体内转录本DRS数据中预测RNA修饰位点的优越性能(图4)。在正常人类细胞中检测到排名前五的基序中有4个是已知的DRACH,在m6A甲基化酶敲除的细胞中m6A修饰率显著下降。

图片

图4. 在体外转录本DRS数据和人类细胞DRS数据中验证TandemMod检测m6A修饰位点的优越性能。

进一步,作者通过迁移学习将TandemMod用于检测mRNA中的m7G、 hm5C、 Ψ 和Inosine等多种类型的RNA修饰位点,揭示了迁移学习可在保证同等性能的条件下显著减少训练集数据量和模型训练时间等计算成本(图5)。最后,作者通过TandemMod绘制了水稻幼苗在高盐胁迫下m6A、m5C和Ψ的表观修饰图谱,并揭示了mRNA中m6A和m5C的共修饰及其在高盐环境下的修饰率变化(图6)。

图片

图5. 迁移学习检测m7G, hm5C, Ψ 和Inosine等多种类型的RNA修饰位点的性能、数据量和训练时间评估。

图片

图6. 通过TandemMod绘制高盐胁迫下水稻m6A、m5C和Ψ的表观转录修饰图谱,并揭示m6A和m5C的共修饰及其在高盐环境下的修饰率变化。

综上,作者创建的体外表观转录组 (IVET) 将为基于纳米孔RNA单分子测序鉴定RNA修饰的机器学习方法提供基准训练数据集,开发的可迁移深度学习模型TandemMod将为动植物和微生物体内多种类型的RNA修饰位点鉴定及表观转录组研究提供重要的技术支撑。同时TandemMod还可用于检测RNA疫苗等人工修饰的RNA。

该研究得到了国家自然科学基金、上海市浦江人才和上海市科技创新行动计划的支持。感谢上海辰山植物园研究平台在纳米孔测序的帮助以及上海交通大学超算平台提供的计算资源。

原文链接:

https://www.nature.com/articles/s41467-024-48437-4

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2205193, encodeId=4feb2205193e3, content=<a href='/topic/show?id=5736654581e' target=_blank style='color:#2F92EE;'>#测序#</a> <a href='/topic/show?id=a7d3155507b' target=_blank style='color:#2F92EE;'>#RNA修饰#</a> <a href='/topic/show?id=84d5109e842a' target=_blank style='color:#2F92EE;'>#单分子测序#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=9, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=15550, encryptionId=a7d3155507b, topicName=RNA修饰), TopicDto(id=109784, encryptionId=84d5109e842a, topicName=单分子测序), TopicDto(id=65458, encryptionId=5736654581e, topicName=测序)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Fri May 17 14:46:09 CST 2024, time=2024-05-17, status=1, ipAttribution=上海)]

相关资讯

NBT:上海交通大学杨朝勇/吴玲玲/宋佳/郑军华开发新的方法,实现高灵敏空间转录组学测序

该研究报道了一种用于空间RNA测序(Decoder-seq)的树状细胞DNA坐标条形码设计,该设计具有高灵敏度和高分辨率。

Sci Transl Med:机器学习+扩增子片段组测序实现灵敏的癌症早期检测

研究发现,A-PLUS的部分功效可以归因于一个单一的特征——实体癌患者cfDNA中Alu元件的整体减少。

Nat Med:整合肿瘤患者WGS和纵向真实世界临床数据,可识别预后相关特定遗传改变

该研究证明了将基因组和真实世界的临床数据相结合的实用性,使生存分析能够识别影响预后的癌症基因,并提高人们对癌症基因组学如何影响患者预后的理解。

Genome Biol:中国医科大学李薛鑫团队开发多组学单细胞图谱:构建人体细胞多样性的多组学百科全书

随着技术进步和数据不断积累,单细胞图谱将持续更新和扩展。这一资源的不断丰富将推动精准医疗和个性化治疗策略的发展,为疾病研究和新药开发提供关键科学基础。

华大基因开发新型空间染色质可及性测序工具SCA-seq,以单分子分辨率捕获表观遗传信息同时解析基因组构象

SCA-seq利用纳米孔技术对包含染色质可及性、CpG甲基化和染色质构象信息的长片段进行测序,在单分子分辨率上将染色质可及性和CpG甲基化映射到基因组空间结构,同时解析基因组构象。

PNAS:北京大学谢晓亮团队开发新型单细胞甲基化与羟甲基化测序技术

该研究提出了一种无亚硫酸氢盐的单细胞全基因组5mC和5hmC分析技术,命名为Cabernet,它可以在高基因组覆盖率下以单碱基分辨率表征5mC和5hmC。

NBT:叶凯团队开发基于“序列-图像”转换的差异比较算法SVision-pro,实现高精确性SV检测及分型

叶凯教授团队开发了SVision-pro,这是一种基于神经网络的实例分割框架,能够直观地表示基因组到基因组水平的测序差异,并在无需任何推断模型的条件下比较地发现基因组之间的SV。

Nature:基因组学新纪元:超快速测序技术加速个性化医疗

超快速基因组测序技术的应用,使得医生能够快速获取患者的基因信息,从而制定出更加个性化、精准的治疗方案。

Nat Commun:MSK经验分享:肿瘤和匹配正常样本综合突变谱MSK-IMPACT Heme可加强对血液肿瘤的临床评估

对肿瘤和匹配的正常样本进行大规模测序在血液肿瘤中是可行的,可用于指导血液肿瘤患者的诊断、预后、治疗选择和未来监测。

Nat Commun:王建新/罗峰/肖传乐建立基于第三代测序数据的二倍体组装算法

基于第三代测序数据,提出了二倍体的单倍型组装新算法,并开发了相应的软件PECAT。