Nat Methods:链接基因变异与蛋白质序列和结构的强大生信工具:G2P

2024-10-22 测序中国 测序中国 发表于上海

本研究开发 Genomics 2 Proteins 平台,连接基因组与蛋白质组,将遗传变异映射到蛋白质结构,为分析变异与疾病关系提供工具。

近年来,基于人工智能的方法层出不穷,为生物医学领域提供了数百万高质量的预测蛋白质结构。这得益于高通量测序和功能基因组学产生的数量空前的基因变异和疾病相关基因变异。但在将基因组与蛋白质结构联系起来方面仍然存在挑战,研究人员需要有效的工具和资源将不同的数据类型联系起来——将变异“映射”到蛋白质结构上,以便更好地了解变异如何导致疾病,从而设计治疗方法。

为此,Broad研究所Sumaiya Iqbal团队在Nature Methods上发表了题为“Genomics 2 Proteins portal: a resource and discovery tool for linking genetic screening outputs to protein sequences and structures”的研究论文,开发了一个联系基因组学与蛋白质组学的门户网站——Genomics 2 Proteins(G2P)。利用该平台,研究人员不仅可以深入了解与遗传变异相关的蛋白质序列和结构,还能以交互方式上传蛋白质残基注释(例如变异、评分等)、更新蛋白质结构数据库。G2P平台为生命科学研究人员提供了动态查询、检索遗传变异和转录本并将其与蛋白质序列注释和结构连接起来的高效生物信息学工具。

图片

一、G2P平台介绍

目前,G2P将200767998个遗传变异映射到42413个蛋白质序列和77923个结构上,并进行了全面的蛋白质特征报告(图1)。通过利用实验解决和预测的蛋白质结构,G2P门户覆盖了99%具有相应结构的人类蛋白质。

G2P具有两个模块:“基因/蛋白质查找”模块归纳了三个人类遗传变异数据库——基因组聚集数据库(gnomAD)、ClinVar和人类基因突变数据库(HGMD)的人类蛋白质变异,集合大量的人类蛋白质组资源,供用户探索转录本的遗传变异与蛋白质序列和结构的关系;“交互式映射”模块则为用户提供先进的数据分析工具和可视化工具,分析对象不限于公开可用的变异或蛋白质结构。研究人员还开发出一整套蛋白质残基注释方法,可通过评估变异对重要蛋白质特征的影响,解密变异机制。

除变异数据及蛋白质结构数据之外,G2P还纳入了蛋白质特征数据,包括氨基酸的物化性质、基于PDB和AlphaFold结构的结构特征、来自UniProtKB的序列注释、来自PhosphoSitePlus的PTM以来自变异效应(MAVE)的多重测序读数,为用户对gnomAD 、ClinVar和HGMD变异的不同结构、功能特征及分布差异提供见解。

图片

图1.G2P的生物信息学框架

二、“基因/蛋白质查找”模块的使用方法

研究人员以揭示MORC2致病性变异的空间分布及其蛋白质结构-功能关系方面的效用为例,介绍了基因/蛋白质查找模块的使用方法。

用户在“variant to protein sequence”选项卡下选择转录本后(图2a),查看映射的变异和蛋白质特征。用户可通过筛选器筛选目标变异,例如在MORC2的N末端区域(残基20-470)发现了一组PLP错义变异。蛋白质特征轨迹提供了对该区域的进一步见解。相应结果可在“variant to protein structure”选项卡下的结构查看器进行3D可视化(图2b)。将ClinVar PLP错义变异(黄色,图2b)与MORC2同型二聚体(PDB 5OF9)晶体结构上的结合位点轨迹进行映射,揭示突变接近二聚体界面和结合位点(黑色;图2b)。

图片

图2.基因/蛋白质查找模块的用例(报告MORC2变异和蛋白质特征)

三、Interactive Mapping模块示例

研究人员使用已发表的DNA甲基转移酶3A[1]的碱基编辑(BE)扫描结果进行研究。

用户在“start with a gene/protein identifier”栏输入基因DNMT3A,选择一种结构(PDB 4U7T)并上传注释,例如34个错义变异(碱基编辑位置)、BE扫描的sgRNA评分和来自AlphaMissense的致病性预测评分,以及结构域注释(图3a)。结果部分的“Resources in the G2P portal”栏可做补充。通过选择“Base-edited position”和“domain”注释(图2a,左),用户可以精确定位每个结构域内变异的3D位置(图2a,右)。

Gene/Protein Lookup模块中用户上传和集成数据的并发映射——例如ClinVar PLP变异和三类二级结构——允许用户在已知致病性变异(图2b,上)和结构特征(图2b,下)的情况下分析其变异。最后,图2c展示了BE扫描结果在AlphaFold结构上的映射。

图片

图3.Interactive Mapping模块示例(DNMT3A碱基编辑扫描结果映射)

基因筛查越来越多地应用于临床实践,但转化和临床遗传学的一个持续瓶颈是解码筛选出的遗传变异。大多数临床鉴定的变异仍然具有不确定的意义,并且确定治疗上可行的变异具有挑战性。将遗传变异与结构生物学联系起来,提供了一种将许多疾病的潜在原因与分子效应联系起来的方法。然而,整合基因组学、转录组学、蛋白质序列和结构之间的数据是连接变异和蛋白质结构所必需的,由于不同的数据类型和固有的复杂性,这并不是容易实现。该研究提出的G2P门户网站,克服了多组学数据整合的挑战,为人类蛋白质组建立了基因变异和蛋白质结构之间的桥梁,为帮助分析遗传变异-蛋白质结构关系及发现新的治疗机制提供了强有力的生信工具。

该研究的所有资源都可以在G2P门户网站(https://g2p.broadinstitute.org/)上获得。

原文链接:

https://www.nature.com/articles/s41592-024-02409-0

参考文献:

[1] Lue, N. Z. et al. Base editor scanning charts the DNMT3A activity landscape. Nat. Chem. Biol. 19, 176–186 (2023).

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2232287, encodeId=73c5223228e35, content=<a href='/topic/show?id=007d9506920' target=_blank style='color:#2F92EE;'>#遗传变异#</a> <a href='/topic/show?id=5a7b88e393f' target=_blank style='color:#2F92EE;'>#蛋白质结构#</a> <a href='/topic/show?id=562512043518' target=_blank style='color:#2F92EE;'>#G2P#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=27, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=120435, encryptionId=562512043518, topicName=G2P), TopicDto(id=88739, encryptionId=5a7b88e393f, topicName=蛋白质结构), TopicDto(id=95069, encryptionId=007d9506920, topicName=遗传变异)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Mon Oct 21 23:30:28 CST 2024, time=2024-10-21, status=1, ipAttribution=上海)]

相关资讯

Nature子刊:基于78万欧洲人群GWAS研究数据,揭示影响人类生育能力的遗传变异

通过将现代基因组的研究结果与古代基因组数据相结合,研究团队确定了数千年来基因组中一直处于选择中,且目前仍处于选择状态的一个区域,其中的基因FADS1/2至今仍影响着人们的生育能力。

Nature Human Behaviour:一生能生育多少孩子,受遗传变异的影响

这项研究是同类研究中规模最大的,有助科学家确定不孕不育等生殖疾病的新治疗靶点,以及更好地理解生殖健康更广泛的生物学机制。

stroke:遗传变异和中风恢复——STRONG研究

这项研究确定了与中风后 1 年的认知功能、抑郁症和 PTSD 的遗传关联。

Neurology:阿尔茨海默病患者β-淀粉样蛋白与认知和磁共振关系的遗传调节 

特定遗传变异导致的认知功能障碍增加和加速萎缩的模式可能解释了临床前和先兆AD患者认知上的部分异质性。ARPP21附近的基因变异与A4中较低的认知分数以及ADNI中认知能力加速下降和脑萎缩相关。

ARD:与系统性红斑狼疮疾病活动相关的T细胞3D基因组改变

这篇研究旨在阐明3D基因组结构及其在系统性红斑狼疮(SLE)失调的基因表达网络中的作用,揭示表观遗传机制并突出染色体结构、遗传变异和基因表达控制之间的关系在SLE的发病机制中的作用。

JNNP:新生儿亨廷顿病患者的执行功能受损情况远早于舞蹈症状前

亨廷顿病(HD)的临床诊断通常是在运动症状和舞蹈症明显时作出。

约翰·霍普金斯大学Nature发文揭示全球多样化人群中基因表达变异的来源

该研究扩展了对人类基因表达多样性的理解,并为研究人类基因组的进化和功能提供了一个重要资源。

Alzheimer’s & Dementia: TREM2的多聚化受阿尔茨海默病相关变异影响

TREM2三聚体的稳定性主要由D87和R76之间的盐桥驱动。AD相关变异R47H和R98W破坏了这一盐桥,D87N变异则导致其完全丧失,显著减少了TREM2多聚化。

Prostate:ATM与BRCA2转移去势抵抗性前列腺癌对他汀类和PARP抑制剂的反应如何?

调查了ATM和BRCA2两种变异的前列腺癌患者对他汀类药物反应可能存在的差异。

JAMA Oncol | 年轻乳腺癌患者二次原发性乳腺癌的风险研究

该研究通过对1297名40岁及以下的年轻乳腺癌患者进行前瞻性队列研究,评估了二次原发性乳腺癌的风险,遗传变异携带者在首次诊断后10年内发生二次原发性乳腺癌的风险较低,而遗传变异携带者的风险较高。