Nat Commun:AlphaFold2新方法高通量预测蛋白质构象分布,准确率超80%

2024-04-26 测序中国 测序中国 发表于陕西省

研究团队提出了一种使用AlphaFold 2通过亚采样多序列比对直接预测不同蛋白质构象相对种群的创新方法。

蛋白质是重要的生物大分子,在生物体内发挥着广泛的功能,了解蛋白质的三维结构对于阐明其功能和设计靶向药物至关重要。人们通常使用X射线晶体学、核磁共振(NMR)光谱学和电子显微镜等实验技术来确定蛋白质结构,但这些方法耗时长、技术难度大、成本高且适用性差。为此,科研人员开发了从头预测蛋白质结构的方法——AB Initio,利用基于物理的算法从氨基酸序列预测蛋白质结构,但其无法表征更大、更复杂的蛋白质。

近年来,机器学习算法的快速发展显著提高了蛋白质结构预测的速度,该领域最显著的成就之一是DeepMind开发的AlphaFold 2(AF2)模型,其基于深度神经网络可从氨基酸序列中预测基态蛋白质结构,耗时短并具有较高的准确性,为药物发现和基础研究开辟了新的道路、对人类健康产生了显著影响。但一系列研究发现,AF2算法在预测替代蛋白质构象和序列变异影响方面能力有限。

近期,美国布朗大学分子和细胞生物学与生物化学系的科研人员在Nature Communications上发表了题为“High-throughput prediction of protein conformational distributions with subsampled AlphaFold2”的文章。研究团队提出了一种使用AlphaFold 2通过亚采样多序列比对直接预测不同蛋白质构象相对种群的创新方法,并对两个具有截然不同可用序列数据的蛋白质进行核磁共振实验,即Abl1激酶和粒细胞-巨噬细胞集落刺激因子(GM-CSF),该方法以超80%的准确率预测了相对状态种群的变化。此外,亚采样方法在用于定性预测突变或进化对蛋白质构象分布和高密度状态的影响时效果最好。综上,该方法高效、迅速且成本较低,能有效预测蛋白质构象的相对种群,甚至可达到单点突变的分辨率,有望成为药理学、实验结果分析和预测进化的有用工具。

图片

文章发表在Nature Communications

图片

亚采样AF2工作流程

近年来,已有多个研究小组观察到,采用不同参数和多序列比对(MSA)深度的AF2方法能欧仅基于序列数据预测构象变化,这些替代AF2框架的共同原理是对MSA进行亚采样,以调节不同结构域的协同进化信号。从主MSA中随机选择任意数量的序列(由max_seq参数定义)(目标序列始终被选中),其余序列使用Hamming距离围绕每个选定序列聚类;AF2使用聚类中心和聚类中长度为extra_seq的样本进行推断(图1)。先前工作表明,在默认值的基础上显著降低max_seq值和extra_seq值,可实现对一系列模型系统的集成预测。

图片

图1:AF2的MSA聚类启发式算法。

基于上述观察结果,研究团队系统测试了不同AF2参数组合预测Abl1激酶核心结构的准确性。据悉,Abl1有三种不同的主要构象:在溶液中,Abl1主要以活动(基态)状态存在,在极少数情况下会转换为非活性状态1(I1),然后转换为非活性状态2(I2);从基态到I1状态的变化较小,但从I1到I2状态的转变涉及到相当大的骨架重排。

为使用AF2生成完整的Abl1构象集合,研究团队首先通过JackHMMR算法在野生型Abl1激酶核心(残基229-515)上编译了一个涵盖60万条序列的广泛MSA;为提高结果的统计能力,为每个测试运行了32个具有独立种子的预测,并在推断过程中启用了dropout,以便从模型的不确定性中取样;所有其他参数保留默认设置。

结果显示,当max_seq:extra_seq值为256:512时,激活环构象的结果最为多样化;重要的是,AF2预测的激活环构象集合分布于Abl1从基态到I2态的转变过程中。为进一步检验AF2是否真正预测了沿转变过程的构象,研究团队将160个AF2 Abl1的亚采样预测集合与从溶液中apo Abl1的增强采样分子动力学(MD)模拟生成的I1到I2轨迹中提取的代表性快照进行比较,这一比较的代表性结果如图4所示。结果显示,AF2成功预测了Abl1激酶基态的相对种群;激活环转变的覆盖范围较大,表明使用AF2对中间状态进行采样,有可能揭示其路径和机制

图片

图2:通过Abl1激酶核心的增强采样MD模拟和代表性AF2预测得到的I1、I2轨迹比较。

接下来,研究团队研究了AF2在无下游MD模拟的情况下预测构象分布的潜力。已知野生型Src激酶占据基态的频率显著高于Abl1,如果亚采样AF2的假设是正确的,该方法将输出基态Src比基态 Abl1显著更多的预测。为此,研究团队使用与Abl1相同的流程为Src激酶核心(残基235-497)序列构建了一个大的MSA,并将其作为输入运行亚采样AF2,检测了Src激酶核心基态和I2态的相对种群。

结果显示,绝大多数来自亚采样AF2的Src激酶核心预测都处于基态,预测的相对状态种群为97%,而Abl1为89%。有趣的是,Src预测中没有一个被发现处于I2状态,这表明在使用AF2预测相对状态种群时存在分辨率限制:在目前的实现中,具有较低占用率的构象(如Src中的I2)可能会被算法遗漏。虽然存在分辨率问题,但亚采样AF2正确地预测了Abl1和Src激酶核心之间构象分布的差异,这证明了其作为预测相对状态种群的高通量方法的前景。研究团队还使用亚采样AF2方法对Anc-AS激酶核心(残基1-263)进行预测,并将结果与Abl1和Src病例进行比较。结果显示,预测的Anc-AS有93%的时间处于基态,介于Src(97%)和Abl1(89%)的预测频率之间,与预期结果一致。

蛋白质中的许多点突变被认为可通过改变构象和相对状态种群从而导致不同的表型(如耐药性),为此研究团队应用亚采样AF2对一系列Abl1单突变体和双突变体进行预测,这些突变体对基态和I2状态的相对种群有明显的特征和显著影响。结果显示,亚采样AF2准确预测了相对状态种群及其方向的变化,准确率超80%

图片

图3:亚采样AF2预测沿Src到Abl1进化途径和Abl1耐药突变的蛋白质非基态构象百分比。

考虑到对Abl1预测的成功,研究团队试图检验能否用更少的序列数据获得类似的预测结果,并使用人类GMCSF的序列重复了上述预测流程(图4)。GMCSF是一种分子量为14 kDa的单体糖蛋白,在先天性免疫中发挥核心作用,可刺激多种细胞对病原体做出应答。GMCSF中N端螺旋A的动态变化可形成两种构象:一是封闭构象(基态),这是晶体堆积时最稳定的GMCSF构象;二是开放构象,可与肝素和其他免疫系统调节剂进行结合。

图片

图4:该研究预测的两个蛋白质系统的构象集合。

研究团队使用野生型人类GMCSF序列作为查询和JackHMMR方法构建了MSA(112个序列)后,确定了导致GMCSF构象最大多样性的max_seq和extra_seq参数,并预测了野生型GMCSF的结构。为评估突变如何影响GMCSF的构象分布,研究团队检测了每个预测的GMCSF结构的特定主链原子位置的RMSD(图5)。

结果显示,亚采样AF2方法准确预测了突变体H15/83和H87骨架重排幅度的差异;与H87的突变相比,H15和H83的突变在构象分布方面引起的变化更大;并正确估计了突变体H83R和H83N对c端构象的显著影响,同时准确预测了H83N、H83Y和H87三种突变体对残基80-90 RMSD分布的影响。特别地,研究团队还在GMCSF中发现了一种与基态和开放态显著不同的替代构象A1,在该替代构象中,C螺旋与B螺旋交换了位置,螺旋B占据了与肝素结合的凹槽。

图片

图5:GMCSF突变的亚采样AF2结果。

综上所述,对于Abl1激酶,亚采样AF2定性预测突变了对激酶核心活性状态种群的积极和消极影响,以及激酶核心活性到非活性转变中的大多数激活环中间状态;对于GMCSF,该方法预测了其构象集合在响应点突变时的变化,揭示亚采样AF2解码构象变化信号的卓越能力。总之,这些结果突出了AF2在预测蛋白质构象变化方面的强大且尚未开发的潜力,这将对生物物理学和药物发现领域产生重大影响。

论文原文:

Monteiro da Silva, G., Cui, J.Y., Dalgarno, D.C. et al. Author Correction: High-throughput prediction of protein conformational distributions with subsampled AlphaFold2. Nat Commun 15, 3089 (2024). https://doi.org/10.1038/s41467-024-47504-0

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2200618, encodeId=9e3e220061845, content=<a href='/topic/show?id=158288e017c' target=_blank style='color:#2F92EE;'>#蛋白质#</a> <a href='/topic/show?id=b7201138469b' target=_blank style='color:#2F92EE;'>#AlphaFold 2#</a> <a href='/topic/show?id=955711384ed6' target=_blank style='color:#2F92EE;'>#Abl1激酶#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=9, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=113847, encryptionId=955711384ed6, topicName=Abl1激酶), TopicDto(id=113846, encryptionId=b7201138469b, topicName=AlphaFold 2), TopicDto(id=88701, encryptionId=158288e017c, topicName=蛋白质)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Fri Apr 26 21:04:43 CST 2024, time=2024-04-26, status=1, ipAttribution=陕西省)]

相关资讯

中国人群研究:吃肉也可降血压!Hypertension教你这样摄入蛋白质,新发高血压风险降低26%!

Hypertension:不同食物来源的蛋白质种类与新发高血压的负相关关系。

每天多25克蛋白质,可降低骨折风险!2.6万女性研究

茶和咖啡都含有多酚、植物雌激素,有助于保持骨骼健康。

NEJM:食物即良药!探索蛋白质、脂肪、碳水、膳食纤维“最佳”饮食方案

近日,《新英格兰医学杂志》(NEJM)发表了《全生命周期中能量和常量营养素指导建议》,该建议提出了当代营养的新概念,并对人类生长发育不同阶段对蛋白质、脂肪、碳水化合物、膳食纤维摄入量提出了相关建议。

谷歌AlphaFold破译“上帝密码”,解答困扰人类50年难题

中国科学院院士施一公认为:AlphaFold2是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。

Sci Rep:要降低代谢综合征风险,摄入哪种&多少蛋白质都有讲究!

不同膳食蛋白来源与代谢综合征的长期关联

Clinical Nutrition: 危重患者蛋白质摄入量和28天内死亡风险的相关性

蛋白质是生命活动的物质基础,具有多种生理功能,蛋白质摄入过多过少均不利于健康。因此为了保证身体健康,蛋白质应有适宜的摄入量,保证机体蛋白质“够用而不过多”。

同期两篇Science:人工智能革新蛋白质设计:准确而快速地创造蛋白质

两篇研究开发并证明了ProteinMPNN的广泛实用性和高准确性,弥补了以前使用Rosetta或AlphaFold进行的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白的不足。

让狼疮越来越稳定,从拒绝这种食物开始!

以“高盐、高脂、高糖饮食”为代表的“促炎饮食”对狼疮患者的病情进展是极为不利的,若想稳定住狼疮,尽早回归正常生活,我们不妨先从每日的“抗炎饮食”做起吧~

Clinical Nutrition: 蛋白质摄入对肾移植后骨骼肌质量变化的影响

肌少症(sarcopenia)又称肌肉减少症,是一种与年龄相关的老年综合症,其特征在于肌肉质量、力量和功能的逐渐丧失,并且是老年人衰弱、残疾和死亡的强有力因子。

AlphaFold是又一个“卡”中国脖子的核心技术?“我们必须从底层技术做起”

2022年7月28日,英国DeepMind公司表示,AlphaFold已经预测了全球几乎所有的蛋白质结构,短短一年时间,他们的蛋白质结构数据库中的数据从200万个扩增到超2亿个。