Nature:计算蛋白质设计:AI如何重塑生物学的未来

2024-11-06 生物探索 生物探索 发表于上海

本文介绍计算蛋白质设计与机器学习进展,包括突破、挑战及在结合预测、催化剂设计、构象变化、复杂结构设计等方面的应用,强调合作推动发展及广阔前景。

引言

近年来,计算蛋白质设计(Computational Protein Design)与机器学习(Machine Learning)的进展,使得设计定制化蛋白质的梦想逐渐成为可能。自上世纪90年代以来,蛋白质结构与功能的研究不断取得突破,但实现蛋白质的精确设计仍然面临诸多技术挑战。德国慕尼黑路德维希·马克西米利安大学(Ludwig Maximilian University)的生物物理化学家阿莱娜·赫梅林斯卡娅(Alena Khmelinskaia)将这一过程比作“自动贩卖机”,她希望任何研究人员都能简单地指定蛋白质的功能、大小、位置以及相互作用伙伴等特性,便能得到满足所有要求的完美设计。这一愿景源于科学界对简化与自动化蛋白质工程的强烈渴望,类似于基因编辑技术的出现使得基因操作变得更为便捷。然而,尽管这一目标仍具有挑战性,但人工智能(AI)驱动的工具如RFdiffusion和Chroma正在使之逐步成为现实。(11月4日 Nature “Five protein-design questions that still challenge AI”)

图片

人工智能带来的突破

传统上,研究人员通过将蛋白质克隆到细菌或酵母中,并诱导这些微生物产生突变,直到获得目标蛋白质。此外,研究人员还可以手动修改氨基酸序列来设计蛋白质,但这一过程极为繁琐,且易导致蛋白质错误折叠或无法在细胞中成功表达。如今,机器学习技术彻底改变了这种现状。研究人员可以借助AlphaFold和RoseTTAFold等工具来预测蛋白质的正确折叠,借助这些工具,他们可以在计算机上生成新蛋白质的结构,并通过算法如ProteinMPNN匹配合适的氨基酸序列。只有当模拟结果令人满意时,研究人员才会进行物理蛋白质的合成与验证,而很多情况下实验结果也表现出色。

机器学习的快速发展使得许多曾经耗时且具有高度不确定性的任务现在可以高效地在计算机上完成。通过AlphaFold对蛋白质折叠的准确预测,研究人员可以避免繁琐的实验步骤,从而节省大量的时间和资源。与此同时,人工智能还帮助研究人员更好地理解蛋白质结构与功能之间的关系,这对于推动生物医学研究具有重要意义。例如,RoseTTAFold结合了深度学习算法,使得研究人员能够以更高的精度预测蛋白质的三维结构,这不仅提高了研究效率,也扩大了蛋白质工程的应用前景。

这种通过AI设计新蛋白质的方法已得到了广泛认可。2024年,AlphaFold及其开发团队因其在蛋白质结构预测和设计上的杰出成就荣获诺贝尔化学奖。这个奖项的获得标志着人工智能在生命科学领域的深远影响,尤其是蛋白质设计和工程领域的革命性变革。

蛋白质结合的挑战

蛋白质间相互作用的预测是早期蛋白质设计中的一大难题,这对于药物开发至关重要,因为特定蛋白质的结合物可能充当药物以激活或抑制特定的疾病通路。蛋白质与配体的精确结合是药物设计的关键,而生成式AI工具在解决这一问题方面发挥了重要作用。得益于RFdiffusion和AlphaProteo等生成式AI工具,预测蛋白质间相互作用变得相对简单。对于大多数蛋白质,这些工具能够生成与目标蛋白质精准结合的配体,就像手套与手的契合。

尽管如此,当目标是其他小分子时,AI的表现仍不尽如人意,尤其是在药物与蛋白质结合的情境下。小分子与蛋白质之间的相互作用比蛋白质之间的相互作用更加复杂,因为小分子通常具有多样的化学结构和特性。许多制药公司拥有大量与小分子结构及其与蛋白质的相互作用相关的数据,但这些数据大多是商业机密,而公开的数据往往数量有限且注释不足。这些限制使得AI在该领域的表现难以全面推广和普及。

为了应对这些挑战,研究人员正致力于开发新的机器学习模型,这些模型能够更好地处理小分子与蛋白质的结合预测问题。举例来说,AlphaFold3的推出为蛋白质与小分子的相互作用提供了更高的预测精度。虽然这种方法仍然面临数据不足和模型复杂度等问题,但它为药物发现提供了新的工具和思路。谷歌DeepMind团队的计算生物学家Jue Wang指出,尽管公开数据有限,但通过对现有数据进行深度学习训练,模型在一些重要类别的相互作用上已实现了显著提升。

新型催化剂的设计努力

研究人员希望通过计算工具来设计出具有全新功能的酶,例如可以从大气中捕获二氧化碳或有效分解环境塑料的催化剂。设计出全新功能的酶不仅具有重要的环境意义,还有助于推进生物化学反应的高效化和绿色化。最合理的起点是利用自然界中具有相似功能的酶作为基础。例如,能够分解氢-硅键的天然酶可能是设计能分解碳-硅键的人工酶的理想模板。

然而,蛋白质形状的相似性并不总是意味着功能的相似性。有些酶的形状截然不同,但却能执行相同的任务。因此,理解酶之间的功能联系,以及如何重新创造这些功能,是蛋白质设计中的一个重大挑战。研究人员必须在大量的酶样本中寻找特定功能的线索,这一过程既需要对生物学的深刻理解,也需要先进的机器学习工具的辅助。

为了克服这一挑战,一些研究团队开发了新方法来分析酶的活性部分。例如,大卫·贝克(David Baker)及其同事利用RFdiffusion设计了一组水解酶(hydrolases),并通过机器学习分析这些酶在每个反应步骤中的活性区域。这些工作为理解酶的活性机制提供了新的视角,并证明了通过AI分析酶活性区域以指导新型催化剂设计的可行性。

研究人员还在探索如何设计可以在特定环境条件下发挥作用的酶,例如在极端温度或pH值下保持活性的酶。这些特殊酶在工业和环境工程中具有广泛的应用前景,例如高温条件下的生物降解过程或在酸性环境中的催化反应。通过结合机器学习和实验验证,研究人员希望能够开发出一系列适应性强、效率高的人工酶。

蛋白质的构象变化

蛋白质通常不是静态的分子,而是能够打开、关闭、扭曲和弯曲。这些构象变化受温度、pH值、化学环境以及与其他分子结合的影响。然而,实验中获得的蛋白质结构往往只是其最稳定的构象,这并不一定是蛋白质在活性状态下的形态。

蛋白质的动态特性对于其功能至关重要,尤其是在涉及信号传导和催化反应的情况下。计算蛋白质的所有可能构象是一个极具挑战性的任务。微软研究院的杨凯文(Kevin Yang)表示,要真正理解蛋白质如何发挥作用,研究人员需要掌握其所有可能的构象变化。设计能够模拟这些动态变化的AI模型因此显得尤为重要。

为了更好地理解蛋白质的动态行为,研究人员采用了多种策略,包括使用分子动力学模拟和机器学习模型来捕捉蛋白质在不同条件下的构象变化。分子动力学模拟可以提供关于蛋白质运动的详细时间序列数据,但计算成本高昂且耗时,而机器学习模型则可以通过从大量数据中学习来快速预测蛋白质的可能构象,从而在精度与效率之间取得平衡。

复杂结构的设计

蛋白质不仅可以作为酶类,其还能够作为构建模块,用于自组装成能够携带货物进入细胞、产生机械力,或展开错误折叠的蛋白质等复杂结构。通过合理设计,蛋白质可以被赋予多种新颖的功能,用于解决实际的生物医学问题。在COVID-19大流行期间,韩国和英国相继批准了基于计算设计的蛋白质制成的疫苗SKYCovione的紧急使用,这标志着计算蛋白质设计在医疗领域取得了重要进展。

赫梅林斯卡娅的团队正在利用机器学习算法开发中空纳米颗粒,这些纳米颗粒可以用于将药物或毒素输送到细胞内部。这些纳米颗粒的设计需要考虑多种因素,包括其在细胞环境中的稳定性、与细胞膜的相互作用以及其在目标位置的释放机制。对于更为复杂的结构,如细菌鞭毛,目前仍面临巨大的挑战,因为现有的数据量不足以训练生成式AI模型来从头开始设计这类分子机器。因此,研究人员需要逐个开发分子机器的组成部分,并通过这些组件的灵活组合来实现最终的设计目标。

此外,蛋白质自组装的研究也取得了显著进展。蛋白质自组装体可以作为纳米材料,用于药物传递、基因治疗和疫苗开发等领域。通过计算工具,研究人员可以预测和优化蛋白质自组装的过程,从而提高其稳定性和功能性。例如,某些设计的蛋白质可以自发地组装成纳米笼结构,这些纳米笼能够包裹其他分子并在特定条件下释放,从而实现精确的药物输送。

尽管AI在蛋白质设计领域取得了巨大进展,但它仍然存在诸多局限性。例如,AI系统有时会生成一些在自然界中并不存在的“幻觉”结构,或者在缺乏足够的训练数据时,其预测准确性受到影响。因此,人类研究人员在设计和组合蛋白质时的创造性依然不可或缺。

要使AI真正实现赫梅林斯卡娅的“自动贩卖机”愿景,团队协作至关重要。计算机资源和数据的充足使得蛋白质设计成为一个日益热门的研究领域。随着越来越多的研究人员加入,合作的力量将加速这一领域的发展,使我们离梦想中的全自动蛋白质设计机器更进一步。各领域的专家需要紧密合作,将计算生物学、化学、物理学和生物技术相结合,以解决蛋白质设计中的多重挑战。

在未来,研究人员希望能够开发出更多功能强大且应用广泛的蛋白质,从医疗到工业再到环境保护,计算蛋白质设计的应用前景几乎是无穷无尽的。例如,在医疗领域,人工智能辅助的蛋白质设计可以帮助开发新型药物靶点、精准的抗体疗法以及个性化的治疗方案;在工业领域,定制化的酶可以显著提高化学反应的效率,减少能耗和污染;在环境保护方面,特定设计的酶可以用于污染物的降解以及温室气体的固定。

参考文献

https://www.nature.com/articles/d41586-024-03595-9

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2235398, encodeId=6fcd22353985e, content=<a href='/topic/show?id=7d806121594' target=_blank style='color:#2F92EE;'>#机器学习#</a> <a href='/topic/show?id=940412101820' target=_blank style='color:#2F92EE;'>#计算蛋白质设计#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=12, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61215, encryptionId=7d806121594, topicName=机器学习), TopicDto(id=121018, encryptionId=940412101820, topicName=计算蛋白质设计)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Tue Nov 05 23:43:34 CST 2024, time=2024-11-05, status=1, ipAttribution=上海)]

相关资讯

Sci Rep:中国学者研究---比较评估基于机器学习的影像组学模型预测局部进展期胃癌网膜转移的能力

在使用不平衡的二分类样本构建局部进展期胃癌大网膜转移预测模型时,基于LR的模型存在PPV低、假阳性率高的缺点。

【论著】| 基于胸部增强CT影像组学模型用于胸腺瘤分类的研究

本研究旨在建立影像组学分类模型,利用CECT图像区分胸腺瘤的风险组,并验证模型在相对较大的回顾性队列中的可靠性和泛化能力。

JNS:应用机器学习构建肺癌与环境激素的关联模型

肺癌护理评估缺乏对环境激素检测与疾病之间关系的模型,影响对肺癌风险的预测。研究提出重建肺癌护理评估,以综合评价危险因素。

Cell子刊:基于机器学习的分析识别和验证血清外泌体蛋白质组学特征,可用于结直肠癌的诊断!

该研究表明采用了深入的4D-DIA蛋白质组学和机器学习(ML)管道,从37例发现队列的血清EV样本中鉴定出了用于CRC诊断的关键蛋白PF4和AACT。

Schizophrenia:首次发作精神病患者功能预后多变量预测模型的交叉验证:基于EUFEST和PSYSCAN的研究

本研究在EUFEST和PSYSCAN两大数据集上开发了首次发作精神病患者的功能预后模型。尽管在单一数据集中模型表现良好,但外部验证中准确率显著下降,反映了外部验证对模型临床应用的重要性。

European Radiology:机器学习和深度学习对脑CT转诊的合理性分类

目前,解决CT过度使用的可用方法包括引入新的诊断成像途径,提供替代成像、专家参与、成像后复核以及将每个转诊者的预约频率与部门平均水平进行比较的反馈。

Nat Commun:结合机器学习与血浆蛋白质组质谱分析可提前7年预测帕金森病,准确率达79%

该研究表明,血浆蛋白质组检测或有助于在运动症状出现前7年预测PD的发生。

European Radiology:基于多参数MRI的机器学习模型预测脑膜瘤患者WHO分级

放射组学利用强大的计算机图像处理能力和多种大数据挖掘方法提取多维特征,尽管这些特征很难从视觉上获得,但保留了与研究相关的信息,如数字加密医学图像(CT、MRI和PET)中的一阶、形状、纹理特征。

JOP:利用机器学习预测早产儿拔管准备情况

通过使用机器学习,利用床旁脉搏血氧仪和呼吸机的数据提高了早产儿拔管准备情况的预测准确性。

【论肿道麻】Lancet子刊:一个针对老年重症监护室患者的机器学习病情严重程度评估模型: 一项有亚组偏移评估的多中心研究

作者主要研究了与老年相关的因素,包括营养状况、活动状态、合并症和抢救意愿等,检查了这些因素的特征重要性,并通过按年龄、性别和种族的亚群中的分辨力和校准性能来评估模型偏倚。