Nat Commun:汪小我团队提出知识引导与数据驱动相融合的合成启动子AI设计方法

2023-10-17 测序中国 测序中国 发表于上海

一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法,发现了转录因子结合位点旁侧序列在启动子优化设计中的重要作用,为突破基因调控元件设计中面临的高维度、小样本的核心难题提供了新的思路。

近年来,合成生物学作为一门新兴交叉学科获得了蓬勃发展,为破解人类面临的资源、健康、环境等重大挑战提供全新解决途径。合成生物学的核心理念是通过对DNA等生物大分子的逆向设计重构获得具有特定功能的人工生物系统。然而,这些生物分子编码的组合排列空间十分庞大,序列与功能的映射关系复杂,对生物大分子序列进行精准设计极具挑战。

近期,人工智能技术的突破引发了自然语言处理、计算机视觉等领域的革命性进步,尤其是以ChatGPT等为代表的生成式智能模型的突破,彰显出AI在提取复杂模式、生成复杂对象上的强大潜力。基于人工智能技术逆向设计启动子等具有特定功能的生物大分子序列,将为合成生物学的发展提供强大的设计工具和丰富的基础元件。

近日,清华大学自动化系汪小我团队提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法,发现了转录因子结合位点旁侧序列在启动子优化设计中的重要作用,为突破基因调控元件设计中面临的高维度、小样本的核心难题提供了新的思路。相关研究成果以“Deep flanking sequence engineering for efficient promoter design using DeepSEED”为题,于2023年10月9发表于《自然-通讯》(Nature Communications)期刊上。

图片

该研究围绕着启动子(Promoter)这一负责决定基因在何时、何地以何种程度进行转录表达的合成生生物学基础元件展开研究。DNA序列设计的空间巨大,1000bp长度的序列理论上有10^600种可能的排列组合方式。传统的启动子解析与设计研究主要侧重于对功能已知的转录因子结合位点(Transcription Factor Binding Sites, TFBS)进行分析,并通过位置权重矩阵(PWM)等模型对序列motif进行描述和建模。然而对在启动子序列中占据很大比例的位于不同TFBS之间的旁侧序列(Flanking sequence)却缺少研究。

虽然有实验表明,旁侧序列的改变也会对启动子活性产生影响,但由于旁侧序列中的特征信号弱,难以被人为归纳总结为明确的知识和设计准则,导致旁侧序列在启动子功能研究中被长期忽视。此外,由于天然基因组具有特殊功能的启动子往往样本数量很少,导致对响应特定生物信号的诱导型与细胞特异型等更具实际应用价值的启动子难以直接建立深度学习模型对整体模式进行提取。

针对上述问题,研究团队创新提出了一种知识引导与数据驱动相融合的智能设计策略DeepSEED(图1):首先基于人类专家擅长在小样本中识别明确强特征模式的特点,利用专家知识定义与启动子功能相关的重要显式模式例如TFBS或专家任意设定的序列片段作为“种子”;在此基础上,借助深度学习模型在大型数据集中提取隐含弱模式的强大能力,在海量数据中学习旁侧序列与种子序列间隐式匹配关系,进而基于条件生成式模型产生与“种子”相匹配的完整启动序列,并对序列整体进行全局优化。

DeepSEED方法由两个深度学习模块组成,一个条件式生成对抗网络(cGAN)用于捕获显式和隐式模式之间的依赖关系,一个基于DenseNet-LSTM的预测模型来评估启动子性能,并利用遗传算法对这两个模型进行偶联,通过模型迭代实现功能启动子的优化设计。在实际应用过程中,研究者可以任意指定已知生物调控序列作为“种子”,模型通过学习大数据中旁侧序列的调控规律对“种子”的旁侧序列进行补全,提升启动子的整体转录活性。从而实现启动子的按需优化设计。

图片

图1. DeepSEED模型框架。

研究团队成功将该方法应用于大肠杆菌内组成型启动子、IPTG诱导型启动子,和哺乳动物细胞内Dox诱导型启动子的优化设计(图2)。尤为值得一提的是,研究团队选择在生命科学研究中广泛使用的、近三十年来未能被进一步优化的哺乳动物细胞Dox诱导型Tet-On调控系统作为研究对象,实验表明77.8%的人工启动子表现出诱导活性提高,83.3%的人工启动子表现出更高的诱导倍数(图3)。生成的合成启动子表现出了高度的序列多样性、与天然基因组序列的低相似性,同时保留了天然序列中k-mer频率等特征,并优化了DNA大沟、小沟偏好、偏转角等整体形状属性,大幅提升了合成启动子的转录活性和诱导率等关键性能,并在多种不同培养条件和细胞类型中表现鲁棒。

图片

图2. 在多种启动子设计任务中成功应用。

图片

图3. 哺乳动物细胞内Dox诱导型启动子的设计结果。

综上所述,该研究基于知识引导与数据驱动相融合的创新策略,建立了人工智能辅助的启动子序列优化方法DeepSEED,能够有效突破功能启动子设计中维度高、样本小的核心难题,为研究者提供了可用于旁侧序列优化和多类型启动子设计的人工智能辅助工具,有望为合成生物学研究提供基础性的设计工具和多样化的调控元件。

原文链接:

https://www.nature.com/articles/s41467-023-41899-y

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

Eur J Radiol:人工智能在PI-RADS v2.1前列腺癌诊断中的应用及价值

人工智能在放射学各领域的实施引发了关于放射科医生的角色是否会过时的广泛讨论。虽然普遍认为人工智能是一种支持而非替代,但缺乏人工智能的基本知识与对其应用的消极态度有关。

Radiology:人工智能在床旁胸片临床判读中的应用

现阶段,临床上对计算机辅助解释胸片有很大的需求,而神经网络是解决这一诊断问题最有希望的手段。

GPT-4V:166页说明书讲解又全又详细

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;还传授了一整套多模态大模型提

Lancet Oncol.| 人工智能可以改善癌症治疗吗?

该篇文章报道了人工智能能否改善癌症患者的治疗,随着人工智能的持续发展,这项技术的影响可能会提高生产力,解决气候变化问题,并彻底改变医疗保健专业人员诊断、治疗和管理疾病的方式。

MODERN PATHOLOGY:基于人工智能的结肠直肠标本肿瘤检测和定量组织分析工具

本文开发了一个临床级人工智能诊断工具,用于基于大型、高质量、手动注释的数据集分析结直肠切除和活检标本。

2023年9月:人工智能魔幻的一月,AI正在加速进化

这周是AI历史上最具里程碑意义的一周!从OpenAI到Tesla,再到Amazon和Meta,各大巨头都在这一周展示了他们的最新突破。